Universiteit Leiden
  home   contact      
 
 
 
Archief
   

Mededelingen

ICT grote verstoringen

We hebben afgelopen maand een reeks opeenvolgende storingen meegemaakt, die het mailverkeer en de werkplekken ernstig hebben ontregeld. We hebben hierbij te maken gehad met:

  • vertraging in de mailafhandeling
  • hardwareproblemen in de schijvenkabinet van de mailvoorziening
  • een virusuitbraak

Vanaf eind september tot ca. dinsdag 17-10 traden er toenemende vertragingen in de afhandeling van externe mail op. Dit maakte urgente mailcommunicatie met de wereld buiten de faculteit vrijwel onmogelijk.

De hardwareproblemen veroorzaakten uitval van de mailserver op donderdagmiddag en -avond 19-10 en vrijdagmiddag 20-10 tot en met zondag 22-10. Een relatie met het eerste probleem lijkt er niet te zijn.

Op dinsdag 30-10 tenslotte openbaarde zich een virus, dat zich snel via het netwerk wist te verspreiden en door de antivirusprogrammatuur niet verwijderd kon worden. Dezelfde avond besloot de I-Groep computers het getroffen netwerksegment af te sluiten, om verdere uitbreiding te voorkomen. Op donderdag 1-11 werd een gedeelte van het netwerk weer vrijgegeven, maar het duurde nog enige dagen voordat alle getroffen machines waren geschoond.

Hieronder volgt een uitvoerige beschrijving van de verschillende storingen en de afhandeling ervan, waarbij aangetekend moet worden dat diepgaand onderzoek naar technologie en beheerprocedures nog gaande is.

Daarna volgt een bespreking van de spamproblematiek. In september was de discussie met de ict-contactpersonen om toch meer aan spamwering te doen net geopend, toen de hiervoor genoemde problemen zich voor begonnen te doen.  Nu de situatie zich genormaliseerd lijkt te hebben, is dit een urgent punt.

Mailvertraging

Vanaf eind september traden er toenemende vertragingen op in de afhandeling van mail van en naar externe contacten.

Hoewel de hoeveelheden spam ongeveer constant bleven, zijn er sterke aanwijzingen dat er samenhang met spam was. Er was een opvallende toename te zien in de verwerkingstijd van mail verzonden naar niet-bestaande adressen binnen ons domein, waarbij de afzenders niet bereikt konden worden om een boodschap 'adres onbekend' aan te versturen. Dit wijst op spammers, die vaak gebruik maken van mailservers die maar korte tijd actief zijn.

Omdat de server bij een mislukt contact enige malen opnieuw contact probeert te leggen, liepen de wachttijden onaanvaardbaar hoog op.

Het gevolg was, dat veel urgente mail van buiten de faculteit niet meer tijdig aankwam. Hierdoor liep de communicatie met studenten, het bestuursbureau van de universiteit en externe partijen steeds minder naar behoren. In het volle besef dat daarmee ook een deel van gewenste mail niet meer verwerkt zou kunnen worden, hebben we gemeend met het tijdelijk blokkeren van mail afkomstig van geblackliste servers de toevloed van onadresseerbare mail te moeten stoppen, zodat het merendeel van de reguliere mail tenminste weer normaal verwerkt zou kunnen worden. Het effect bleek echter marginaal, zodat we na anderhalve dag besloten de maatregel weer terug te draaien. Dit tot groot verdriet van de spamhaters binnen deze faculteit. Wij delen echter met de betreffende gebruikersgroepen de observatie dat een substantieel van hun reguliere communicatie onmogelijk werd door de blokkering, wat het middel (blokkering) ernstiger maakt dan de kwaal (spam).

Dat spam de hoofdoorzaak was van de vertragingen, is op moment van schrijven nog steeds niet hard gemaakt.  De mailserver en het spamfilter zelf hebben geen teken van congestie vertoond, het was alleen de wachtrij voor externe communicatie waar het probleem zichtbaar werd. Het probleem leek zich merkwaardigerwijs grotendeels vanzelf weer op te lossen, al voordat een aantal technische maatregelen om de overlast te verminderen waren doorgevoerd.
Inmiddels is wel een aantal maatregelen doorgevoerd die de overlast bij herhaling van het probleem moeten verminderen:

  • in- en uitgaande stromen lopen niet meer over dezelfde verbinding
  • op het spamfilter is de laatste 'patch' geïnstalleerd

Storing mailserver

Op woensdagmiddag 18-10 gaf een schijf in het schijvenkabinet van de mailvoorziening een waarschuwing, dat deze niet meer optimaal functioneerde. Daarom is deze schijf op donderdag 19-10 preventief vervangen.

Het schijvenkabinet redundant ingericht: elke schijf kan uitvallen, zonder dat daarmee een server uitgeschakeld hoeft te worden of gegevens verloren gaan. Wel is het zo, dat bij vervanging van de schijf het systeem tijdelijk hoog wordt belast, omdat het systeem zijn gegevens over de nieuwe schijfindeling moet verdelen. Dat brengt enige vertraging met zich mee, die meestal door de gebruiker onopgemerkt blijft.

In het onderhavige geval liep het systeem vrijwel volledig vast. Al snel bleek, dat de mailgegevens van één van de mailservers, die voor Letteren de gebruikers 'K' tot en met 'Z' bedient, niet meer gekoppeld konden worden aan de maildienst.  De bestanden waren aanwezig, maar bleken niet meer beschikbaar te maken voor de mailserver.

Na een nacht vruchteloos zoeken naar een oplossing, is op vrijdagochtend 20-10 besloten de backup van woensdagavond 18-10 terug te plaatsen. (vanwege de storing de voorgaande dag, was dit de laatst beschikbare backup). Dit betekende een verlies van gegevens voor de getroffen gebruikersgroep van de gegevens die tussen het tijdstip van de backup en het optreden van de storing verwerkt waren. Gegevens van na het tijdstip van storing stonden in de wachtrij en waren dus nog beschikbaar.

Nadat de getroffen mailserver vrijdag 20-10 weer in de lucht was gebracht, gaf de mailserver relatief veel foutmeldingen af. Reden voor de I-Groep om het systeem extra te monitoren en naar andere defecten te zoeken. Vrijdagmiddag moest de getroffen mailserver opnieuw zijn diensten staken.

Met behulp van hardwareleverancier Dell, werd het euvel pas in derde instantie en na een etmaal zoeken gevonden in een component, die tot dan geen enkele signaal had gegeven dat er dingen mis gingen. Toen dit onderdeel vervangen was, werkte de server weer naar behoren.

Het terugzetten van de gegevens nam bijna de hele zondag (22-10) in beslag. Tijdens het terugzetten van de gegevens bleek evenwel, dat een klein deel van de data 'corrupt' was geraakt, zoals dat in jargon heet: niet meer leesbaar en daardoor verloren. In overleg met de facultaire informatiemanager is besloten niet opnieuw de backup van woensdag 18.00u terug te zetten, omdat daardoor de hele gebruikersgemeenschap met zekerheid de mail van 2 dagen kwijt zou zijn. Het was evenwel ook bekend, dat bij een beperkt aantal gebruikers ook mail van eerder datum verdwenen zou kunnen zijn. Er zijn bij ons inderdaad 4 gebruikers gemeld (waarvan 1 bij Letteren), die delen van hun mail kwijt waren.

Zondagavond 22-10 was de maildienst weer volledig beschikbaar voor intern mailverkeer. Er is gewacht met het vrijgeven van het externe mailverkeer tot maandagmorgen 23-10, omdat toen weer ondersteuning aanwezig was die snel zou kunnen reageren op eventuele gebruikersproblemen.

Maandag 23-10 is de wachtrij aan onverwerkte mail die in het weekend ontstaan was weggewerkt, waarna dinsdag 24-10 de maildienst weer volop functioneerde.

Virusuitbraak

Op dinsdag 30-10 traden bij een aantal gebruikers problemen op, die veroorzaakt bleken te worden door een virus. Dit virus trof zowel open pc's als gesloten pc's, maar moet in eerste instantie via een open pc zijn binnengekomen. Eenmaal aanwezig, verspreidde het virus zich via het netwerk naar andere pc's.

Het betrof een kwaadaardig virus: toetsaanslagen werden uitgelezen, waarmee wachtwoorden en dergelijke kunnen worden achterhaald, werkbestanden van Word en instellingenbestanden werden verwijderd. Om verdere verspreiding over het universitaire netwerk te voorkomen, besloot de I-Groep diezelfde avond nog alle pc's in het getroffen netwerksegment af te sluiten. Daarmee kon ongeveer de helft van de faculteit niet meer werken.

Nadere analyse leerde, dat ongeveer de helft van het betreffende netwerkgedeelte niet besmet was.  Dit gedeelte werd daarom na een etmaal weer vrijgegeven.

Het restant van de pc's moest gescreend worden op het virus en - bij geconstateerde besmetting - opnieuw worden geïnstalleerd. Dit uiterst arbeidsintensieve werk heeft nog enige dagen in beslag genomen.

Na herinstallatie, moesten gebruikers nog voorzien worden van standaardtoepassingen die niet tot de basisinstallatie hoorde.

Maandagmorgen 5-11 berichtte de I-Groep dat alle werkplekken weer aangesloten waren, maar problemen in de nasleep van herinstallatie waren toen nog niet alle opgelost.

De virusuitbraak toont de kwetsbaarheid van de organisatie aan. Afsluiting van een groot deel van de faculteit van het netwerk is een maatregel, die alleen in geval van nood genomen mag worden.

Het voorkomen van de vele open pc's, die inherent onveiliger zijn doordat kwaadwillende programmatuur gebruik kan maken van de 'local admin' rechten van de gebruiker, blijkt eens te meer de hele faculteit kwetsbaar te maken. Er zullen maatregelen genomen moeten worden, om de risico's meer te isoleren.

Ook blijkt het installatiemechanisme van pc's, nodig bij herstel van calamiteiten, te veel tijd in beslag te nemen. Hierdoor kost het herstel van zo'n calamiteit veel meer tijd, dan het bedrijfsbelang toestaat. Ook op dit vlak zullen maatregelen volgen.

Zie ook: ICT Nieuws

  1. Netwerkaansluitingen in de collegezalen en op de werkplek
  2. Migratie ActiveMedia
  3. Web hosting van applicaties
  4. Vervanging van verouderde computers
  5. Integratie Letterenomgeving en Rechten/Rapenburg (VUW2)
  6. Nieuw Surfproject binnenkort van start: DiviDossier
  7. SPAM problematiek
                                    
 
   
vorige pagina top pagina