Teknisk djupdykning: den mystiska routerkraschen

av Jörgen Städje den 11 Jun 2006

Det mest frustrerande av alla fel är när något kraschar utan synbar anledning. Inga yttre händelser kan pekas ut som orsak. Inget strömavbrott. Ingen ny programuppdatering. Ändå bara stannar maskinen eller operativsystemet plötsligt och måste startas om. I Sunets fall behövdes en lidnersk knäpp för att komma på felet.

ciena 4350Efter att switchar från Ciena av typen CN 4350 Ethernet Services Provisioning Switch hade installerats i nätet år 2006 började de krascha på till synes slumpmässiga tider. När de kraschade var det enda botemedlet att dra ur strömmen och starta om dem.

Switcharna kraschade med 497 dagars mellanrum, men det förstod man inte först. En dag sade det dock ”pling” i skallen på Börje Josefsson när det stod klart för honom att 497 dagar är 32 bitar räknat i hundradels sekunder.

På ett dygn går det (24*60*60) = 86.400 sekunder vilket är detsamma som 8.640.000 100-dels sekunder. Om man har en 32-bitars räknare som räknar upptid i hundradels sekunder visar det sig att den slår om från
11111111111111111111111111111111
till
00000000000000000000000000000000
enligt följande:

2^32/8640000 = 497,1 dygn

När teorin väl var klarlagd, var det bara att verifiera teorin. Sunets tekniker Magnus Bergroth fick sitta framför switchen vid högskolan i Västerås, för den förmodades vara den som skulle krascha härnäst. Börje hade förutsagt när den skulle krascha och Magnus fick sitta och titta på när den kraschade. Det gjorde den.

Sunet klagade visserligen hos tillverkaren, men eftersom det ändå var mer än ett år mellan krascharna var det inte hela världen att lägga in en planerad omstart innan detta inträffade. Idag finns utrustningen inte kvar i nätet längre.

Det utsökt nördiga i det hela är att komma på att 497 dygn är ett väldigt jämnt tal.

Annan harakiri

Ibland kan för många kockar ge en soppa som ordnar automatiskt självmord. Trafikflygplanet Boeing 787 Dreamliner är genomdatoriserat, till skillnad från tidigare plan som varit mest axlar, vajrar och reläer.

Bild: MilborneOne, CC BY-SA 3.0
Bild: MilborneOne, CC BY-SA 3.0

Flygplanets båda jetmotorer har generatorer kopplade till motoraxeln, som skapar ström åt flygplanets alla system. Förr var det en vanlig, dum växelströmsgenerator. Punkt. Numera är den datoriserad och har en styrenhet kallad Generator Control Unit (GCU), som har en upptidsräknare. Efter 248 dagar slår den runt till noll och då hamnar GCU i felsäkert läge och slutar generera ström. Trist, om flygplanet skulle råka vara uppe i luften då. Felet upptäcktes i maj 2015 och sannolikt fick någon på Boeing en skopa ovett av sin chef efteråt.

Sunets 32-bitarsbugg var på 497 dagar, så Boeing verkar bara ha 31 bitar (32 bit signed) i sin räknare. 248 är hälften av 497.

Sättet att komma runt problemet är att starta om flygplanet innan 248 dagar förflutit. Ctrl-Alt-Del. Annars blir det blåskärm, eller till och med krasch av allvarligare art än hos Sunet.

Men problem med upptidsräknare är ingalunda nytt.

Win95Windows 95 hade också inbyggd harakiri. Systemet hade en upptidsräknare som räknade millisekunder och var 32 bitar lång. När den slog runt till noll efter cirka 47 dygn blev datorn ”konstig”. Men å andra sidan tog det flera år innan man lyckats få systemet att vara igång så länge att man kunde upptäcka felet. Efteråt vidtog dock många organisationer som var kritiskt beroende av Windows omstarter på regelbunden basis, bland annat satellitkontrollen på Esrange.

Tvärtom

Så finns det ju andra system som aldrig tycks stanna. Ett av de mest stabila operativsystem som någonsin funnits – för det finns inte längre – var Novell NetWare. Det var känt för sin fantastiska stabilitet. En solskenshistoria, som faktiskt kan verifieras, är University of North Carolina som hade en NetWare 3.12-server på sitt kontor. Den bara stod där och körde fil och print, som var vanligt på den tiden.

Sedan byggdes kontoret om. En dag skulle man inventera maskinvaran och då kunde man inte hitta servern. Någon följde sladdarna och fann att servern byggts in bakom en gipsvägg. Upptiden ska ha belöpt sig till 4 år.

Man kan notera att operativsystemet FreeBSD inte är så oävet det heller. Upptider på 10-12 år är inte ovanligt.

Rekordet löper dock på 6030 dagar eller 16,5 år. NetWare 3.12 gick fortfarande bra men hårddiskarna hade skurit i lagren när meddelandet ”File server INTEL is down. Connection terminated” kom.

Läs mer

Ciena skryter om installationen: http://investor.ciena.com/phoenix.zhtml?c=99134&p=irol-newsArticle_Print&ID=997771

Boeings upptidsräknare: http://www.theregister.co.uk/2015/05/01/787_software_bug_can_shut_down_planes_generators/

Om datoriserade flygplan: http://techworld.idg.se/polopoly_fs/1.174315.1414504276!saab_2000_nok-16-2003-bettre.pdf (se motor-generator-styrenhet på systemskissen)

Novells upptid: http://arstechnica.com/information-technology/2013/03/epic-uptime-achievement-can-you-beat-16-years/

Fler blogginlägg av Jörgen Städje

DNS och DNSSEC utan facksnack

30 Jan 2018
/ Bloggen fiberfeber

Från oss alla, till er alla

14 Dec 2017
/ Bloggen fiberfeber

Så arbetar NOC

13 Nov 2017
/ Bloggen fiberfeber

SUNET i Hongkong

20 Sep 2017
/ Bloggen fiberfeber

SUNETs handbok i informations- och IT-säkerhet

1 Sep 2017
/ Bloggen fiberfeber

Den ökända hästen från Troja

31 Jul 2017
/ Bloggen fiberfeber

Redundans är allt

3 Jul 2017
/ Bloggen fiberfeber

SNIC-snack

2 Jun 2017
/ Bloggen fiberfeber

We have liftoff: del 5 av 2

3 Maj 2017
/ Bloggen fiberfeber

Maria Häll: We are at the Forefront!

13 Apr 2017
/ Bloggen fiberfeber

Maria Häll: Vi ligger i framkant!

10 Apr 2017
/ Bloggen fiberfeber

We have liftoff, del 4 av 2

22 Feb 2017
/ Bloggen fiberfeber

We have liftoff, del 3 av 2

30 Jan 2017
/ Bloggen fiberfeber

We have liftoff! Del 2 av 2

9 Jan 2017
/ Bloggen fiberfeber

We have liftoff! Del 1 av 2

16 Dec 2016
/ Bloggen fiberfeber

Long Read – Cleanliness is a Virtue

20 Sep 2016
/ Bloggen fiberfeber

Långläsning - tvättar bäst som tvättar först

16 Sep 2016
/ Bloggen fiberfeber

Följa fiber – från Tulegatan till Stockholms universitet.

26 Aug 2016
/ Bloggen fiberfeber

Ericsson, then swänske Lars Magnus

7 Jun 2016
/ Bloggen fiberfeber

One ring to rule them all

24 Maj 2016
/ Bloggen fiberfeber

Den tunga bakgrundstrafiken

12 Maj 2016
/ Bloggen fiberfeber

Long read: How to Design a Fibre Optic Network

5 Maj 2016
/ Bloggen fiberfeber

Welcome to the Fiber Fever Blog!

3 Maj 2016
/ Bloggen fiberfeber

Procuring an Optical Network – Smooth as Silk

2 Maj 2016
/ Blogg

The Breadth and Width of a Megabit

29 Apr 2016
/ Blogg

The Nobel Prized Piece of Glass

28 Apr 2016
/ Blogg

What’s the time? Really?

28 Apr 2016
/ Blogg

SUNET in i molnet (3) – molnsäkerhet

26 Apr 2016
/ Blogg

SUNET in i molnet (2) – vad är molnet egentligen?

25 Apr 2016
/ Blogg

SUNET in i molnet (1) – det här får du

25 Apr 2016
/ Blogg

Read about the brand new Sunet network.

11 Apr 2016
/ Bloggen fiberfeber

GÉANT och NORDUnet – bästa kompisar

14 Mar 2016
/ Bloggen fiberfeber

Ljuset kommer från Tyskland

3 Mar 2016
/ Bloggen fiberfeber

Thunderbirds are GO!

19 Feb 2016
/ Bloggen fiberfeber

Ett panorama av verkligheten

17 Feb 2016
/ Bloggen fiberfeber

Det allseende ögat

15 Feb 2016
/ Bloggen fiberfeber

Förstärkning på längden

15 Jan 2016
/ Bloggen fiberfeber

Dämpning och förstärkning i optisk fiber

14 Jan 2016
/ Bloggen fiberfeber

Grundläggande om L-bandet

14 Jan 2016
/ Bloggen fiberfeber

C-bandet – grundläggande om

14 Jan 2016
/ Bloggen fiberfeber

Logaritmer, min käre Watson

14 Jan 2016
/ Bloggen fiberfeber

CERN – krossen som slår sönder materiens minsta byggstenar

12 Jan 2016
/ Bloggen fiberfeber

Riksarkivets samarbete med SUNET

11 Jan 2016
/ Bloggen fiberfeber

One Ring to Rule them - Vetenskapsrådet

21 Dec 2015
/ Bloggen fiberfeber

Alla jättars jätte - Cisco

19 Dec 2015
/ Bloggen fiberfeber

En värld av siffror - belastning

19 Dec 2015
/ Bloggen fiberfeber

Ur led är inte alls tiden - atomur

19 Dec 2015
/ Bloggen fiberfeber

En djungel av kontaktdon

4 Dec 2015
/ Bloggen fiberfeber

Elektronisk enbärsdricka - Juniper

27 Nov 2015
/ Bloggen fiberfeber

Vad är Géant?

26 Nov 2015
/ Bloggen fiberfeber

Radar Love - Eiscat

25 Nov 2015
/ Bloggen fiberfeber

The Color Purple - dispersion

25 Nov 2015
/ Bloggen fiberfeber

Full Metal Packet - switchen

10 Nov 2015
/ Bloggen fiberfeber

Get your kicks on route 66 - routrar

10 Nov 2015
/ Bloggen fiberfeber

Game of Stones - kvarts

10 Nov 2015
/ Bloggen fiberfeber

The Twilight Zone - fotonen

10 Nov 2015
/ Bloggen fiberfeber

Peering – SUNETs ekonomiska ryggrad

9 Nov 2015
/ Bloggen fiberfeber

I mörkret är alla katter infraröda

4 Nov 2015
/ Bloggen fiberfeber

Fibertyperna i nätet och deras optiska felaktigheter

29 Okt 2015
/ Bloggen fiberfeber

Vad är klockan? Egentligen?

21 Okt 2015
/ Bloggen fiberfeber

Nätets centrum

20 Okt 2015
/ Bloggen fiberfeber

Den optiska transceivern

17 Okt 2015
/ Bloggen fiberfeber

Polarisation och informationsöverföring

1 Okt 2015
/ Bloggen fiberfeber

Laserns historia

30 Sep 2015
/ Bloggen fiberfeber

Koherent ljus, vad är det?

28 Sep 2015
/ Bloggen fiberfeber

När allt är klart

28 Sep 2015
/ Bloggen fiberfeber

SUNET – nu ännu bättre!

16 Sep 2015
/ Bloggen fiberfeber

Fibern fruktar fukten

11 Sep 2015
/ Bloggen fiberfeber

Att få kontakt

11 Sep 2015
/ Bloggen fiberfeber

Så tillverkas optisk fiber

31 Aug 2015
/ Bloggen fiberfeber

EMC – EMI – EMP

31 Aug 2015
/ Bloggen fiberfeber

Glasbiten som gav nobelpris

21 Aug 2015
/ Bloggen fiberfeber

Megabit på längden och tvären

21 Aug 2015
/ Bloggen fiberfeber

Långartikel: Fibern från Frostmofjället

21 Aug 2015
/ Bloggen fiberfeber

Upphandling av optiskt nät

25 Jul 2015
/ Bloggen fiberfeber

OptaSense – när fiber blir sensorer

3 Jul 2015
/ Bloggen fiberfeber

Teknisk djupdykning: Optisk magi med ramanförstärkare

2 Jul 2015
/ Bloggen fiberfeber

Teknisk utvikning: 130.000 fibrer som i en liten ask

1 Jul 2015
/ Bloggen fiberfeber

NOCen spekulerar 2: Felrapporter

27 Jun 2015
/ Bloggen fiberfeber

NOCen spekulerar 1: hög belastning

26 Jun 2015
/ Bloggen fiberfeber

Teknisk djupdykning: Optisk magi med EDFA

22 Jun 2015
/ Bloggen fiberfeber

Långartikel: Så designar man ett fiberoptiskt nät

11 Jun 2015
/ Bloggen fiberfeber

Bredare motorväg för svenska data – äntligen en offensiv satsning!

22 Maj 2015
/ Bloggen fiberfeber

Om den interaktiva tidslinjen

21 Maj 2015
/ Bloggen fiberfeber

Om den interaktiva kartan

20 Maj 2015
/ Bloggen fiberfeber

Fiberfeber: Vad som har varit och vad som komma skall

19 Maj 2015
/ Bloggen fiberfeber

Följ bygget av Sunets nät på bloggen Fiberfeber!

18 Maj 2015
/ Bloggen fiberfeber

2000–2013: Sunet mognar och kapaciteten ökar. Identitetsfederation skapas.

1 Jan 2000
/ Bloggen fiberfeber

1990–1999: Kapaciteten stiger, 2 – 34 – 155 Mbps

1 Jan 1990
/ Bloggen fiberfeber

1968–1989: Idéernas tidevarv. Internets vagga.

1 Jan 1968
/ Bloggen fiberfeber

Jörgen Städje

Jag heter Jörgen Städje och har skrivit om teknik och vetenskap sedan 1984. Friskt kopplat, hälften brunnet!


Warning: file_get_contents(https://www.linkedin.com/countserv/count/share?url=https://www.sunet.se/blogg/teknisk-djupdykning-den-mystiska-routerkraschen/&format=json): failed to open stream: HTTP request failed! HTTP/1.0 404 Not Found in /var/www/html/wp-content/themes/sunet/functions.php on line 5416