default logo

Xelion managed telefonie storing 22-23 februari 2021

Sinds maandagochtend ca 08.00 uur zijn er problemen met ons Xelion telefonie platform. De server waarop deze dienst draait is niet stabiel.

Op dit moment is een team engineers bezig om de situatie te onderzoeken. Tijdens dat onderzoek houden we de dienst offline. Vanaf nu zullen we regelmatig updates plaatsen op deze pagina.

Onze excuses voor de overlast, we doen ons best om de dienst zo snel mogelijk weer stabiel in de lucht te krijgen.

14.00 Na restart van de server is de Linux kernel software van de Xelion server updated naar de laatste versie. Dit bleek het probleem niet op te lossen.

15:00 Storing is geëscaleerd naar hardware engineering team. Klanten voorzien van een fail-over doorschakeling naar mobiel waar nodig.

15:45 Hardware diagnostiek is in uitvoering. Het kan een uur duren voordat deze tests zijn afgerond. Hopelijk weten we dan meer.

16:35 Engineers melden dat vermoedelijk defecte geheugenmodules vervangen gaan worden.

17:08 Engineering meldt terug dat de geheugenmodules zijn vervangen en er wordt nu een firmware update uitgevoerd op de machine.

19:00 Server blijkt nog steeds niet stabiel. Verder onderzoek wordt in gang gezet.

23/2/21

06:35 We zijn tot 0:35 vanochtend bezig geweest en gaan straks in overleg met leverancier en datacenter om de hele server te vervangen..

07:31 De problematische server is online gebracht om de configuratie en audio bestanden veilig te stellen. Dit is succesvol afgerond.

10:00 Oude server is weer even online maar we hebben de Xelion tenants uitgeschakeld zodat de failover doorschakeling werkt en er geen gesprekken worden afgebroken.

11.00 We wachten op voorstellen/actie vanuit de engineering afdeling van het i3D datacenter. Server is uitgeschakeld. Er wort tevens onderzocht of uitwijken naar ander datacenter mogelijk is.

12:00 De SSD storage van onze server wordt overgezet naar een nieuwe machine, we verwachten dat dit rond 13.00 gereed is en we kunnen testen. We zijn helaas afhankelijk van de technici van i3D en houden voortdurend contact via telefoon en ticketing systeem over de te nemen beslissingen en opvolging.

14:00 Server getest en zelfde stabiliteitsprobleem. We weten nu zeker dat storage het probleem is en we gaan de SSD’s vervangen en daarna alle data restoren. Dit proces kost redelijk veel tijd en we hebben getracht om dit te voorkomen. We gaan in elk geval door met werken tot de backups zijn teruggezet en we dan in elk geval tegen eind van de avond weer een werkend systeem hebben.

15:00 Nieuwe server is online, herstellen van de data kan beginnen..

16:00 Herstel voorbereid en gestart

17:30 Xelion installatie gereed, we gaan nu alle tenants restoren en verwachten dat we rond 9 uur alles weer online hebben.

19:15 Restore gaat vlotter dan verwacht, nog een aantal tenants te gaan voordat we het systeem alle klanten kunnen vrijgeven. Verwachting rond 20:30u.

20:00 Restore van alle tenants klaar. Systeem weer vrij gegeven voor gebruik. Klanten krijgen nog een email.