allesnurgecloud #104 – Datadog Incident Report, Remote Work vorbei?, CPU Leistung stagniert und mehr.

21. Mai 2023 · 10 min read

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

Inhalte

1. Incident Report: Datadog Ausfall im März

2. Remote Work vorbei bei Dell, Uber und OpenAI

3. DevOps & SRE as a Service mit „We Manage“

4. Preis/Leistung bei CPUs stagniert?

5. Google Cloud Paris Update (europe-west-9)

6. EU-Kartellwächter prüfen Azure Preisanpassungen

7. Website Hosting auf Android Phone

8. Schmunzelecke

9. 💡 Link Tipps aus der Open Source Welt

9.1. Open-Source Feature Management mit Unleash

9.2. Monokle: Kubernetes Visual UI für den Desktop

10. ❓ Feedback & Newsletter Abo

Incident Report: Datadog Ausfall im März

Der SaaS Monitoring Dienst Datadog hatte am 8. März 2023 eine längere Downtime, welche sich für die meisten Kunden in einer kompletten Nicht-Verfügbarkeit für manche Kunden äußerte. Datadog hatte bis zum 16.05.2023, also über 2 Monate später, keine öffentliche Incident Response dazu veröffentlicht.
Da „Pragmatic Engineer“ Gergely Orosz von einigen Lesern dazu angeregt wurde, diesbezüglich zu vermitteln – tat er dies – leider ohne Erfolg. Auch auf seine Anfragen reagierte Datadog nicht. Nun hat er selbst einen Incident Report zum Ausfall veröffentlicht.
Interessant an diesem Ausfall: Datadog betreibt Infrastruktur über alle 3 Hyperscaler hinweg: Azure, Google und AWS.
Da man aber ein globales Update auf allen VMs einspielte, waren alle Regionen und Hyperscaler betroffen, was in der globalen Nicht-Verfügbarkeit resultierte.
Ich frage mich ja, warum man so etwas macht – selbst in dringenden Fällen sollte man eine 1 % und 10 % Rollout Strategie anwenden, bevor man eine solche Änderung parallel auf allen Maschinen installiert.
Die Ursache des Ausfalls waren 2 CVEs in systemd, (CVE-2022-3821 und CVE-2022-4415), welche durch ein Paketupdate in Ubuntu 22.04 LTS geschlossen wurden.
Also die CVEs waren nicht die Ursache, aber der Neustart von Systemd und der folgende Neustart von systemd-networkd. Dieser wird von Datadog verwendet, um die eBPF basierte Container Netzwerk Lösung Cilium zu verwalten. Der systemd-networkd Neustart hatte zur Folge, dass Cilium seine Routen verlor – und das fast simultan auf sämtlichen Maschinen, die für die Cilium Control Plane genutzt wurden.
Jetzt ist man hinterher immer schlauer – spannend ist trotzdem, dass der Ausfall dann etwas länger dauerte, wie man vielleicht annehmen würde.
Ich kann da nur empfehlen, die Maschinen immer zu rebooten, wenn ein entsprechender Patch ausgerollt wurde – dann fällt sowas auch gleich auf, und nicht nur einmal im Jahr. Ubuntu hat etwa den Flag /var/run/reboot-required gesetzt, wenn ein Reboot nötig ist, damit eingespielte Patches (z.b. Kernel) aktiv werden.
Datadog hat die systemd-networkd config entsprechend angepasst, sodass die Routing Tabellen bei einem Neustart nicht mehr gelöscht werden.

Am meisten wird die Kunden die Kommunikation des Incidents enttäuscht haben. Die Status-Page wurde nur spärlich aktualisiert, das Postmortem wurde ausgewählten Kunden nur über Account Manager zur Verfügung gestellt. Das erste detailiete Update des Incidents gab es 14 Stunden nach Beginn.
Interessanterweise hatte Datadog CEP Olivier Pomel während des „Earnings Calls“ am 4. Mai noch jedem empfohlen, das Postmortem Dokument zu lesen – allerdings war es bis dahin nicht öffentlich.

Jedenfalls hat Datadog am Mittag nach Gergelys Posting das Postmortem nun doch veröffentlicht. Witzigerweise hat sich am Postmortem seit dem Versand an ausgewählte Kunden wohl kaum etwas geändert – da hätte man es gleich publizieren können.

Inside Datadog’s $5M Outage (Real-World Engineering Challenges #8)

Remote Work vorbei bei Dell, Uber und OpenAI

Sam Altman, der CEO von OpenAI (ChatGPT), hat in einem „Fireside Chat“ in San Francisco „Full-Remote“ als zu beendendes Arbeitsmodell für Start-ups erklärt.
Konkret kritisiert er vor allem den Verlust an Kreativität, wenn man nicht vor Ort zusammenarbeitet.

I think definitely one of the tech industry’s worst mistakes in a long time was that everybody could go full remote forever, and startups didn’t need to be together in person and, you know, there was going to be no loss of creativity.

Seine Argumentation bezieht sich vor allem auf Start-ups im Anfangsstadium, hier sei die aktuelle Technologie noch nicht weit genug, um „Full-Remote“ ordentlich zu unterstützten.

Der Taxi-Dienst „Uber“ hat nach einem größeren Layoff (über 1000 Angestellte betroffen, 26 % der Belegschaft) nun angekündigt, dass die Mitarbeitenden wieder ins Büro zurückmüssen – und zwar montags, mittwochs und donnerstags. Der Dienstag ist zusätzlich empfohlen, aber kein muss.
Man scheint hier verschiedene Maßnahmen durchzuführen, um wieder profitabel zu werden – ob es mit dem Rückruf ins Büro gelingt, ist fraglich.

Und auch beim Computer-Hersteller Dell sollen die Mitarbeitenden nun wieder ins Büro zurückkehren. Dell geht dabei einen etwas anderen Weg als die vorher genannten Unternehmen. Es sollen alle 3 Tage ins Büro kommen, deren Pendelzeit geringer als 1 Stunde ist. Bereits vor der Pandemie hat man „Hybrid“ gearbeitet, es sieht nun so aus, als Kehre man zu diesem Modell zurück.

Wie sieht es bei dir aus? Noch alles Remote? Oder nicht?

OpenAI CEO Sam Altman says the remote work ‘experiment’ was a mistake—and ‘it’s over’

DevOps & SRE as a Service mit „We Manage“

Wir helfen Dir beim 24×7 Betrieb, bei Performance Problemen, bei Kostenoptimierung oder einfach beim Betrieb Deiner Web-Applikationen.
Betreibst Du Services wie GitLab, Zammad und Matomo selbst – hierbei unterstützten wir ebenfalls gerne – schau Dir einfach mal unsere Leistungen an.
Unsere Kunden kommen in unseren Case Studies zu Wort – wie beispielsweise everysize.com – eine Sneaker-Suchmaschine mit Preisvergleich und Community.

Interessiert? Lerne uns in einem 15 Minuten Video-Call kennen.

Preis/Leistung bei CPUs stagniert?

Die letzten 5 Dekaden der Computerentwicklung wurden von Moore’s Law bestimmt, der regelmäßigen Verdopplung von integrierten Schaltkreisen. Auf CPUs bezogen bedeutete es, dass sich die CPU Speed alle 12-24 Monate verdoppelte, und das bei geringeren Kosten.
Laut einer Analyse bei den „Database Architects“ sei dieses Zeitalter nun vorbei. Haben sich die CPU Kerne bis 2019 noch verdoppelt, so hat das Wachstum hier nun stagniert.
Dies könne man beispielsweise an den aktuellen AMD CPUs sehen: AMD Rome von 2019 hatte bereits 64 Kerne (allerdings mit nur 2 GHz), der aktuelle Genoa kommt im Top Modell „nur“ auf 96 CPUs – also keine Verdopplung in den 3 Jahren. Dafür wird das Modell mit 64 Kernen nun mit 3,1 GHz angesprochen und hat somit eine stark erhöhte Single Thread Performance.

Die Analyse führt allerdings dann auch an, dass die CPUs aktuell nicht mehr günstiger, sondern eher wieder teurer werden – das kann natürlich auch mit den Verfügbarkeiten zu tun haben (Chip-Mangel und so, da leiden ja aktuell noch viele Industrien drunter).
Inflationsbereinigt sieht das Chart jedenfalls nicht sehr gut aus, was die Verdopplung der Leistung bei Verringerung des Preises betrifft.

Einen Ausreißer gibt es dennoch: Der ARM CPU Hersteller „Ampere Computing“ hat den AmpereOne vorgestellt. Die neuen AmpereOne CPUs können mit bis zu 192 Kernen bestellt werden. In der Spitze haben die dann bis zu 2,8 GHz Taktrate bei 200-350W Stromverbrauch.

The Great CPU Stagnation

Google Cloud Paris Update (europe-west-9)

In Ausgabe 101 hatte ich ausführlich über die Downtime in der Google Cloud Region Paris berichtet. Während regionale und die meisten zonalen Services bereits länger wieder up sind, so gab es nun über 2 Wochen keine Entwarnung bei der Zone „europe-west-9a“.
Die weiteren Zonen scheinen auch noch nicht sauber zu laufen, bzw. noch Abhängigkeiten zu europe-west-9a zu haben, denn europe-west-9c war am 6. Mai 2023 für mehrere Stunden aufgrund eines „cooling issue“ im Datacenter nicht erreichbar. Hier kann man nur vermuten, dass das Issue mit fehlenden Redundanzen oder anderen Problemen in der Steuerung der Klimaanlage zu tun hat.
Für das ursprüngliche Issue in „europe-west-9a“ gibt es nun weitere Details im „preliminiary incident Report“ vom 10. Mai 2023:

On Tuesday, 25 April at 17:20 US/Pacific a water leak in one of our data centers in Paris led to a fire in a battery room. Subsequently, Google experienced an infrastructure failure that affected our europe-west-9 Cloud region, impacting multiple Google Cloud Services.

Das Wasserleck hat nur Teile von „europe-west-9a“ betroffen, das darauffolgende Feuer dann „europe-west-9a“ komplett sowie weitere Zonen und teilweise auch komplette Dienste in der ganzen Region „“europe-west-9“. Eine genaue Beschreibung aller betroffenen Dienste findest du im verlinkten Incident-Report.

Google Cloud’s watery Parisian outage enters third week, with no end in sight

EU-Kartellwächter prüfen Azure Preisanpassungen

Über die „Preisanpassungen“ der Azure Cloud hatte ich in Ausgabe 89 und Ausgabe 99 berichtet. Die ursprünglich als „Währungsanpassungen“ angekündigte Preiserhöhung ruft nun die EU-Kartellwächter auf den Plan. In Brüssel prüfe man jetzt, ob Microsoft seine Vormachtstellung ausnutze, um Konkurrenten aus dem Markt zu drängen oder es dem Wettbewerb zumindest mal schwerer zu machen.
Konkret gehe es um die Bündelung von SaaS Dienste wie Office365/Teams mit anderen Angeboten und auch um das Ausnutzen geschäftskritischer Informationen, um sich gegenüber anderen Anbietern einen Vorteil zu verschaffen.
Bloomberg hatte als Erster darüber berichtet, der Artikel ist aber hinter einer Paywall.

Preistreiberei: Microsoft-Cloud Azure im Fokus der EU-Kartellwächter

Website Hosting auf Android Phone

Dieses Blog hier und das Newsletter-System laufen auf einem Hetzner Cloud Server – ganz klassisch und langweilig.
Ein findiger User hat sein Blog nun auf einem Android 11 Telefon zum Laufen gebracht und es öffentlich ins Internet gestellt.
Über Termux, ein Terminal und Linux Environment, können weitere Linux Pakete installiert werden, beispielsweise über den APT Paketmanager.
Damit wurden dann unter anderem openssh und nodejs installiert. Die verlinkte Seite selbst läuft dann mit NodeJS und dessen integriertem HTTP Server.
Ins Internet exponiert wird über Pinggy, einem Tunnel Service, welcher es einem erleichtert, private Inhalte über einen SSH Tunnel ins Internet zu stellen.
Mit einem kostenpflichtigen Pinggy Account (2,50$/Monat) kannst du dann eigene Domains über einen längeren Zeitraum verwenden.

This blog is hosted on my Android phone

Schmunzelecke

Ein Netflix Engineer braucht dringende Hilfe bei der Skalierung von Kubernetes – bei all dem Witz in den Kommentaren – wer weiß schon, ob das nicht doch echt ist?

💡 Link Tipps aus der Open Source Welt

Open-Source Feature Management mit Unleash

Unleash ist die „am weitesten verbreitete Open Source Lösung für Feature Management“. Mit Unleash kannst du einfach Features pro Stage aktivieren und deaktivieren. Natürlich musst du vorher das entsprechende SDK eingebunden und konfiguriert haben. Ein offizielle SDK gibt es etwa serverseitig für Go, Java, PHP, Node.js, Python, Ruby, Rust und .NET – Client-seitig werden beispielsweise iOS, Flutter, Android, Svelte, Vue und JavaScript unterstützt.
Eine Übersicht über alle Features findest du hier – du kannst mit Unleash auch A/B Testing machen, Features „deprecated“ oder auf spezielle User und IPs beschränken.
Zusätzlich gibt es ein „Technical Debt Dashboard“ – cool, oder?
Du kannst Unleash in der Online-Demo ausprobieren und die Features hier nach Anmeldung steuern.
Unleash kannst du Open-Source selber hosten oder in der Cloud Variante buchen – darüber wird dann auch die Open-Source Entwicklung finanziert.

https://github.com/Unleash/unleash

Monokle: Kubernetes Visual UI für den Desktop

Monokle ist eine Kubernetes IDE für Windows, Linux und MacOS mit einem umfangreichen Featureset.
Nach dem Import der kubeconfig Credentials kannst du dich zu mehreren Kubernetes Clustern verbinden, die Cluster verwalten und beispielsweise Ressourcen und Logs prüfen.
Monokle kommt aber auch mit einer Integration für Helm und Kustomize – du kannst beispielsweise Charts vor der Applizierung prüfen und modifizieren.
Ebenfalls interessant ist die Git Integration von Monokle – neben der Integration kannst du Änderungen pushen oder „unstaged“ Files prüfen.
Welches Tool verwendest du und warum? Kanntest du Monokle schon?

https://github.com/kubeshop/monokle

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

allesnurgecloud.com

Neueste Beiträge

Neueste Kommentare

allesnurgecloud.com