CrowdStrike Chaos, 100PB Logging mit Quickwit, Wiz Übernahme und SAPwned Lücke, 1:1 Meetings, Levels.fyi Cloud Kosten und mehr – allesnurgecloud #151

21. Juli 2024 · 16 min read

Willkommen zu allesnurgecloud.com – Ausgabe #151

Guten Morgen – das meine ich wirklich so. Ich hoffe, du musst wegen des CrowdStrike Debakels nicht am Sonntag beim fixen der Windows Clients in deiner Firma helfen. Was war das bitte für ein Freitag – natürlich dreht sich im ersten Artikel alles über die CrowdStrike Thematik – falls du das schon alles weisst, da es in der Tagesschau, etc. kam – am Ende des Artikels findest du ein paar weiterführende Links und Tweets zu den Hintergründen des misslungenen CrowdStrike Content Updates.

Happy Bootstrapping Podcast

Am Donnerstag hatte ich in Folge 80 von Happy Bootstrapping den Steffen Bleher von Capacities zu Gast. Er und sein Mitgründer Michael haben 2022 Capacities.io als SaaS Lösung für Wissensmanagement gestartet. Falls du Obsidian kennst, genau in diese Richtung und noch viel weiter geht Capacities, mit der Verschlagwortung und Verlinkung von Inhalten. Zielgruppe sind Journalisten, Forscher und auch Knowledge Worker, die eben viel Wissen irgendwo vernünftig dokumentieren wollen.

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

Inhalte

1. CrowdStrike „Boot Loop“ und weltweites IT-Chaos

2. 8gears Container Registry

3. Cloud Kosten Reduktion bei Levels.fyi

4. Binance baut 100PB Log Cluster mit Quickwit

5. Alphabet möchte Security Unternehmen Wiz für $ 23 Milliarden übernehmen

6. SAPwned: Wiz findet Lücke in SAP AI Core

7. Vor- und Nachteile von 1on1 Meetings

8. 150 Nvidia GPUs sind Basis von „The Sphere“ in Vegas

9. Grafana 11.1 veröffentlicht

10. Schmunzelecke

11. 💡 Link Tipps aus der Open Source Welt

11.1. Kviklet – Pull Request Workflow für Datenbanken

11.2. SmoothMQ – SQS Alternative für Messaging

12. ❓ Feedback & Newsletter Abo

CrowdStrike „Boot Loop“ und weltweites IT-Chaos

Tja, da ist nun passiert, was wir mit Y2K erwartet hatten, dann aber damals doch nicht passiert ist. Am Freitag morgen konnten weltweit viele Windows PCs und Server nicht mehr sauber starten, sie waren in einem BSOD (Blue Screen of Death) Boot Loop gefangen.

Was ist da los? Ein fehlerhaftes Update des „Falcon Sensors“ von CrowdStrike ist schuld. Betroffen sind Airlines, Banken, Retailer und sogar das Cloud Angebot von Microsoft selbst. Diverse Firmen haben wohl am Freitag morgen Mitarbeiter nach Hause geschickt – mich haben Mitarbeitende vom Daimler und Metro kontaktiert, bei denen beispielsweise nichts mehr ging.

Sämtliche Zeitungen berichten bereits am Freitag morgen darüber, ich hab das auf Twitter zuerst gesehen und dann war „The Register“ sehr schnell, weshalb ich das mal unten verlinkt habe. Du kannst aber auch bei der Zeit, Heise oder Golem schauen.

Da kann man nur den Kopf schütteln – im initialen Fix von CrowdStrike ist von einem „fehlerhaften Content-Update“ die Rede – rollt man das mit Knopfdruck auf alle Clients der Welt aus? Na gut, bei einem 0-day kann das ja auch wichtig sein – trotzdem sollte man das doch nicht auf alle Clients in einem Schwung ausrollen, oder?

Im Prinzip muss man sämtliche Endpoint Security Provider (Sentinel One, XM Cyber, Dragos,..) nun fragen, ob sie solche „Updates“ auch einfach dumm auf alle Clients ausrollen, oder ob man das nicht langsam und in Wellen ausrollen kann (Siehe Deployments bei AWS von letzter Woche).
Man nennt das „Canary Deployment“, oder „Staged Deployment“ – bei CrowdStrike sieht das nun eher nach einem YOLO Deployment aus.

Grundsätzlich muss man sich halt bewusst sein, dass man sich mit einer solchen Software ein RootKit installiert, bevor es ein Hacker tun kann – die Systeme benötigen in der Regel weitreichende Berechtigungen auf den Systemen, da sie sonst ihre Arbeit nicht erledigen können.

Im Prinzip hat nun ein Sicherheits-Tool eine Menge KRITIS Infrastruktur außer Dienst genommen, und das an einem Freitag. Der aktuelle „Workaround“ erfordert einen Reboot in den Recovery Mode und ein löschen einer Datei in C:\Windows\System32\drivers\CrowdStrike – darf der normale User das überhaupt? Muss das nicht ein Windows Admin machen? Was ist mit Firmen, die zusätzlich Bitlocker oder ähnliches am Laufen haben?

CrowdStrike ist im Segment „Endpoint Security“ mit 22 % Marktanteil der Marktführer der Kategorie. Laut diesem Golem Artikel arbeiten rund 60 % der Fortune500 Unternehmen an der „Absicherung“ ihrer Infrastruktur mit CrowdStrike.
CrowdStrike CEO George Kurtz hat sich auf Twitter zu Wort gemeldet:

CrowdStrike is actively working with customers impacted by a defect found in a single content update for Windows hosts. Mac and Linux hosts are not impacted. This is not a security incident or cyberattack. The issue has been identified, isolated and a fix has been deployed.

Der Sicherheitsforscher Troy Hunt hat einen Twitter Thread mit einer Zusammenfassung der Ereignisse erstellt und hält diesen zumindest am Freitag up2date. Er meint, dass dies vermutlich die größte IT Störung aller Zeiten ist (bisher):

This is basically what we were all worried about with Y2K, except it’s actually happened this time

Ein paar weiterführende Links:

Laut Microsoft sind nur 8,5 Millionen Windows Geräte betroffen – das wären nur 1% der Windows Geräte? Kaum vorstellbar (Techcrunch & Microsoft Blog)
Zach Vorhies analysiert in diesem Twitter Thread den eigentlichen Fehler – einen Null Pointer im C++ Code von CrowdStrike
Ein Google Security Researcher nimmt wiederum die Analyse von Zach wiederum auseinander und stellt einiges richtig
Das nüchterne CrowdStrike Statement im eigenen Company Blog
Die bessere Variante eines Statements, mit ein wenig mehr Empathie – siehe Twitter Posting
Wenn die Airlines Delta, United und American Airlines nicht mehr fliegen – sieht das in den USA so aus
Sicherheitsforscherin Rachel Tobac warnt vor Trittbrettfahren, die sich nun Zugang zu Systemen als „helfender IT Support“ erschleichen
Vincent Filbustier nimmt das ganze Thema auf Twitter auf die Schippe

Warst du auch betroffen? Problem Inzwischen gelöst?

CrowdStrike code update bricking Windows machines around the world

8gears Container Registry

Container Images unterscheiden sich deutlich von anderen Artefakten hinsichtlich ihrer ständigen Verfügbarkeit.
Im Gegensatz zu NPM oder JAR Artefakte müssen Container Images für den operativen Betrieb der Anwendung durchgehend verfügbar sein. Auch sollte die Registry nicht auf den gleichen Clustern laufen wie die Anwendungen, um den MTTR (mean time to recovery) möglichst kurzzuhalten. Selbstverständlich sollte die Registry hochverfügbar ausgelegt werden, mit ansprechenden Datenbanken und Buckets.

Wenn es bloß jemanden gäbe, der das Ganze für einen übernehmen könnte?

Die 8gears Container Registry ist ein Harbor-basierte Container-Registry Service. Angeboten und betrieben von Harbor Projektbetreuern und Mitwirkenden.
Hochverfügbar in verschiedenen EU Datenzentren ganz in deiner Nähe.

👉 Erfahre mehr über die 8gears Container Registry

Cloud Kosten Reduktion bei Levels.fyi

Im Blog vom beliebten Job-Vergleichsportal Levels.fyi findet sich ein aktueller Artikel zu einer AWS Kostenanalyse und folgender Reduktion, die in mir dann doch für die ein oder andere Überraschung gesorgt hat.

Man hat hier aktuell 60.000 Dollar AWS Kosten pro Jahr und liefert damit 650 Millionen Pages an 26 Millionen Unique Visitors aus. Man bezahlt also 5.000 Dollar für gerade mal 2 Millionen Besucher im Monat? Das finde ich jetzt nicht gerade wenig – klar, es gibt eine Vergleichsmöglichkeit, eine Suche mit Filterung und so weiter, und trotzdem kommt mir es viel vor.

Hier jedenfalls der Breakdown der teuersten Services pro Jahr:

Cloudfront mit $14.400 (24,2 %)
EC2 mit $6.000 (10,1 %)
ECS mit $6.000 (10,1 %)
RDS mit $4.800 (8,1 %)
Cognito $4.200 (7,1 %)

Danach kommen WAF, NAT und der E-Mail Dienst SES. Cognito ist übrigens der in AWS integrierte Auth Service.

Was hat man nun getan, um Kosten zu sparen?

Abschaltung ungenutzter Instanzen (Ja gut, das kommt überall vor – man spart damit $700/Monat an EC2 & ECS Kosten)
Verwaister ElastiCache – niemand wusste, ob der noch genutzt wurde – trotzdem muss man schauen, ob es nicht doch irgendwo User gibt
Historische S3 Daten – konnten nach einer Umstellung auf ein deutlich günstigeres Langzeitstorage umgezogen werden (Glacier Deep Archive)
ECS Autoscaling Verbesserungen – der Traffic bei Levels.fyi wohl schon höher und es waren deutlich aggressivere Autoscaling Regeln nötig – durch Tuning der Regeln konnte hier ebenfalls eine Überprovisionierung reduziert werden – auch das spart Kosten
Migration der RDS auf neue Instanztypen – mit ARM CPUs nicht nur schneller, sondern auch günstiger.

Man konnte in Summe 15 % der Cloud Kosten einsparen. In Zukunft will man noch eine Migration von CloudFront nach Cloudflare machen – ich denke, da liegt auch das größte Potenzial – wäre ja eigentlich auch der schnellste Weg zum Kostenvorteil gewesen. Verstehe daher nicht, warum sie das nicht gleich gemacht haben.

Slashing our AWS Bill at Levels.fyi

Binance baut 100PB Log Cluster mit Quickwit

Die Crypto Börse Binance ist mit 60 Milliarden Dollar Volumen pro Tag aktuell die größte Crypto-Börse der Welt. Kein Wunder, dass man hier auch diverse Infrastruktur Herausforderungen zu bewältigen hat.

Binance nutzt hierfür die Open-Source Engine Quickwit, die ich bisher gar nicht kannte. Bei Quickwit war man sich gar nicht sicher, wie weit das System skalieren könne, da sie im Real-Life einfach nicht genug Daten hatten. Vor einem halben Jahr haben 2 Binance Engineers angefangen, das Binance Elasticsearch Cluster auf Quickwit zu migrieren. Die Ergebnisse sind beeindruckend:

Man indiziert 1,6 PB Log Daten pro Tag
Das Cluster stellt über 100 PB an Logs zur Suche bereit
Einsparungen von über 80 % bei Compute Costs bei nur noch 1/20 der Storage Kosten

Man indiziert hier aktuell über 181 Billionen Dokumente mit 700 Pods, 2800 vCPUs und 5,6 TB RAM.
Insgesamt produziert Binance im Schnitt 21 Millionen Log Zeilen pro Sekunde – diese Skalierung ist einfach nur beeindruckend. Bisher hatte man über 20 Elasticsearch Cluster mit über 600 Vector Pods benutzt, die die Daten auf die Cluster verteilten.

Die Einsparungen kamen auch daher, dass in Quickwit Kafka nativ integriert wird und dass es direkt mit der „Remap Language“ von Vector umgehen kann – somit werden diese Instanzen ebenfalls eingespart. Quickwit speichert alle Daten in einem S3 Object Storage ab, es gibt keine anderen Layer.

Beeindruckend, was man hier alles erreicht hat – und die Migration wurde dann innerhalb von 6 Monaten getestet und durchgeführt.
Quickwit selbst ist in Rust geschrieben und einen Einblick in die Architektur gibt dieser Blog-Artikel.

Interessanterweise ist die API von Quickwit Elasticsearch kompatibel – du kannst also parallel testen, ohne an deinem Client etwas zu ändern.
Weitere Infos zu Quickwit findest du bei GitHub – die aktuellste Version ist eine v0.8.2.

How Binance built a 100PB log service with Quickwit François Massot

Alphabet möchte Security Unternehmen Wiz für $ 23 Milliarden übernehmen

Die Google Mutter Alphabet möchte das bekannte Cyber Security Unternehmen Wiz für 23 Milliarden US Dollar übernehmen. Wiz wurde erst 2020 in Israel gegründet und hat heute seinen Hauptsitz in New York.

Zuletzt hatte Wiz im Februar eine Finanzierungsrunde mit 12 Milliarden US Dollar Bewertung gemacht – man hatte hier Anfang des Jahres 1 Milliarde von den Top Notch Investoren Andreessen Horowitz, Sequoia Capital und Index Ventures eingesammelt. Nun erfolgt schon der Exit – das ging nun wirklich schnell. Wiz beschäftigt aktuell um die 1000 Mitarbeitende.

Neben dem aktuellen SAP Hack (siehe nächster Beitrag) hatte ich Wiz hier schon öfter erwähnt – beispielsweise bei der Storm-0558 aus dem Juli 2023 (Microsoft Master Key im Juli 2023), die AttachMe Lücke in der Oracle Cloud (Ausgabe 74) oder auch Azure ChaosDB im November 2021 (Ausgabe 43). OMIGOD in Ausgabe 35 war aber auch super interessant.

Der Deal ist bisher noch nicht unter Dach und Fach und wäre der größte Zukauf, den Alphabet/Google jemals gemacht haben.

Alphabet verhandelt Kauf von Wiz für 23 Milliarden US-Dollar

SAPwned: Wiz findet Lücke in SAP AI Core

Und eine neue Lücke hat Wiz in Sap gefunden und passenderweise SAPwned getauft. Einem Sicherheitsforscher des Wiz Teams war es gelungen, über eine Sicherheitslücke in der SAP AI Core Integration auf folgende Services und Daten zuzugreifen

Credentials von Kundensystemen und private AI Trainingsdaten
auf den Kubernetes Admin Account des SAP AI Core K8s Clusters
auf den SAP internen Artifactory Server inklusive Modifikation der dort abgelegten Software Artefakte
auf Docker Images von SAP in der Google Container Registry
auf interne SAP Docker Images

In der deutschen IT Presse ging die Meldung irgendwie unter, wie es scheint. Der Angriff erfolgte über einen selbst erstellen Kundenaccount in der SAP Cloud. Der Ausbruch erfolgte über die Änderung der UserUD auf 1337 – das ist die UserID von Istio, welche im Netzwerkverkehr selbst nicht beschränkt wurde. Root war nicht möglich, aber 1337 schon. Dazu fanden die Wiz Forscher im selben Cluster eine Loki Installation, die unter /config bereitwillig ihre Konfiguration inkl. access_key_id und secret_access_key preis gab.

Weiterhin fand man AWS Elastic File System shares, welche dem internen Netzwerk ohne Absicherung zur Verfügung standen. Hier fand man massenweise AI Trainingsdaten von Kunden, netterweise nach CustomerID sortiert….

Bug Nummer 4 war dann ein nicht abgesicherter Helm Server, welcher wiederum Credentials für die Docker Registry und Artifactory enthielt – hierüber könnte ein Angreifer Images verändern, ohne dass erstmal jemand davon etwas merkt.
Leider war die Helm Komponenten Tiller hier nicht nur für Read/Only Zugriffe offen, sondern auch zum Schreiben – hierüber konnten die Forscher ein Helm Package mit cluster-admin Privileges erstellen und im Cluster deployen – Jackpot.

Man sieht hier schön, wie man von wenig privilegierten Systemen in höher privilegierte Systeme einbricht, und wenn man dies über mehrere Stufen erfolgreich hinbekommt, steht man am Ende direkt im Tresor.
An der Disclosure timeline sieht man, dass Wiz das Thema initial am 25. Januar 2024 an SAP gemeldet hat, ein erster Fix Mitte Februar nicht erfolgreich war und Wiz Ende Februar erneut über 2 weitere Lücken entsprechende Zugriffe erlangte. Mitte März erfolgte dann der vollständige Fix aller betroffenen Systeme.

SAPwned: SAP AI vulnerabilities expose customers’ cloud environments and private AI artifacts

Vor- und Nachteile von 1on1 Meetings

Meetings haben wir sicherlich alle genug – dazu gehören für die Wissensarbeiter in der Regel auch 1:1 Termine mit dem direkten Chef oder mit Kollegen eines Projekts. Lohnen diese 1:1 Termine sich, fragt sich Mark Fisher im verlinkten Artikel?

Mark ist langjähriger Kritiker von einer jährlichen Leistungsbewertung – die 1:1 Termine sieht er als Möglichkeit, bi-direktional ein zeitnahes Feedback zu liefern – zeitnah hier als wöchentlich gemeint. Solche Meetings bieten laut ihm zahlreiche Vorteile, wie erhöhte Effizienz, persönliche Entwicklung und Vertrauensbildung. Diese Treffen ermöglichen es Mitarbeitenden, Blockaden und Herausforderungen direkt mit ihren Managern zu besprechen, was eine agile und anpassungsfähige Arbeitsweise fördert.

Natürlich gibt es auch einige Nachteile – Einzelgespräche können zeitaufwendig sein und andere wichtige Aufgaben wie strategische Planung und Projektüberwachung beeinträchtigen. Ineffizienz kann entstehen, wenn Meetings schlecht vorbereitet sind und keine klaren Strukturen oder Ziele haben. Dies kann zu wiederholten und unproduktiven Diskussionen führen. Ein weiteres Problem ist inkonsistente Kommunikation, wenn verschiedene Teammitglieder unterschiedliche Informationen erhalten. Dies kann zu Verwirrung und Missverständnissen führen.

Trotz dieser Nachteile glaubt der Autor, dass die Vorteile von Einzelgesprächen überwiegen, wenn sie effektiv durchgeführt werden. Er schlägt vor, bewährte Methoden und Frameworks zu nutzen, um den Wert dieser Meetings zu maximieren – als Beispiele werden hier das 4Ps Framework und ein Artikel von Jessica Wisdom genannt (leider Paywall bei MITSloan Review).

Abschließend betont der Mark, dass Einzelgespräche, wenn sie richtig durchgeführt werden, unverzichtbare Werkzeuge zur Verbesserung der Teamkohäsion, Produktivität und Mitarbeiterzufriedenheit sind. Anstatt diese Meetings abzuschaffen, sollten sie optimiert werden, um einen hohen Nutzen zu gewährleisten.

Are 1:1s Worth The Time?

150 Nvidia GPUs sind Basis von „The Sphere“ in Vegas

Falls du nicht weißt, was „The Sphere“ in Vegas ist, findest du hier ein paar Beispielvideos (Video und U2 Konzert in der Sphere).

Betrieben wird „The Sphere“ von der Madison Square Garden Company (MSG) und im Nvidia Blog gibt es nun Informationen zum Betrieb der gigantischen LED Bildschirme. Interessanterweise kommen keine der großen, von AI bekannten GPUs zum Einsatz, sondern 150 der RTX-A6000 Workstation Grafikkarten. Gut, mit 5000 € pro Stück sind die nun auch kein Schnäppchen, aber dann doch weit entfernt von den 30.000 € einer H100 von Nvidia.

Die Leinwand innen hat eine Fläche von 14.864 Quadratmeter und enthält 256 Millionen Bildpunkte mit einer Auflösung von 16.000 x 16.000 Pixel. Außen sind es 53.883 Quadratmeter mit 57,6 Millionen LEDs. Die Auflösung ist außen deutlich geringer, aber da man weiter weg ist, spielt das keine Rolle.

The Sphere hat übrigens insgesamt 2,3 Milliarden Dollar gekostet – davon ging dann nur ein kleiner Teil für die GPUs drauf.

The Sphere: 150 Nvidia-Grafikkarten treiben riesige LED-Kuppel an

Grafana 11.1 veröffentlicht

Das Grafana 11.1 ist ein Minor Update zur neuen 11er Version von Grafana. Es gibt ein TL;DR YouTube Video mit einer Länge von 4:46 und der Vorstellung aller neuen Features.

in Stat Panels kannst du nun die Farbe der „Prozentwerte“ anpassen
die neue „Text Wrapping“ Funktion macht das Lesen von Logzeilen einfacher, in dem die Einträge nun einfach umgebrochen werden – kein Grund mehr, die Breite anzupassen oder herumzuscrollen
das XY Chart Panel ist nun GA – alle Infos in der Doku
Diverse neue Features in Grafana Alerting, beispielsweise OAuth2 für Alertmanager und Mimir, Alerting templates, und „Rule-specific silences“ – also Unterdrückungen für Alarme
Keyboard Shortcuts und weitere Accessibility Verbesserungen

Kleines, aber feines Release.

Grafana 11.1 release: new visualization features, Grafana Alerting updates, and more

Schmunzelecke

Jetzt, da es ICQ nicht mehr gibt brauchen wir Chat über SSH, oder?
Mit devzat ist genau das möglich – das Projekt ist OpenSource auf GitHub.

Zum testen einfach ssh [email protected] ausprobieren – viel Spaß!

💡 Link Tipps aus der Open Source Welt

Kviklet – Pull Request Workflow für Datenbanken

Kviklet finde ich eine interessante Idee – es erlaubt DB Updates im 4-Augen Prinzip über ein Frontend. D.h. man stellt ein Update oder Alter Table ein, Kolleginnen können dann das Statement prüfen, kommentieren, annehmen oder auch ablehnen.
Ähnlich wie bei einem Pull Request – der Screenshot hier erklärt, wie das funktioniert.

Obwohl die aktuelle Version eine 0.4.2 ist, werden schon PostgreSQL, MySQL und MS SQL unterstützt. Ebenfalls dabei ist LDAP Support, temporary Access, Auditlog oder auch SSO (Google, Keycloack). Alle Features hier in der Übersicht.

Ansonsten kannst du Kviklet einfach per Docker Container installieren – macht sicherlich deine Compliance Abteilung happy.

https://github.com/kviklet/kviklet

SmoothMQ – SQS Alternative für Messaging

SmoothMQ ist eine leichtgewichtige und in GO geschriebene Messaging Alternative zu SQS. Der Service funktioniert als Drop-in replacement und kann einfach auch nur als eine lokale Messaging Umgebung für Entwicklungs- und Testzwecke genutzt werden.

Der SmoothMQ Server kommt mit einer einfachen UI und ansonsten wünscht sich Entwickler Feedback über ein dieses Google Forms Formular.

Wie hast du bisher lokal Messaging simuliert/getestet?

https://github.com/poundifdef/SmoothMQ

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

allesnurgecloud.com

Neueste Beiträge

Neueste Kommentare

allesnurgecloud.com