allesnurgecloud #106 – AWS us-east-1 Downtime, Agoda Private Cloud, Grafana 10, Google Domains, Wasmer Edge und mehr.

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

545 Abonnenten sind schon dabei - Vielen Dank!

Please enter a valid email address
Diese E-Mail ist bereits registriert.
The security code entered was incorrect
Vielen Dank für Deine Anmeldung - bitte den Opt-In bestätigen.

AWS us-east-1 Downtime

Die größte und wichtigste AWS Region, North Virgina (Region us-east-1) war mal wieder gestört, und zwar für fast 4 Stunden.
Initial als Störung in AWS Lambda angekündigt, betraf der Incident dann über 100 AWS Services. Neben den Cloud-Services war beispielsweise auch der Telefon-Support betroffen , da dieser Dienste auf Lambda verwendet.

Die Störung begann um 11:49 am PDT am 14. Juni 2023, also um 20:49 deutscher Sommerzeit. Die Entstörung erfolgte dann knapp 4 Stunden später, um 3:37 pm PDT (0:37 Uhr am 15. Juni 2023 bei uns). Das ist eine beachtliche Länge, vor allem wenn man sich die Kommunikation anschaut:

Our engineering teams were immediately engaged and began investigating. We quickly narrowed down the root cause to be an issue with a subsystem responsible for capacity management for AWS Lambda, which caused errors directly for customers (including through API Gateway) and indirectly through the use of other AWS services.

Dafür, dass man das Problem „quickly narrowed down“ hat, hat das dann doch ein wenig gedauert, bis die Entstörung eintrudelte. In den Details im „Issue Report“ kann man herauslesen, dass der Lambda-Service selbst wohl einige Zeit für das „Recovery“ benötigt hat.
Scheinbar hat man Services basierend auf anderen Services gebaut und sich den eigenen Ast etwas abgesägt – reine Spekulation an der Stelle – der Outage Report liest sich jedenfalls so.

Schaut man sich die Google Cloud Outage in Paris und diese AWS Störung an, so kann man für sich selbst jedenfalls lernen, dass alle nur mit Wasser kochen, und weiterhin alle Ausfälle und Störungen habenund haben werden. Wobei Störungen in us-east-1 bei AWS schon weitreichende Folgen haben können, sind dort doch zahlreiche zentrale Systeme zu Hause, wie beispielsweise die IAM, Cloudfront- und Zertifikats-Administration.

Bei Hacker News regt man sich darüber auf, dass AWS in „PDT“ als Zeitzone reported – das ist für uns in Europa ja komplett verständlich – aber selbst die Westküste (IATA/Los Angeles) findet diese Darstellung seltsam. Dafür haben wir doch schon lange UTC?

AWS can do so many things, reporting critical outage updates in UTC is not one of those things.

‚given how long it took AWS to add support for Ed25519 ssh keys (literally just fix the validation regex), I wouldn’t hold your breath

Dies sind nur 2 der dortigen Kommentare…, es geht aber mehr um die TZ Darstellung als um den Ausfall selbst.

In Summe war von der Störung bei AWS eine Vielzahl an abhängigen Cloud-Services betroffen, unter anderem der Hosting-Dienst Vercel, Reddit, Delta Airlines, die „Burger King“ App, die Page von „The Associated Press“ und viele weitere.
Das Magazin t3n titelt zum Ausfall „AWS-Probleme zeigen, wie wichtig Amazon für das Internet ist“ – ja, das trifft im Besonderen auf us-east-1 zu. Und jeder kann sich überlegen, was er dagegen tun kann.

AWS US-East-1 Lamda outage causes issues globally

Private Cloud von Agoda

Wie es anders gehen kann, als mit der AWS Abhängigkeit, zeigt „Pragmatic Engineer“ Gergely Orosz in einem aktuellen Beitrag zur „Private Cloud“ von Agoda, der Booking.com Tochter in Asien.

Agoda ist nicht gerade klein, listet die Plattform über 3,6 Millionen Hotels in 39 Sprachen. Es werden über 80.000 Suchen pro Sekunde ausgeführt und über 10 Millionen Angebote/Hotelraten berechnet. Die IT von Agoda umfasst laut Angaben um die 1600 Mitarbeiter, wobei nur einige Dutzend für die Hardware selbst zuständig sind. In Summe arbeiten nur um die 100 Menschen an Infrastruktur und DevOps.

Man betreibt so über 6.500 Server mit 600.000 virtuellen Cores. Das größte Data Cluster enthält 20-30 PB an Daten. Agoda betreibt insgesamt 4 Data Center – 2 in Asien, eines in den USA und eines in Europa. Die verwendete Hardware ist hier im Detail beschrieben.

Der CTO von Agoda, Idan Zalzberg, hat ein paar interessante Statements formuliert:

For us, a migration for the cloud needs to be an opportunity and not a solution to a problem; it must show benefits in terms of cost, velocity, quality, etc. So far, we haven’t been able to prove such merit in the migration.

Exakt, wer in die Cloud geht, um ein Problem zu lösen, schafft sich viel mehr Probleme, als er/sie damit löst. Wenn man seine Applikation On-premise nicht versteht, versteht man sie erst recht nicht in der Cloud. Dazu kommt, dass die Debugging-Möglichkeiten in der Regel deutlich eingeschränkt sind.

Our strategy is to get to a “cloud ready” state.
How do we get there?
Firstly, we don’t use expensive setup like SANs (Storage Area Networks). We took a cheaper approach for our hardware stack. By moving all our workloads to Kubernetes, we can easily migrate to a cloud provider, if needed.
Becoming “cloud ready” was why we moved off the HDFS protocol to S3, and why we are hedging our infrastructure ownership by using a few vendors in critical areas

Das ist interessant, man verwendet Cloud Technologien, deployed aber auf eigener Hardware im eigenen/gemieteten DC. Und man macht das so, dass man die Anwendungen auch portieren kann. S3 ist überall S3 (ok, nahezu) – Kubernetes auch (ok, fast). Aber es ist doch deutlich einfacher, als sich einen Stack zu kaufen, denn man dann 3-5 Jahre betreiben muss.
Auch spannend – man hat Leitungen zu Cloud-Providern und testet regelmäßig den Restore der „eigenen cloud“ bei einem Cloud-Provider.
Und hochinteressant ist das hier:

Our original idea was to spin up the cloud only for peak traffic, or during high traffic periods. However, it turned out that providers are not particularly optimized to guarantee 50,000 cores being available for 2 hours usage per day.

Man wollte für absolute Peak Lasten Ressourcen in der Cloud buchen – dort waren aber 50k Cores nicht kurzfristig verfügbar – klar, wer hält schon 50k Cores in einer Region bereit, für einen Kunden, der diese nur ein paar Stunden im Monat braucht.

Der ganze Artikel ist noch deutlich länger und hat viel mehr Details, wie hier zusammengefasst – unbedingt lesen, wenn dich das Thema interessiert.
Basecamp und ahrefs.com sind also nicht alleine, wenn es um die Cloud Vermeidung oder den Cloud-Exit geht.

Inside Agoda’s Private Cloud

Sponsored

Hier könnte Deine Anzeige stehen

Du möchtest Deine Firma, angebotene Dienstleistungen & Services oder Dein SaaS Produkt hier im Newsletter vorstellen?
Du suchst neue Mitarbeiter und möchtest diese direkt erreichen?
Erreiche über 450 Cloud- und Open-Source Enthusiasten direkt per E-Mail oder im RSS-Feed.
Bei Interesse antworte mir einfach auf diesen Newsletter – danke.

Ich will bei allesnurgecloud werben

Grafana 10 released

Im Rahmen der GrafanaCON 2023 hat Grafana Labs die Version 10 von Grafana veröffentlicht.
Es gibt eine Vielzahl an neuen Features, beispielsweise:

Es gibt noch viele, weitere neu Features – Schau einfach in den verlinkten Release Artikel.

Ein knapp 5 Minuten langes Video zeigt übrigens die Idee und Geschichte zur Entstehung von Grafana selbst.

Grafana 10 release: New panels, Grafana as code updates, data correlations, and more

Google Domains ans Squarespace verkauft

Google Domains wurde 2015 als Beta gestartet. Den Beta-Status verließ es dann 7 Jahre später, im März 2022, ab da war es dann auch in Deutschland verfügbar.
Nun wird der Dienst eingestellt bzw. an „All-in-One“ Website Builder Squarespace verkauft.
Matt Madrigal, Vice President bei Google sagt dazu:

In keeping with our efforts to sharpen our focus, we have entered into a definitive agreement with Squarespace for the acquisition of customer accounts of the Google Domains registrar business

„Sharpen our focus“, aha. Irgendwie kann man sich nicht wirklich darauf verlassen, dass man heute einen Google Dienst bucht und er dann 12 Monate später noch da ist.
Immerhin kennt Squarespace sich mit Google Workspace aus, so kann dies dann für Squarespace Kunden in Zukunft einfacher

Cloud-Fluencer Corey Quinn meint dazu auf Twitter:

If my cloud provider tells me that for the domain registration part I need to go talk to Squarespace, I’m picking a different cloud because I don’t want to get fired.

Und ja, da ist definitiv was dran, und es wird noch verwirrender:
Google Domains ist der Service hier, das ist etwas anderes, als das in der Google Cloud integrierte Produkt „Cloud Domains“.
Laut Informationen von @GergelyOrosz wird „Google Cloud Domains“ ebenfalls „fully deprecated“.
Dies ist offiziell so bisher nicht kommuniziert und wäre dann wirklich verwunderlich. Dann würde nur der „Google DNS“ Dienst übrig bleiben.

Vielleicht liest ja ein Google Mitarbeiter mit und kann hier Aufklären? Danke!

Squarespace Enters Definitive Agreement to Acquire Google Domains Assets

Wasmer Edge Cloud Announcement

Unter dem Motto „The Cloud is dead, long live the Cloud!“ startet am 15. Juni die „Wasmer Edge“ Cloud mit folgendem Claim:

We are incredibly excited to share a new paradigm for apps:
a magnitude cheaper than the clouds, more flexible than Cloudflare workers and with a Heroku-like experience

Der CEO schreibt, dass mit Technologien wie Service Meshes (Istio), Service Proxies (Envoy), Service Discovery (etcd) und Schedulern wie Kubernetes Cloud Deployments zu komplex geworden seien.
Bisher kann Wasmer nur Static Websites und Rust basierte Server ausführen. In Zukunft soll Wasmer auch Flask, Django, WordPress, Ruby on Rails, Node, etc. ausführen können – am Edge, in CDN ähnlichen Geschwindigkeiten. Wasmer soll somit ein „Heroko at the Edge“ werden.
Man kann das Ganze mit den Docs von Wasmer lokal ausprobieren.

In Zukunft soll die Technologie hinter der „Wasmer Edge“ Open-Source verfügbar werden – cool, da bin ich schon gespannt drauf.

The Cloud is dead, long live the Cloud! Announcing Wasmer Edge

K8sGPT Tutorial

ChatGPT ist zurzeit in aller Munde und macht auch vor Kubernetes nicht halt:
„K8sGPT gives Kuberetes Superpowers to everyone“ ist der Slogan des Open-Source-Projekts K8sGPT.

Was kannst du damit machen?
Das ist ein SRE Tool, mit dessen Hilfe du mittels AI Fehler und Störungen in deinem K8s Cluster analysieren kannst oder dich bei einem Security-Review unterstützt.
Du installierst k8sgpt einfach via Brew und kannst schon loslegen:

brew tap k8sgpt-ai/k8sgpt
brew install k8sgpt

Anais Ulrichs hat ein ausführliches Tutorial in ihrem Blog veröffentlicht.
Zu viel Text?
Es gibt hier auch ein 38 Minuten langes YouTube Video, in dem Sie das Tool und seine Vorzüge vorstellt.

Full Tutorial: K8sGPT — SRE superpowers through AI

Bugsuche: Linux 292.612 mal gebootet

Der Linux Kernel Entwickler „Richard WM Jones“ hat einen „Reboot Bug“ im Linux 6.4 Kernel gesucht und dafür ein Testsystem 292.612-mal gebootet.
Das Problem: der Bug selbst trat nur in 1 von 1000 Fällen auf – das hat die Suche natürlich „etwas“ erschwert.
Der Fehler tritt nur in Verbindung mit der Virtualisierungs-Library „libguestfs“ auf. In der Mailingliste gibt es weitere Informationen zum Fehler.

I booted Linux 292,612 times

Schmunzelecke

DNS zur Dokumentation zu nutzen, finde ich ja teilweise echt eine gute Idee.
Dass man es auch als Social Network nutzen kann, war mir jetzt bisher nicht bekannt – siehe DNSocial.

💡 Link Tipps aus der Open Source Welt

Documenso – OpenSouce Alternative zu DocuSign

Documenso ist eine OpenSource Lösung für das signieren Dokumenten – ähnlich wie Docusign und Adobe Sign. Docusign verspricht eine „10x better signing experience“.
Viele Features sind zwar noch mit „Coming Soon“ markiert, wie beispielsweise „Easy Sharing“, „Connections“ und „Stripe Payments“, du kannst die Software aber schon als SaaS oder self-hosted ausprobieren.
Das Pricing für die SaaS Variante ist mit 30$/Monat oder 300$/Jahr recht fair, finde ich. Für das „self-hosting“ gibt es aktuell nur die „Developer Preview“ Version, man möchte aber so schnell wie möglich eine „production ready version“ veröffentlichen.

Auf Product Hunt war das Projekt jedenfalls ein voller Erfolg. Mit über 1000 Votes Ende Mai war man „#1 Product of the Day“.

https://github.com/documenso/documenso

Kanboard – OpenSource Kanban Software

Kanboard ist eine einfache Lösung für das Kanban Projekt Management. Kanboard selbst dabei in PHP geschrieben – eine Liste aller Features findest du hier.
Du kannst Kanboard ganz klassisch in einem WebServer installieren oder über Docker starten – und ja, es läuft mit PHP 8.2.
FocalBoard von Mattermost ist ein wenig hübscher, falls dir Kanboard selbst nicht zusagt.

https://github.com/kanboard/kanboard

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

545 Abonnenten sind schon dabei - Vielen Dank!

Please enter a valid email address
Diese E-Mail ist bereits registriert.
The security code entered was incorrect
Vielen Dank für Deine Anmeldung - bitte den Opt-In bestätigen.


  • Neueste Beiträge

  • Neueste Kommentare


  • Share

    By About
    Abonnieren
    Benachrichtige mich bei
    guest

    0 Comments
    Oldest
    Newest Most Voted
    Inline Feedbacks
    View all comments

    allesnurgecloud.com

    © 2024 allesnurgecloud.com
    0
    Would love your thoughts, please comment.x