Cloud Alternativen, Souveräne Microsoft Cloud, Ausfälle bei Google und Cloudflare, Remote & ständige Erreichbarkeit, KI Allianz scheitert und mehr – #193

22. Juni 2025 · 21 min read

Willkommen zu allesnurgecloud.com – Ausgabe #193

Da hat man einmal wieder Urlaub und bekommt fast nicht mit, dass mit Downtimes bei Cloudflare und der Google Cloud das halbe Internet nicht funktioniert. Liegt vielleicht auch daran, dass die eigenen und Kundenservices in dem Fall gar nicht betroffen waren, da der „good, old Stuff“, wie die Cloudflare Loadbalancer einfach weiterhin funktioniert hat.
Ansonsten war ich ja kurz im Urlaub in den Bergen – da ist eine Woche immer super erholsam zum runterkommen, finde ich.

Zudem erhalte ich immer mal wieder Anfragen zu einer Community zum Newsletter und Podcast, um sich auszutauschen – füll doch schnell diese Umfrage aus, damit ich hier Abschätzen kann, ob und wie ich das machen sollte – dauert weniger als 1 Minute.
So, jetzt gehts aber wieder regelmäßig weiter hier – bis zum Sommerurlaub – Viel Spaß mit der Ausgabe und Danke fürs Lesen!

Happy Bootstrapping Podcast

In dieser Woche gibt es 2 Podcast Folgen, da ich hier ne Woche ja nicht von mir habe hören lassen.

In Folge 125 habe ich mit Birol Yildiz vom Incident Management Tool ilert gesprochen. Wir unterhalten uns über die ilert Entstehungsgeschichte, das eigentliche Produkt, USP, Preise und wie man Kunden wie Rewe und IKEA gewinnt und hält – vermutlich auch sehr relevant für dich, falls du eine deutsche Alternative zu Pagerduty und Opsgenie suchst – Free Account gibt es auch, vielleicht reicht der ja schon – Folge 125 jetzt anhören.

In Folge 126 wird es dann „hot“ denn bei ngthyberlin (evtl. NSFW) geht es um „Bold Lingerie“, inspiriert vom Berliner Nachtleben. Gründerin Paulina Lutz war vorher beim Berliner VC Earlybird und hat nun eine eigene Dessous Marke bootstrapped aufgebaut. Interessant ist ihr Marketing Ansatz und ich ziehe den Hut, vor dem wie sie das mit Instagram und vor allem auf TikTok hinbekommt – Folge 126 gleich anhören. Am Ende der Folge gibt es einen Gutschein Code zum Ausprobieren 😉

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

Übrigens kannst Du meine Arbeit nun auf Patreon supporten, mir ein Bier ausgeben oder mal auf meiner Amazon-Wunschliste vorbeischauen – Danke! Falls du Interesse hast, im Newsletter oder Podcast Werbung zu buchen, kannst du das auf passionfroot machen.
Auf allesnurgecloud.com findest Du vorherige Ausgaben und den RSS-Feed.

Vielen Dank für Dein Interesse und wie immer freue ich mich über Feedbackund Weiterempfehlungen.

Inhalte

1. US Cloud Alternativen: Nur 12% würden Funktionsdefizite akzeptieren

2. Microsoft verkündet „souveräne Cloud“ für Europa

3. Monitoring as Code für LinkedIn, Crowdstrike und 1Password

4. Remote Work: Versteckte Kosten der ständigen Erreichbarkeit

5. Deutsche KI-Allianz scheitert an Konkurrenz und offenen Fragen?

6. Google Cloud Platform: Weltweiter Ausfall am 12. Juni 2025

7. Cloudflare: 2,5 Stunden Ausfall für kritische Services

8. BKA zerschlägt Darknet-Imperium „Archetype“

9. Technische Schulden: Das Zähneputzen der Softwareentwicklung

10. ilert launcht KI-Agenten für Incident Response

11. Schmunzelecke

12. 💡 Link Tipps aus der Open Source Welt

12.1. Unregistry – Docker Images direkt pushen

12.2. Workout.cool – Open Souece Fitness-Plattform Revival

13. ❓ Feedback & Newsletter Abo

US Cloud Alternativen: Nur 12% würden Funktionsdefizite akzeptieren

Der Bitkom Cloud Report 2025 offenbart ein Dilemma: Deutsche Unternehmen wollen digitale Souveränität, aber keine Kompromisse bei Performance oder Features.

Nur 12% der deutschen Unternehmen würden eine deutsche Cloud nutzen, wenn sie länger auf neue Features warten müssten. Die Kompromissbereitschaft ist minimal:

8% akzeptieren fehlende Funktionen
7% zahlen 10-20% Aufpreis
6% nehmen schlechtere Bedienbarkeit hin
65% wollen keine Nachteile akzeptieren

US-Politik zwingt zur Strategieänderung

50% der Unternehmen überdenken aufgrund der neuen US-Regierung ihre Cloud-Strategie. Die Abhängigkeit ist dramatisch: 62% würden ohne Cloud-Services stillstehen.

Wunsch vs. Realität bei Anbieter-Präferenzen:

100% bevorzugen deutsche Anbieter
61% akzeptieren EU-Anbieter
Nur 6% wollen weiterhin US-Provider

60% der Unternehmen fühlen sich zur Cloud-Nutzung gedrängt, da Software zunehmend nur noch cloud-basiert verfügbar ist. 46% planen höhere Investitionen für 2025.

KI als Treiber: Aktuell nutzen 26% Cloud-KI-Services, in fünf Jahren werden es 51% sein.

Bitkom-Präsident Ralf Wintergerst bringt es auf den Punkt: „Eine deutsche Cloud muss genauso gut und günstig sein wie internationale Angebote. Ist sie das nicht, bleibt sie ein Nischenprodukt.“ Die Realität zeigt: Patriotismus allein reicht nicht – deutsche Cloud-Anbieter müssen technisch und preislich auf Augenhöhe mit den US-Hyperscalern agieren.

Das Thema ist übrigens in der Masse angekommen, denn nicht nur bei Golem und Heise, sondern auch beim Stern gibt es hierzu einen Artikel.
Ich bin mir persönlich nicht sicher, ob man alle 200+ AWS Services für eine deutsche Cloud braucht, vielleicht reicht schon ein ordentliches Angebot zu einem günstigeren Preis – neben dem Gedanken der Souveränität.

Deutsche Cloud muss genauso gut sein wie US-Hyperscaler

Microsoft verkündet „souveräne Cloud“ für Europa

Microsoft reagiert auf den wachsenden Druck aus Europa und kündigte diese Woche umfassende „Sovereign Cloud“-Lösungen an. Das Ziel: Europäische Kunden sollen mehr Kontrolle über ihre Daten bekommen und gleichzeitig die gewohnte Microsoft-Performance nutzen können.

Die Microsoft-Offensive im Detail

Die Microsoft Sovereign Cloud umfasst drei Säulen:

Sovereign Public Cloud: Azure, Microsoft 365 und Security-Services in allen europäischen Rechenzentren – ohne Migration nötig
Sovereign Private Cloud: Kritische Workloads auf Azure Local in kundeneigenen Rechenzentren
National Partner Clouds: Bleu in Frankreich (Orange/Capgemini) und Delos Cloud in Deutschland (SAP-Tochter)

Microsoft verspricht konkrete Verbesserungen: Der „Data Guardian“ soll sicherstellen, dass nur europäisches Personal Fernzugriff auf Systeme hat. External Key Management gibt Kunden die volle Kontrolle über Verschlüsselung. Microsoft 365 Local bringt Exchange und SharePoint in private Cloud-Umgebungen.

Günter Borns skeptische Einschätzung

Tech-Blogger Günter Born zweifelt am Wert dieser Zusicherungen:

Die Gretchenfrage ist, was diese Zusicherungen wert sind, wenn die US-Regierung den Cloud Act zieht oder ein Embargo verhängt.

Besonders kritisch wird es bei Wire-CEO Benjamin Schilz:

Microsoft verfügt über keinen Freifahrtschein vom US-Überwachungsrecht. Jeder US-Softwareanbieter kann gesetzlich dazu verpflichtet werden, Überwachungsmaßnahmen durchzuführen.

Das Hauptproblem bleibt ungelöst: Microsoft unterliegt weiterhin US-amerikanischem Recht. Der Cloud Act und potenzielle Embargomaßnahmen könnten alle europäischen Zusicherungen aushebeln. Schilz warnt: „Es gibt keine rechtliche Hürde, die die US-Regierung daran hindern würde, von Microsoft den Einbau von Hintertüren zu verlangen.“

Microsofts Sovereign Cloud ist eine strategische Reaktion auf europäische Souveränitätsbestrebungen. Technisch durchaus beeindruckend, aber rechtlich problematisch. Echte digitale Souveränität erfordert mehr als neue Features – sie braucht Unabhängigkeit von US-Rechtsprechung.

Für viele europäische Organisationen bleibt die Frage: Vertrauen wir den Zusicherungen oder suchen wir nach echten europäischen Alternativen?

Announcing comprehensive sovereign solutions empowering European organizations

Anzeige

Monitoring as Code für LinkedIn, Crowdstrike und 1Password

Checkly ist eine code-first Monitoring-Lösung, die ein kundenzentrisches Monitoring ermöglicht und unter anderem bei LinkedIn, Crowdstrike, Finn.auto und 1Password im Einsatz ist.

Kundenzentrisches Monitoring?
Ja, „Customer Centric Monitoring“ – wie sieht eigentlich der Kunde meine Applikation?

Funktioniert der Login, ist die Suche nach einem Produkt schnell und kann man überhaupt ein Produkt in meinem Shop kaufen?
Das fängt schon beim HTTP Handshake und dem TLS-Zertifikat an und geht durch die ganze Traffic-Kette bis zum Kaufprozess inkl. aller externen APIs, die in deiner Anwendung verwendet werden.

Checkly verwendet hierfür die Open-Source-Browser-Automatisierung Playwright und simuliert damit einen Browser aus über 20 Standorten aus der Welt. Du bekommst damit neben der rein funktionalen Überwachung auch noch einen Einblick in die Performance und Uptime.

Dabei ist Checkly Code-first und bietet wirkliches „Monitoring as Code“ über einen eigenen Terraform Provider, eine Pulumi Integration und die hauseigene CLI an.
Als neues Feature bietet Checkly nun mit Checkly Traces eine nahtlose Integration in vorhandene „Open Telemetry Tracing“ Lösungen an – in einem Webinar vom Ende September kannst du dir hier auf YouTube anschauen, wie das Ganze funktioniert.

Starte jetzt mit dem kostenlosen Checkly Hobby Plan: mit dem Code „Andreas“ bekommst du 15% Rabatt auf die Paid Pläne!

Remote Work: Versteckte Kosten der ständigen Erreichbarkeit

Marissa Goldberg analysiert im verlinkten Artikel die problematische Kultur der permanenten Verfügbarkeit in Remote-Teams und zeigt konkrete Lösungsansätze auf.

Das Problem der Always-On-Kultur oder warum sind wir ständig erreichbar?

Sichtbarkeit: Schnelle Antworten werden als Produktivitätsnachweis interpretiert
Angst: Mitarbeitende befürchten, als unproduktiv wahrgenommen zu werden
Leadership-Vorbilder: Sofortige Antworten von Führungskräften setzen unbewusst Standards
Tool-Missbrauch: Slack & Co. werden für alle Kommunikation verwendet, obwohl sie für tiefe Zusammenarbeit ungeeignet sind

Problematisch dabei ist, dass beispielsweise die Aufmerksamkeit fragmentiert wird: Nach Unterbrechungen dauert es über 20 Minuten, um wieder in den Fokus zu finden. Konstante Benachrichtigungen zerstören die Möglichkeit für Deep Work. Von den CPUs kennen wir das auch als Context Switching – das ist anstrengend und sollte, wenn möglich, vermieden werden.

Kreativität leidet: Bei einem notifikationsgetriebenen Arbeitsalltag bleibt kein Raum für Neugier oder innovative Denkansätze.

Ungleichheit entsteht: Schnelle Antworten werden belohnt, während durchdachte Beiträge von Deep Thinkern und Kollegen in anderen Zeitzonen benachteiligt werden.

Konkrete Lösungsansätze

Klare Erwartungen definieren: Responsiveness-Richtlinien mit konkreten Zeitvorgaben („binnen einem Arbeitstag“) statt vagen „ASAP“-Anfragen
Boxed Sync Approach: Feste Zeiten für Sync-Kommunikation (z.B. erste und letzte 30 Minuten) definieren, Rest des Tages für Deep Work reservieren
Impact statt Aktivität messen: Fokus auf tatsächliche Ergebnisse und Fortschritte anstelle von Antwortgeschwindigkeit
Virtuelle Grenzen etablieren: Richtige Tools für den jeweiligen Zweck nutzen – Slack für Schnelles, Notion für durchdachte Kollaboration

Die Kernbotschaft: Ständige Verfügbarkeit verhindert oft die beste Arbeit. Teams wurden für Kreativität und Problemlösung eingestellt – nicht für Ping-Pong-Kommunikation. Der Kulturwandel hin zu fokussiertem, asynchronem Arbeiten ist essentiell für nachhaltigen Erfolg in Remote-Teams.
Ich glaube, die konkreten Ideen sind hier nur der Anfang – zu diesen Themen habe ich hier schon viel geschrieben – was funktioniert bei dir im Team hier besonders gut?

The Availability Trap

Deutsche KI-Allianz scheitert an Konkurrenz und offenen Fragen?

Luisa Bomke, Christof Kerkmann und Stephan Scheuer berichten im Handelsblatt über das Scheitern der geplanten deutschen KI-Allianz. Die ursprünglich als gemeinsames Milliardenprojekt konzipierte „AI Gigafactory“ sollte bei der EU-Ausschreibung für vier bis fünf KI-Großrechenzentren antreten. In Ausgabe 191 hatte ich das Thema noch als Top News angekündigt.

Gescheiterte Kooperation

Deutsche Telekom, Schwarz Digits, Ionos, SAP und Siemens arbeiteten wochenlang an einer gemeinsamen Allianz
Vor Ablauf der Einreichungsfrist am Freitag reichen nun mehrere konkurrierende Initiativen separate Pläne ein
Die Telekom mit T-Systems, Schwarz Digits, Ionos und ein bayerisches Konsortium verfolgen eigene Strategien

Kernprobleme in der Zusammenarbeit?

Wie Autorin Luisa Bomke auf LinkedIn analysiert:

Zu viele Fragen blieben unbeantwortet, zu wenig Kompromissbereitschaft soll von den Parteien im ersten Schritt vorhanden gewesen sein.

Die zentralen Streitpunkte waren scheinbar Führung, Finanzierung und Gewinnverteilung. Besonders die strukturellen Unterschiede zwischen DAX-Konzern Telekom und dem inhabergeführten Schwarz-Unternehmen erwiesen sich scheinbar als problematisch.

Laut dem LinkedIn Kommentar warnt BCG-Partnerin Kirsten Rulf vor der finanziellen Machbarkeit eines solchen Projektes: „Eine AI Gigafactory rechnet sich nicht automatisch.“ Das Geschäftsmodell der mit bis zu 35 Prozent EU-geförderten Rechenzentren bleibt ungeklärt.

Ich frag mich bei solchen Projekten ja auch immer, wie das in der Praxis funktionieren kann. Man mag von Elon Musk ja halten was man will, aber das xAI Datacenter wurde in Rekordzeit aufgebaut. Klar, man hat auch viel Schabernack getrieben und musste sich hier und da nicht mit Partnern abstimmen. Das Ganze ist aktuell „heiße“ News vom Freitag und es gibt afaik noch keine Kommentare dazu – daher leider auch der exklusive paywalled Handelsblatt Artikel im Link.

Tech-Firmen können sich nicht auf gemeinsame AI Gigafactory einigen

Google Cloud Platform: Weltweiter Ausfall am 12. Juni 2025

Am 12. Juni 2025 erlebte Google Cloud Platform (GCP) einen schwerwiegenden Vorfall, der dutzende Services in allen Regionen betraf. Lorin Hochstein liefert in seinem ausführlichen Artikel eine kritische Analyse des offiziellen Google-Incident-Reports und stellt dabei wichtige Fragen zur Systemarchitektur.

Was war passiert?

Ein neues Feature im Service Control System wurde am 29. Mai deployed, der problematische Code-Pfad wurde jedoch zwei Wochen lang nicht ausgelöst. Erst am 12. Juni führte eine Null-Pointer-Exception durch leere Policy-Felder zum Crash. Die globale Replikation verstärkte den Schaden binnen Sekunden auf alle Regionen.

Technische Schwachstellen

Der Vorfall verdeutlichte mehrere kritische Designprobleme: fehlende Fehlerbehandlung, keine Feature-Flag-Protection und unzureichende Backoff-Mechanismen. Besonders problematisch war die globale Datenreplikation, die eine regionale Begrenzung des Schadens verhinderte.

Hochsteins kritische Fragen

Der Resilience-Experte Hochstein hinterfragt die im Incident Report vorgeschlagenen Lösungsmaßnahmen: „Wie können diese Verbesserungen neue Fehlermodi ermöglichen?“ Er bemängelt fehlende Kontextinformationen und stellt die Effektivität der sieben angekündigten Korrekturmaßnahmen in Frage.

Recovery-Herausforderungen

Die Wiederherstellung dauerte bis zu 2 Stunden und 40 Minuten in größeren Regionen wie us-central-1. Ein „Herd-Effekt“ überlastete die zugrundeliegende Spanner-Infrastruktur beim Neustart der Service Control Tasks – kleiner Kaskadeneffekt. Solche Dinge in dieser Größenordnung auszuprobieren ist wirklich schwierig bis unmöglich.

Der Vorfall zeigt mir mal wieder, dass selbst Tech-Giganten wie Google nur mit Wasser kochen und scheinbar einfache Code-Änderungen zu globalen Ausfällen führen können – eine wichtige Lektion für alle Cloud-Architekturen und Cloud- und Infrastruktur Betreiber. Und vielleicht auch eine kleine Beruhigungspille, wenn man selbst mal wieder einen Ausfall hat.

Quick takes on the GCP public incident write-up

Cloudflare: 2,5 Stunden Ausfall für kritische Services

Tja, und ebenfalls am 12. Juni erlebte der CDN und Security Dienstleister Cloudflare einen massiven Service-Ausfall, der ähnlich wie bei Google über 2 Stunden andauerte (2 Stunden und 28 Minuten).

Die Ursache: Infrastruktur-Versagen bei Workers KV

Der Ausfall wurde durch einen kompletten Infrastruktur-Ausfall im Workers KV Service ausgelöst – einem zentralen Speicher-Backend, auf den unzählige Cloudflare-Produkte angewiesen sind. Besonders brisant: Ein Teil der Infrastruktur läuft bei einem externen Cloud-Provider, der zeitgleich ausfiel. Welcher das wohl gewesen ist – spannend ist, dass Cloudflare ihn gar nicht nennt.

Betroffene Services – Das Who’s Who der Cloudflare-Welt:

Access & WARP: 100% Ausfall bei neuen Logins und Geräte-Registrierungen
Gateway: DoH-Queries und Proxy-Verbindungen komplett down
Dashboard: Keine Logins möglich aufgrund Turnstile-Ausfall
Workers AI: 100% Error-Rate bei allen KI-Anfragen
Stream: 90%+ Fehlerrate bei Video-Playlists
Cloudflare Images: Batch-Uploads komplett ausgefallen

Der Dominoeffekt: Wenn ein Service alle anderen mitreißt

Cloudflare folgt der Philosophie „eating your own dog food“ – sprich, eigene Services nutzen die eigene Plattform. Was normalerweise für Robustheit sorgt, wurde hier zum Verhängnis: Der Workers KV-Ausfall zog einen gewaltigen Blast Radius nach sich und legte Services reihenweise lahm. Ironischerweise ist es ja wie oben beschrieben von einem externen Service ausgelöst worden.

Timeline des Chaos (alle Zeiten UTC):

17:52 – WARP-Team bemerkt erste Registrierungs-Failures
18:21 – Incident auf P0 (höchste Priorität) hochgestuft
19:32 – Erste Notfall-Maßnahmen: Load-Shedding bei Access
20:23 – Services beginnen sich zu erholen
20:28 – All Clear – normale Funktion wiederhergestellt

Lehren und Konsequenzen

Cloudflare arbeitet bereits an mehreren Workstreams zur Verbesserung:

Redundanz-Offensive: Wegfall der Abhängigkeit von einzelnen Providern
Progressive Recovery: Stufenweises Wiederhochfahren kritischer Services
Blast Radius Reduction: Einzelne Produkte sollen resilient gegen KV-Ausfälle werden

Selbst Tech-Giganten wie Cloudflare sind vor Single Points of Failure nicht gefeit. Die Abhängigkeit von externen Providern bei kritischer Infrastruktur bleibt ein Risikofaktor, auch wenn man eigentlich „cloud-native“ aufgestellt ist. Der Incident zeigt auch, wie Microservice-Dependencies in der Praxis zu Macro-Problemen führen können.

Natürlich kann man seinen eigenen Service nicht mit der Größenordnung vergleichen und das würde ich mir auch nie anmaßen – das ein oder andere Learning ist aber auch für kleinere Firmen dabei. Eindrucksvoll wie immer bei Cloudflare ist, dass man den ausführlichen Incident Report im Blog noch am Tag des eigentlichen Ausfalls veröffentlicht that.

Cloudflare service outage June 12, 2025

BKA zerschlägt Darknet-Imperium „Archetype“

Das Bundeskriminalamt (BKA) feierte diese Woche einen spektakulären Schlag gegen die größte Drogen-Handelsplattform im Darknet.

Ein 30-jähriger Deutscher wurde in Barcelona verhaftet. Er soll unter dem Pseudonym „ASNT“ die Plattform Archetyp Market betrieben haben – mit 612.000 registrierten Kunden und 3.800 Verkäufern die älteste kriminelle Handelsplattform im Darknet.

Key Facts:

5 Jahre Laufzeit – ungewöhnlich lange Überlebenszeit
250 Millionen Euro Gesamtumsatz
7,8 Millionen Euro Vermögenswerte beschlagnahmt
Handel mit Cannabis, Kokain, Heroin und Fentanyl
Millionenbeträge in Monero-Kryptowährung sichergestellt

Netflix-reife Inszenierung

Die Ermittler setzten auf Hollywood-Marketing und veröffentlichten ein Anime-Video zur „Operation Deepsentinel“. Das aufwendig produzierte Material könnte problemlos als Streaming-Serie-Trailer durchgehen und äh ja, ist irgendwie ungewohnt übertrieben, oder?

Was kommt als nächstes?

Die beschlagnahmte Datenbank wird nun ausgewertet. Oberstaatsanwalt Benjamin Krause kündigte an: „Wir werden auch gegen Händler und Käufer vorgehen.“ Für Tausende Nutzer könnte das böse Überraschungen bedeuten.

Interessant an der Geschichte: Trotz Tor-Anonymisierung und Monero-Verschleierung führten scheinbar klassische Ermittlungsmethoden zum Erfolg – ein Weckruf für die Darknet-Szene?

The Availability Trap

Technische Schulden: Das Zähneputzen der Softwareentwicklung

Der Tech-Blogger Rajiv Prabhakar erklärt in seinem neuesten Artikel, warum Tech Debt nicht mit großen Roadmap-Projekten gelöst werden kann – ein Phänomen, das sich in Unternehmen immer wieder wiederholt.

Der ewige Teufelskreis in Engineering Teams

Das bekannte Muster läuft meist so ab: Executives beschweren sich über langsame Entwicklung → Engineers schieben es auf Tech Debt → Management plant „Tech Debt Improvements“ → Ambitious Engineer schlägt glänzendes Migrationsprojekt vor → Halbes Team arbeitet Monate daran → Projekt wird „erfolgreich“ abgeschlossen → Velocity nur minimal besser.

Tech Debt ist eben kein einzelnes technisches Problem, sondern besteht aus unzähligen kleinen Hürden:

Flaky Tests, die Entwickler-Zeit verschwendet
Schlechte Dokumentation – 30 Minuten für 1-Minuten-Tasks
200-Zeilen-Funktionen mit kryptischen Variablennamen
Verworrene OOP-Hierarchien mit Seiteneffekten
Coverage-Löcher im Test-Setup

Bottom-Up statt Top-Down: Die Lösung liegt im Alltag

Die beste Strategie? Tech Debt als tägliche Routine behandeln, nicht als Roadmap-Item:

Code-Reviews als Qualitäts-Gateway nutzen
„See something? Do something!“ – Kleine Probleme sofort fixen
Senior Engineers als Team-Enabler statt Projekt-Helden
Polieren vor Auslieferung – nicht nur „schnell raushauen“

Wie Rajiv treffend schreibt: Tech Debt ist wie Zahnpflege. Ja, man braucht alle paar Monate den Zahnarzt für die Grundreinigung (große Refactoring-Projekte). Aber wenn man sich nur auf diese Termine verlässt und das tägliche Zähneputzen vernachlässigt, ist man in großen Schwierigkeiten.

Technische Exzellenz entsteht durch tägliche Disziplin, nicht durch spektakuläre Einmal-Aktionen. Wer Tech Debt nachhaltig bekämpfen will, muss es in die DNA des Teams einbauen – genau wie das Zähneputzen in die Morgenroutine. Aber nicht nur Morgens putzen, sondern auch Abends 😉

Tech debt can’t be solved as a roadmap item. It needs to be part of your daily routine

ilert launcht KI-Agenten für Incident Response

Das deutsche Incident-Management-Unternehmen ilert stellte diese Woche seinen ersten intelligenten Agenten vor: den ilert Responder – einen KI-Co-Pilot, der 24/7 bei kritischen Alerts zur Seite steht.

ilert CEO Birol Yildiz skizziert eine ambitionierte Zukunft: „Wir setzen auf eine Zukunft, in der man nur noch alarmiert wird, wenn die KI ein Incident nicht autonom lösen kann.“ Das Ziel ist klar – nie wieder um 3 Uhr morgens aufstehen, nur um einen Service zu restarten.

Der neue Agent verbindet sich direkt mit der Observability-Infrastruktur, Cloud-Umgebung und Code-Repositories. In Echtzeit analysiert er Incidents, korreliert Metriken, prüft Code-Änderungen und liefert priorisierte Lösungsempfehlungen.

Technische Basis: Model-Context Protocol (MCP)

Unter der Haube nutzt ilert das Model-Context Protocol (MCP) – Yildiz nennt es „HTTP für AI-Agenten“. Der Agent kann so sicher mit Tools wie Grafana, Prometheus, GitHub und Kubernetes interagieren und Logs, Metriken oder Deployment-Daten in Echtzeit abrufen.

Privacy-First Ansatz für EU-Kunden

Für deutsche und EU-Kunden bleibt alles in Europa: AI-Processing läuft ausschließlich über AWS oder Microsoft Azure in der EU. Keine Daten landen bei OpenAI’s globalen Endpunkten. ilert verwendet zudem keine Kundendaten für Model-Training.

Cool: ilert macht AI-Features zur Grundausstattung statt Premium-Add-on. Selbst Free-Kunden bekommen Zugang zu KI-Funktionen. Ein credit-basiertes Preismodell soll bald folgen. ilert positioniert sich als „AI-first Platform“ für Incident Management. Der Responder startet im Read-only Modus mit Empfehlungen – ersetzt also keine Teams, sondern verstärkt sie.

Finde ich einen interessanten Ansatz, sofern das Teil Zugriff auf alle nötigen Komponenten hat. Werde es jedenfalls mal ausprobieren – dann fällt das Charts anstarren und zusammensuchen erstmal weg und hat vielleicht schon einen Lösungsvorschlag, bis man am Rechner ist.

Falls dich ilert, die Firma und die Idee dahinter interessiert – kannst du gerne in die Folge 125 von Happy Bootstrapping reinhören – da habe ich mit Birol über ilert gesprochen. Ansonsten kannst du eine Video Demo zu der hier vorgestellten Lösung in diesem YouTube Video anschauen – Birol erweitert eine App um eine Datumsfunktion, der Speicher des Pods reicht dann aber nicht aus – die AI übernimmt die Analyse und Anpassung der Pod Limits.

ilert launcht KI-Agenten für Incident Response

Schmunzelecke

Tja, wer hätte das gedacht – ein Atari 2600 gewinnt gegen ChatGPT im Schach, trotz 8bit Engine und 1,19MHz CPU – es gibt also noch Hoffnung für uns.

Auf GitHub wurde letzte Woche das Milliardste Repisitory eröffnet – und hat prompt ein Gratulations-Issue von GitHub Principal Engineer Jonathan Hoyt bekommen.

💡 Link Tipps aus der Open Source Welt

Unregistry – Docker Images direkt pushen

Du hast ein Docker Image lokal gebaut. Jetzt brauchst du es auf deinem Server. Die aktuellen Optionen haben overhead: Docker Hub macht dein Code öffentlich oder kostet Geld, eine eigene Registry musst du verwalten, und docker save/load überträgt das komplette Image.

Unregistry löst das Problem elegant – es überträgt nur die fehlenden Layer direkt über SSH:

Zero Setup: Keine Registry, keine Subscription, keine exponierten Ports
Effizienter Transfer: Wie rsync für Docker Images – nur fehlende Layer
SSH Tunnel: Sicherer, direkter Transfer ohne Zwischenspeicher
Temporärer Container: Unregistry läuft nur während der Übertragung
Drop-in Command: docker pussh myapp:latest user@server – fertig

So funktioniert es unter der Haube: SSH Tunnel zum Server, temporärer Unregistry Container, Port-Forwarding, docker push der fehlenden Layer, automatisches Cleanup.

Unregistry ist somit ein leichtgewichtiger Ansatz in einer Zeit, wo Container-Deployments oft über komplexe CI/CD-Pipelines und externe Registries laufen. Gerade für kleinere Projekte oder schnelle Deployments, die keine Enterprise-Registry-Infrastruktur brauchen, könnte das eine echte Vereinfachung sein.

https://github.com/psviderski/unregistry

Workout.cool – Open Souece Fitness-Plattform Revival

Ein workout.lol Hauptcontributor weigerte sich, das Projekt sterben zu lassen – 9 Monate Funkstille nach 15 Kontaktversuchen mit dem neuen Besitzer motivierten ihn, die verlassene Fitness-Plattform komplett neu aufzubauen. Das ursprüngliche Projekt scheiterte an prohibitiv teuren Lizenzkosten für Übungsvideos und wurde mittlerweile auch verkauft.

Folgende Features bietet die Open Source Alternative Workout.cool bereits:

Workout-Erstellung: Individuelle Trainingspläne zusammenstellen
Progress Tracking: Fortschritte detailliert verfolgen und analysieren
Exercise Database: Umfangreiche Übungsdatenbank mit Videoanleitungen
Community-driven: Von der Community, für die Community entwickelt
Modern Implementation: Frische, zeitgemäße Umsetzung der ursprünglichen Vision

Der Entwickler betont: „Someone had to step up“ – jemand musste die Verantwortung übernehmen, die die Open Source Fitness-Community verdient. Es gehe nicht um Profit, sondern um Prinzipien – bisher gibt es keine Monetarisierung, keine SaaS und App Variante – einfach das Tool und diverse Inhalte in der Übungsbibliothek – du kannst das Online einfach mal ausprobieren oder mit Docker selbst hosten.

https://github.com/Snouzy/workout-cool

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

allesnurgecloud.com

Neueste Beiträge

Neueste Kommentare

allesnurgecloud.com