Ahrefs und Cloud Kosten, RTO, VMware, lokale Continuous Integration, MySQL Latenz, RZ Abwärme und mehr – allesnurgecloud #146

26. Mai 2024 · 15 min read

Willkommen zu allesnurgecloud.com – Ausgabe #146!

In der letzten Woche hatte ich ja über Google und die UniSuper Account Löschung berichtet – seit dem 15.5. waren die Services übrigens wieder verfügbar. Ich frage mich trotzdem, was das für uns alle da draußen bedeutet – also doch Multi-Cloud, zumindest mal für Backup?
In der nächsten Woche gibt es keine neue Newsletter Ausgabe, da ich im Urlaub bin – dafür ist diese Ausgabe prall gefüllt.

Happy Bootstrapping Podcast

Im „Happy Bootstrapping“ Podcast habe ich diese Woche mit Julia Kupke von Lotaro.de gesprochen. Lotaro ist eine Plattform für Online-Trainings, die aufgrund der kleinen Gruppen und der hohen Interaktion über 80 % Nutzungsrate erreicht. Firmen bezahlen dabei nur für Kurse, die die Mitarbeitenden auch wirklich zu Ende gemacht haben – cooles Modell und eine sehr interessante Gründungsgeschichte – oder wer startet schon einfach mit dem neuen Start-up ohne konkrete Idee und erste Umsätze?
Falls du den Podcast hörst – schreib mir gerne Feedback dazu – einfach per Mail auf den Newsletter antworten – Danke!

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

Inhalte

1. Ahrefs potenzielle Cloud-Kosten analysiert

2. Return-To-Office Fluktuation bei Apple, SpaceX & Microsoft

3. Wir kümmern uns nachhaltig um deine Cloud-Infrastruktur

4. VMware verliert Kunde mit 24.000 VMs

5. Continuous Integration wieder lokal bei Basecamp & HEY!

6. Google speist RZ Abwärme ins Fernwärmenetz

7. 3 Rollen für SRE Erfolg

8. MySQL: Latency und IOPS

9. Open-Source Time-Series Extension für PostgreSQL

10. Humbe Bundle: Dive into DevOps

11. Schmunzelecke

12. 💡 Link Tipps aus der Open Source Welt

12.1. Piko – Open-Source Ngrok Alternative

12.2. pqmq – PostgreSQL Message Queue

13. ❓ Feedback & Newsletter Abo

Ahrefs potenzielle Cloud-Kosten analysiert

Über die potenziellen „Cloud Kosten“ von Ahrefs hatte ich im letzten Jahr schon berichtet. Der damalige Artikel beinhaltete die möglichen AWS Kosten – nur für die Server analog der damaligen Ahrefs Systemlandschaft.

In einem aktuellen Artikel erklärt Efim Mirochnik nun, welche Kosten bei einer Cloud Migration entstehen würden und wie Ahrefs bisher unterwegs war. Vor der „Co-Location“ Migration nutze Ahrefs Provider wie OVH, SoftLayer und Hetzner Online. In 2017 migrierte man dann zurück auf eigene Server bei einem Co-Location-Provider. Die entstandenen Kosten seit 2017 zeigt dieses Schaubild.
In Summe hat man seit 2017 bis heute über $122 Millionen Dollar für Infrastruktur ausgegebenem – eine stattliche Summe, die man ja auch erst mal auf dem Konto haben muss (oder finanzieren kann).

Alleine mit den nötigen AWS EC2 Instanzen inkl. Storages wäre man heute mehr als bei der 10-fachen „Ausgabe“, selbst wenn man „3 Jahre Reserved Instances“ bucht, die man komplett vorab bezahlt – hier würde AWS $1,1 Milliarden Dollar berechnen – ohne Reservierung sogar bei über $1,26 Milliarden.

Efim zeigt auf, was man mit der Differenz alles hätte machen können – beispielsweise Instagram oder die Airline „Air New Zealand“ kaufen.
Noch schlimmer wird es, wenn man in die Zukunft schaut – Ahrefs behält für die Vergleiche und Statistiken auch viele historische Daten, wächst also immer weiter.

Und apropos weiter wachsen – bei AWS wächst die EC2 Rechnung natürlich immer weiter, selbst bei einer „eingefrorenen“ Infrastruktur sind alle 3 Jahre die „Reserved Instance“ Payments fällig. 2026 hätte man dann insgesamt schon knapp $2,3 Milliarden (reserved) oder gar $3,2 Milliarden Dollar fällig.

Nun hast du sicherlich im Kopf, dass man das nicht einfach übertragen könnte und die Anwendung ja „cloud-native“ optimieren müsste. Laut dem Artikel lastet Ahrefs seine vorhandenen Maschinen zu 86-92 % aus – das ist absolut kein „Serverless“ oder sonstiger use-case, in dem jeder Layer bis zur HW weitere Kosten verursachen würde. Für meinen Geschmack ist die Auslastung sogar recht hoch. Efim führt aus, dass die Server bei ihnen eine konstant hohe & permanente Last haben, und daher auch „Spot-Instances“ keine Option für die meiste Workload sei.

Die genannten Preise sind alle unverhandelt – hier ist sicherlich auch einiges an Spielraum drin – damit sie finanziell Sinn machen würden, müsste AWS allerdings einen 90 % Discount geben – und das ist dann doch ziemlich unmöglich.

Der letzte Punkt beschäftigt sich mit dem Faktor Mensch. Auch etwas, was bei solchen Cloud-Kosten Vergleichen üblicherweise als Argument für den Cloud-Provider in Betracht gezogen wird. Ahrefs beschäftigt in Summe ganze 11 SRE und DataCenter Techniker – diese betreiben 3300 Server.

Im ausführlichen Anhang zeigt er noch seine Berechnungsgrundlagen – beispielsweise hat er bei AWS bisher nicht mal Traffic-Kosten, Support oder weitere „pay-as-you-go“ Themen inkludiert.

Der Fall zeigt mal wieder, dass „Cloud“ für jeden etwas anderes bedeuten kann und man nicht komplett naiv sein sollte, was Cloud-Migrationen und damit verbundener Kosten betrifft.

How Ahrefs Gets a Billion Dollar-Worth Infrastructure With a 90% Discount

Return-To-Office Fluktuation bei Apple, SpaceX & Microsoft

Im verlinkten Artikel beim Techblog Arstechnica wird eine Studie der Universitäten von Chicago und Michigan analysiert, welche sich mit dem Thema „Return To Office“ und Fluktuation beschäftigt. In der Studie werden die „RTO Mandate“ von Microsoft, SpaceX und Apple untersucht.

Grundlage der Studie bilden 260 Millionen Lebensläufe, die man analysiert hat. Man hat sich dann für die 3 genannten Firmen entschieden, da diese 30 Prozent des „Tech Revenue“ und 2 % der im Technologie-Segment Beschäftigten darstellen. Zusätzlich hätten die 3 als Vorbild für Remote Arbeit während der Pandemie und dem späteren Umgang mit dem Thema „Return-To-Office“ fungiert.

Nachdem die 3 Firmen ihre lockere Remote Policy angepasst hatten, habe dies zu einem Verlust von „Senior-Level“ Management geführt:

bei Microsoft betrug die Fluktuation 5 Prozent – man stieg nach der Remote Policy auf eine Hybrid Policy um
bei Apple verringerte sich die Anzahl der „Senior Managers“ ebenfalls um 5 Prozent, nachdem von Full-Remote auf Part-time remote umgestellt wurde
bei SpaceX wurden alle komplett ins Büro zurückgerufen – hier betrug die Fluktuation sogar 15 Prozent

Auf eine Anfrage zur Stellungnahme hat Microsoft reagiert – man könne die Zahlen so nicht nachvollziehen:

Our internal data does not align with these findings, especially around attrition. It is also inaccurate to say we have a return to office mandate. We have a hybrid workplace that revolves around flexibility and a mix of workstyles across worksite, work location, and work hours.

Bei Apple ist man ebenfalls der Meinung, dass die „Studie falsche Schlüsse ziehe“ und sie nicht die „Realität von Apples Business“ abbilde. Von SpaceX hat man keine Rückmeldung erhalten.

Apple, SpaceX, Microsoft return-to-office mandates drove senior talent away

Wir kümmern uns nachhaltig um deine Cloud-Infrastruktur

Wir helfen Dir beim 24×7 Betrieb, bei Performance Problemen, bei Kostenoptimierung oder einfach beim Betrieb Deiner Web-Applikationen.

Betreibst Du Services wie GitLab, Zammad und Matomo selbst – hierbei unterstützten wir ebenfalls gerne – schau Dir einfach mal unsere Leistungen an.
Unsere Kunden kommen in unseren Case Studies zu Wort – wie beispielsweise everysize.com – eine Sneaker-Suchmaschine mit Preisvergleich und Community.

Eugen Falkenstein, CEO von Everysize, sagt beispielsweise über uns:

We Manage ist für uns ein optimaler Partner zur zuverlässigen Unterstützung unserer Web Applikationen und das 24/7. Neben kompetenter und zuverlässiger Beratung sind wir vor allem für die schnelle und direkte Kommunikation dankbar

Mit unseremaktuellen Angebot erhältst Du die ersten 4 Stunden gratis– 1 Stunde für die Analyse Deiner Infrastruktur und um zu schauen, ob und wie wir Dir helfen können. Die ersten 3 Stunden einer folgenden Beauftragung sind dann für Dich kostenlos.

zum „4 Stunden Gratis“ Angebot bei We Manage

VMware verliert Kunde mit 24.000 VMs

Computershare CTO Kevin O’Connor war diese Woche bei der Nutanix Next Konferenz in Barcelona auf der Bühne und hat für seine Firma eine komplette Migration der Computershare Hypervisor von VMware zu Nutanix AHV angekündigt.

Du erinnerst dich vielleicht daran, dass ich in den letzten Wochen über Preiserhöhungen berichtet hatte. Auf der Konferenz spricht er nun von einer 10-15 fachen Subscription Erhöhung, sollte man einen neuen VMware Vertrag abschließen. Da er mit der bisherigen Unternehmensstrategie mit 2 Hypervisorn ohnehin nicht zufrieden war, beschleunigte das „neue Angebot“ den Prozess dann nochmals deutlich.

Somit werden die ungefähr 24.000 VMs von Computershare in Zukunft auf Nutanix AHV Hypervisoren laufen. Das Projekt wird sich aufgrund der zu erwartenden Kosten bei Nicht-Durchführung in wenigen Monaten amortisieren.

Computershare ist ein australischer Dienstleister für die Verwaltung von Aktienregistern, Mitarbeiterbeteiligungsprogrammen und Hypothekendarlehen. Die Firma beschäftigt 14.000 Mitarbeitende, ist in 20 Ländern aktiv und ist mir 3,3 Milliarden Dollar Umsatz kein kleiner Fisch.

It looks a lot like VMware just lost a 24,000-VM customer

Continuous Integration wieder lokal bei Basecamp & HEY!

Bei Basecamp & HEY wird der Build der Continuous Integration Systeme in Zukunft wieder lokal auf den Developer Laptops durchgeführt. In einem Blog-Artikel beschreibt David Heinemeier Hansson, dass die modernen Laptops so schnell seien, dass Remote-Build Systeme keinen Sinn mehr machen.

Das Remote System bei BuildKite benötige 5m und 30s für einen CI Lauf der 55.000 Zeilen Ruby-Code. Sein Intel 14900K basierter Linux Rechner schaffe den Run in der Hälfte der Zeit, ähnlich wie ein Macbook M3 Max. Der 14900K hat über 20 Kerne, das Macbook 16 – mehr als genug, um die parallelen Jobs auszuführen.

Allerdings bleibt das verlinkte Build Skript nicht ohne kritische Kommentare zur Sicherheit, Versionierung, weiteren offenen Themen, die DHH zumindest auf GitHub bisher nicht beantwortet.

Im Artikel gibt er zu, dass ein solches System für massiv verteilte Systeme wie bei Shopify oder GitHub nicht funktionieren könne, es aber sehr für die anderen 99,99 % Prozent der Web-Applikationen passen könnte, die mehr Ähnlichkeiten mit HEY haben werden als mit den Giganten Shopify und GitHub.

We’re moving continuous integration back to developer machines

Google speist RZ Abwärme ins Fernwärmenetz

In der finnischen Kleinstadt Hamina (20.000 Einwohner) wird Google im kommenden Jahr über ein 1,3 Kilometer langes Kabel die Abwärme des dortigen Rechenzentrums in das Fernwärmenetz einspeisen.

Google spart sich somit viel Geld (und CO2) für die Kühlung und kann hier nur mit dem Austausch der Luft arbeiten. Die Abwärme für die Stadt gibt es umsonst – bzw. kostet dann den symbolischen 1 €, den man auch von anderen Themen her kennt.

Bislang hatte Google nur eigene Büros mit der Abwärme geheizt – nun sind die Gegebenheiten aber optimal und die Wärmepumpe, die die Abwärme weiter erhitzen, steht nah genug und ist halt ohnehin da.

Weitere Informationen zum Projekt gibt es im Google Blog – in Hamina arbeitet Google bereits zu 97% CO2-neutral – 80 % der lokal benötigten Wärme wird in Zukunft durch die DC Abwärme bereitgestellt.
Hamina ist übrigens die Google Cloud Region europe-north1, die als eine der wenigen Regionen in der offiziellen Übersicht mit „niedrigem CO2 Wert“ klassifiziert ist.

Google findet Abnehmer für Abwärme eines Rechenzentrums

3 Rollen für SRE Erfolg

Viele Organisationen investieren viel Zeit, Geld und Mühe in die Verbesserung der Reliability, ohne dass dies spürbare Auswirkungen auf Incidents und Ausfallzeiten hat. Aber es gibt diverse Unternehmen, die erfolgreich ihre Zuverlässigkeit verbessern – und das im großen Maßstab.

Im verlinkten Artikel werden gemeinsame Merkmale von in diesen Bereichen erfolgreichen Firmen vorgestellt.
Vor allem spielen 3 Themen eine übergeordnete Rolle:

Standards – Personen oder Rollen definieren Standards, Best Practices und verwalten Tools und Prozesse, die bei der Einführung von Standards helfen
Operations – Personen oder Rollen, die bei der Implementierung der definierten Standards helfen und dann auch die Einhaltung der Standards überwachen. Sie berichten zudem über die Ergebnisse und helfen dabei, auftretende Risiken zu minimieren
Leadership – und auch das Management kann bei der Optimierung von Verfügbarkeiten helfen – durch Budgets, Ressourcen und der Förderung der Einhaltung der definierten Standards – schließlich sollen alle an einem Strang ziehen. Auch hilft das Management dabei, Ziele und Metriken abzustimmen und ggf. anzupassen.

Durch die Zusammenarbeit dieser drei Rollen kann die Resilienz deiner Systeme verbessert werden, um deren Verfügbarkeit und Betriebszeit zu erhöhen – und sie somit zuverlässiger für deine Kunden zu machen.

Three roles you need for reliability success

MySQL: Latency und IOPS

Im Blog von Kris erklärt dieser in diesem Artikel ausführlich, auf welche Parameter es bei MySQL Performance ankommt. Eigentlich gilt es nicht nur für MySQL, sondern auch für alle anderen Datenbanken. Wichtig sind:

bandwith – Bandbreite – hier bekommt man in der Regel so 200 MB/s, 400 MB/s bei einem bulk flash Storage und bis zu 4 GB/s burst speed für eine kurze Zeit
latency – Latenz des Storages – eine NetApp von 2012 hat um die 0,5 ms Latenz, heutige NVME SSDs ungefähr 0,1ms – ein typisches, Remote in der Cloud angebundenes Storage hat 1-2ms. Vermutlich hat Kris deshalb den Vergleich mit der NetApp von 2012 aufgenommen 😉
IOPS – I/O Operationen pro Sekunde

In der Regel bekommt man Bandbreite und IOPS vom Cloud-Provider, bzw. zahlt das Storage ohnehin recht transparent nach den Leistungsdaten dieser beiden Parameter. Was man in der Regel nicht bekommt, ist die Latenz. Für MySQL sei eine Nummer hier wichtig: die „Commit Latency für einen random 16 KB disk write“ Vorgang, schreibt Kris.

Im Artikel beschreibt er sehr ausführlich den Unterschied von Latenz und IOPS und warum beide wichtig sein können. Am Ende kann das Thema „Jitter“ noch einen Einfluss auf die Performance haben, je nachdem, wie oft das auftritt.

MySQL: Latency and IOPS

Open-Source Time-Series Extension für PostgreSQL

Tembo, ein Cloud-Anbieter für PostgreSQL Datenbanken mit 200+ Extensions, hat eine neue Time-Series Extension für PostgreSQL veröffentlicht: pg_timeseries ist der einprägsame Name der neuen Extension.

Ja, aber es gibt doch schon TimescaleDB?

Die TimescaleDB Lizenz ist eingeschränkt und erlaube essenzielle Features wie Kompression, incremental materialized views und „bottomless storage“ nicht.

Gerade die Komprimierung ist aber bei Time-Series sehr interessant, daher habe man pg_timeseries entwickelt und könne weiterhin in PostgreSQL arbeiten, nun aber eben auch mit Time-Series Daten.

Hat man eine Tabelle mit time-series angelegt, beispielsweise:

    CREATE TABLE measurements (
      metric_name text,
      metric_value numeric,
      metric_time timestamptz NOT NULL
    ) PARTITION BY RANGE (metric_time);

    SELECT enable_ts_table('measurements');

So kann man Komprimierung und Retention einfach per SQL konfigurieren:

    SELECT set_ts_compression_policy('measurements', '90 days');
    SELECT set_ts_retention_policy('measurements', '365 days');

Komprimiert wird nach 90 Tagen, gelöscht wird nach 365 Tagen – ganz einfach.

In einer zukünftigen Version soll pg_timesteries noch um Funktionalitäten aus der bestehenden Extension pg_tier erweitert werden.
Damit könnte man dann historische Daten auf ein anderes Storage-Tier auslagern, beispielsweise auf einen S3 Object-Storage.

Die vollständige Roadmap und das Projekt selbst findest du bei GitHub – mit einem kostenlosen Hobby Plan kannst du das Ganze bei tembo auf einfach mal ausprobieren.

Introducing pg_timeseries: Open-source time-series extension for PostgreSQL

Humbe Bundle: Dive into DevOps

Bei Humble Bundle gibt es mal wieder ein interessantes DevOps Bundle mit Büchern des „No Starch Press“ Verlags.

Insgesamt kannst du bis zu 22 Bücher für mindestens 27,79 € erwerben – ein Teil der Erlöse erhält in diesem Fall die „Python Software Foundation“:
Enthaltene Bücher unter anderem:

„DevOps for the Desperate“ von Bradley Smith
„How Linux Works“ von Brian Ward
„The Book of Kubernetes“ von Alan Hohn
„Web Security for Developers“ von Malcom McDonald
„Practical Vulnerability Managemeng“ von Andrew Magnusson
„The Linux Command Line“ von William Shotts

alle Bücher gibt es nach Kauf als PDF, ePUB und Mobi – damit bist du auf der sicheren Seite und kannst die Bücher auf sämtlichen Devices lesen.

Book Bundle: Dive inTo DevOps

Schmunzelecke

Warum du eine Cisco Firewall, eine von Huawei, eine von Checkpoint, eine von Fortinet, eine Palo Alto und eine pfSense in Reihe benötigst, damit du wirklich sicher bist.

💡 Link Tipps aus der Open Source Welt

Piko – Open-Source Ngrok Alternative

Piko ist eine Open-Source Alternative zu Ngrok, die vor allem für den Einsatz in Kubernetes gedacht ist. Mit Piko kannst du Anwendungen aus einem internen Netzwerk im Internet erreichbar machen – ohne dass die eigentliche Applikation im Internet stehen muss. Neben dem klassischen Host Header kann Piko Anwendungen auch über einen x-piko-endpoint header routen.

Piko kann im K8s Cluster ganz normal horizontal skalieren und bringt einen Schwung an Observability Integrationen mit sich.

Im Gegensatz zu Nrok ist Piko für den produktiven Einsatz gedacht – als sicherer Proxy oder um auf IoT Devices in sicheren Netzen zuzugreifen.

https://github.com/andydunstall/piko

pqmq – PostgreSQL Message Queue

Ebenfalls von Tembo (siehe oben bei pg_timeseries) ist die Postgres Message Queue (PQMQ). Die Extension ist sehr leichtgewichtig und garantiert „exactly once“ delivery – und hat dabei API Parität mit AWS SQS und der Redis Simple Message Queue.
Nachrichten in PQMQ bleiben in der Queue, bis sie explizit gelöscht oder archiviert wurden.
Mit der pg_partman Extension können die Queues dann sogar partitioniert werden.

https://github.com/tembo-io/pgmq

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

allesnurgecloud.com

Neueste Beiträge

Neueste Kommentare

allesnurgecloud.com