allesnurgecloud #54 – Digitale Isolation, Resilienz bei Prime Video, GCP spart, Ransomware Incident bei Nvidia und Samsung

allesnurgecloud.com ist ein kuratierter Newsletter mit Inhalten aus der Open-Source, Cloud und IT-Welt.
Für weiteren Content folge mir gerne auf Twitter, Mastodon oder LinkedIn.

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

507 Abonnenten sind schon dabei - Vielen Dank!

Please enter a valid email address
Diese E-Mail ist bereits registriert.
The security code entered was incorrect
Vielen Dank für Deine Anmeldung - bitte den Opt-In bestätigen.

Digitale Isolation von Russland

Eins Vorweg: Der Krieg ist ein Wahnsinn – andere können darüber viel besser informieren als ich. Die Nachrichten sind voll davon – beachtlich ist die Berichterstattung des Kyiv Independent, auf twitter wie auch auf der eigenen Website selbst.
Was will ich hier also von euch?
Neben ganz vielen Firmen wie beispielsweise Apple, Volkswagen und co. hat nun auch Microsoft angekündigt, seine Geschäfts in Russland einzuschränken. Es soll keine „New Sales“ mehr geben – ist ja auch schwierig, wenn man dafür kein Geld mehr bekommen kann.
Auf twitter spekuliert der Microsoft Berater Brent Ozar nun, was dies für Cloud Kunden bedeuten könnte:

If Azure shuts off all Russian users, this is big.
This means if your business relies on cloud services, your government’s political choices may impact whether your services are available or not.
If Amazon and Google follow suit, and shut off all Russian cloud customers, WOW.

Bisher hat keiner der 3 Großen Anbieter dergleichen angekündigt – könnte dies aber nötig sein, um den Druck weiter zu erhöhen?
Bedeutet das im Umkehrschluß, dass Firmen ihre Cloud Platzierungen in Zukunft weiter hinterfragen werden, und nicht nur nach finanziellen und technischen Parametern, sondern auch nach politischen Einflüssen entscheiden?
Klar, bei uns ist die Verwendung der Yandex Cloud unwahrscheinlich, in Ost-Europa und den Balkanstaaten sieht das sicherlich anders aus. Yandex listet auf der Startseite beispielsweise „Geberit“, „Renault“, „Forbes“ und die „Raiffeissen BANK“ als Referenzkunden.
Was meint ihr dazu?

Resilienz im Amazon Prime Video Team

Das Amazon Prime Video Team ist ein über diverse Kontinente und Kulturen verteiltes, cross funktionales Team, welches ein Produkt für Millionen von Kunden weltweit bereitstellt. Häufig hat das Team mit nicht planbaren „Traffic Spikes“ , national und weltweit zu tun.
Sie begegnen dieser Komplexität mit 3 Werkzeugen: Machine Learning, Team resilience Scores und menschlicher Kreativität.

Machine learning für „Continuous Resilience“

Als Beispiel nahm man den Livegang von Prime Video, im speziellen ein Kricket Match. Diese Matches dauern manchmal 3-5 Tage mit 6 Stunden Spielzeit pro Tag. Peak Traffic hat man in der Regel in der letzten Stunde des Matches – diese letzte Stunde ist aber nicht genau planbar.
Man baute seinen Prozess um 5 Prinizpien:

  • Modellierung der Workload – welches Event, wieviele Zuschauer, Ausstrahlungszeit, welche Regionen – und was passiert mit dem normalen „On-Demand“ Content
  • „Game Days“ – man spielte verschiedene Szenarien durch (Gameday System Testing)
  • „Failure Injection“ – ähnlich wie der Chaos Monkey von Netflix führte man Fehler und Latency Erhöhungen während eines Lasttests durch – somit konnte man Bottlenecks finden oder timeouts optimieren
  • Eventualitäten und Alternativen – Was hat man für Failover Möglichkeiten, welche Alternativen hat man während eines Peaks – in einem Online Shop könnte man beispielsweise „rechenintensive“ Zahlarten abschalten, oder welche, die externe Zugriffe erfordern
  • Observe everything – man benötigt eine systemweite Transparenz

Am Ende hat man ein Vorhersagemodell entwickelt, welches mit einer Engine eigene Daten, IMDB Ratings, Erwähnungen in sozialen Medien und weiteren Faktoren verarbeiten konnte und somit berechnen konnte, welche Serie und welcher Event an welchem Zeitpunkt seinen ungefähren Peak erreicht.

Team Resilience Score

Ähnlich strukturiert ging man bei der Team resilience score vor. Aus vergangenen Incidents und Post Mortems konnte man diverse Faktoren für die Berechnung einer Resilienz ableiten, am Ende kam folgendes Scoring raus:

  • Deployment Safety: 40%
  • Operational readiness review: 30%
  • Center of Excellence action items: 15%
  • Code coverage: 15%

Mit Hilfe des Scorings konnte das Team leichter prüfen, wo es Bedarfe hat, und wie gut man im Vergleich zu anderen Teams in diesen Aspekten performt – natürlich kann man dies auch zur Priorisierung der Maßnahmen verwenden.

Der Artikel ist recht umfangreich und ich schneide hier nur die Highlights an, bei Interesse schaut mal rein – dort sind auch diverse weiterführenden Artikel verlinkt.

How Amazon Prime Video Engineering Builds Team Resilience

Google spart beim Cloud Support

Scheinbar hat Google Teile seines Support Teams entlassen, um das Cloud Business effizienter aufzustellen.
Manche Teams sollen zusammengelegt oder Tätigkeiten ausgelagert werden. Mitarbeiter haben 60 Tage Zeit, einen anderen Job innerhalb von Google zu finden.
Laut Reddit ist das offizielle Wording hierzu:

Today, we announced some changes within our support organization, and we plan to help those Googlers who were directly impacted by identifying other opportunities within the organization. We frequently evaluate the right approach to providing the best service and support structure to our customers.

Von der Aktion sind Mitarbeiter in Kalifornien, Austin, Zürich und Sydney betroffen. Im unten verlinkten Reddit Thread findet ihr weitere Kommentare, teilweise von Mitarbeitern hierzu.
Weiterführende Informationen und auch einen offiziellen Kommentar hat der Business Insider (paywall).

Google Cloud just laid off it’s entire US support team

Öffentliches S3 Bucket bei OnlineShop Melijoe

Der französische Onlineshop Melijoe ist neben seinem Heimatmarkt in weiteren deutschen Ländern aktiv – unter anderem in Deutschland. Melijoe verkauft hochpreisige Bekleidung für Kinder und Babies.
Im November haben Security Researcher von „Safety Detectives“ ein öffentliches S3 Bucket von Melijoe gefunden. Es enthielt neben sämtlichen Kundendaten und deren Bestellhistorie auch Daten der Kinder, wie die Namen, Geburtsdaten und Geschlecht.
Insgesamt waren über 200GB Daten in mehr als 2 Millionen Files öffentlich zugänglich.
Warum behandelt der Andy schon wieder so einen Fall?
Hier finde ich den zeitlichen Ablauf interessant:

  • 12.11.2021 – SafeteyDetectives informiert Melijoe über den Sicherheitsvorfall – Melijoe reagiert – gar nicht!
  • 25.11.2021 – Man informiert AWS direkt, sowie das französische „Computer Emergency Response Team“ (CERT)
  • 15.12.2021 – das CERT antwortet, dass man Melijoe direkt informieren möchte
  • 4 Wochen später gibt es noch immer kein Feedback, und keine Information an die Kunden – ein klarer GDPR Verstoß
  • 05.01.2022 – SafeteyDetectives informiert die französische Datenschutzbehörde CNIL (Commission Nationale de l’informatique et des libertés)
  • 10.01.2022 – CNIL informiert SafeteyDetectives, dass man sich kümmert
  • 18.02.2022 – das Bucket ist nicht mehr öffentlich

Man sieht an der Zeitleiste ein Versagen auf mehreren Ebenen. Da Melijoe auch international operiert, können sie nun von diversen Datenschützern bzw. den GDPR ähnlichen Protokollen zur Zahlung von Schadensersatz verurteilt werden.
Der Schaden bei den Kunden ist schon angerichtet, zielgerichtetes Phishing oder schlimmere Attacken sind möglich.

Was könnt ihr daraus lernen?
Schafft einen Prozess, mit dem Security Forscher die zuständigen Mitarbeiter schnell erreichen können.
Ich hatte schon einige Male auf das Projekt securitytxt hingewiesen, schaut es euch an und verwendet es auf euren Pages. Benötigt wird hier erstmal nur eine Kontakt E-Mail und ein Expire-Date. Optional könnt ihr PGP Keys hinterlegen, eine Hall-of-Fame verlinken oder auch bevorzugte Sprachen und euer Job Board verlinken.
Meldet euch jemand ein Issue, solltet ihr einen Prozess haben, um schnell darauf zu reagieren.

Zudem solltet ihr euch überlegen, eure Pages zumindest bei OpenBugBounty zu hinterlegen oder euch auch kostenpflichtige Alternativen wie HackerOne anschauen.

Kids luxury clothing store Melijoe exposed 200GB of customers’ data

Cybersecurity Incident und Erpressungsversuch bei Nvidia und Samsung

Die Ransomware Gruppe LAPSUS$ hat Daten bei Nvidia und Samsung gestohlen.
Ursprünglich hat man Nvidia wohl erpresst und die Veröffentlichung von proprietären Treibern als OpenSource gefordert. Nvidia stand hier in der Kritik, da man eine Treiber Bremse in der Ethereum Mining Performance verankert hatte.
Scheinbar wurden bei Nvidia sämtliche Daten erbeutet: Daten zu Mitarbeitern, Projekten und zukünftige Grafikkaten Designs und Spezifikationen. Insgesamt droht LAPSUS$ mit der Veröffentlichung von über 1TB an Daten. Details hierzu könnt ihr im unten verlinkten Artikel oder hier bei „The Daily Swig“ nachlesen.
Wie tarnkappe.info berichtet, hat LAPSUS$ auch bei Samsung zugeschlagen und bereits diverse Daten veröffentlicht. In den 190GB Daten finden sich diverse Quellcodes, unter anderem für Samsungs Online Dienst „Knox“, Code der Bootloader und auch Quellcode für alle biometrischen Entsperrvorgänge.

NVIDIA confirms data was stolen in recent cyberattack

Die vergessene Kunst der Linux System Administration

Pietro Rea, ein Software Entwickler aus den USA, schreibt im verlinkten Blog Beitrag über die „vergessene Kunst der Linux Server AdministratioN“ und wie man diese wiedererlangen kann. Er beschreibt im Intro, warum er dies für nötig hält.
Vielerorts verlässt man sich heute auf Cloud Provider, SaaS und PaaS Dienste und verstehe teilweise nicht einmal, wieso das ganze funktioniert, wie es eben funktioniert.
Als Beispiel der Vergangenheit führt er tumblr an, welches in 2010 zum Großteil von einer einzigen Person betrieben wurde und trotzdem keine größeren Probleme mit performance und Verfügbarkeit hatte.

Tumblr taught me by necessity, especially in the early days when we had no staff and very little money, how to develop and host a high-traffic web service cheaply, easily, and sanely.

Teilweise wird das Geld für Cloud Dienste ja einfach nur so naiv verpulvert, ohne sich Alternativen anzuschauen – prominent erklärt wird dies im Blog des großen US Venture Kapitalgebers „Andreessen Horowitz“, im Artikel „The Cost of Cloud, a Trillion Dollar Paradox“.
Pietro führt dann weiter aus, wie man sich diese Skills wieder oder überhaupt aneignen könnte. Beispielsweise mit der Heim Automatisierung „Home Assistant“, einem „Pi-hole“ als AdBlocker oder mit Setup und Betrieb von anderen Tools von der „Awesome selfhosted“ Liste.

Reclaiming the lost art of Linux server administration

Rancher Desktop 1.1 released

Rancher Desktop, die sicherlich populärste Docker Desktop Alternative, wurde in der Version 1.1.0 veröffentlicht (ok, es gibt auch schon einen Bugfix Release 1.1.1).
Rancher Desktop hat einige zusätzliche Features zu Docker Desktop, beispielsweise die Integration einer lokalen Kubernetes Umgebung, oder die Wahl zwischen containerd und Moby (dockerd) als Container Runtime.
Mit der Version 1.1.x kann man Kubernetes nun abschalten, was diverse Ressourcen einspart. Zudem kann man traefik abschalten und einen anderen ingress controller verwenden.
Falls ihr noch nicht überzeugt seid, schaut euch dieses 10-minütige Youtube Video mal an.

Rancher Desktop 1.1.0

Schmunzelecke

„CI/CD Pipeline“ – in real life 😉 – twitter.com/_ediri

Shades of DevOps Roles – das ist ja eigentlich Ernst, aber irgendwie ist es auch lustig.

💡 Link Tipps aus der Open Source Welt

Awesome open-source Alternativen für SaaS Anwendungen

Diese recht umfangreiche GitHub Liste zeigt euch Open-Source Alternativen für populäre SaaS Anwendungen. Einige davon hatte ich hier schon aufgezählt, viele sind mir auch neu – einige Beispiele:

  • SuperTokens als Open-Source User Authentification (Alternative für Okta und Auth0)
  • Apache Superset als Business Intelligence Web Applikation (Alternative zu PowerBI & Tableau)
  • Chatwoot – Open Source Live chat Widget / Support Framework (Alternative zu Intercom & Zendesk)

Das ist nur ein kleiner Auszug aus über 100 Tools, schaut mal vorbei, da ist für jeden was dabei.

https://github.com/RunaCapital/awesome-oss-alternatives

Kubernetes Simplified – Visual Guides

Dieses Repo hat ein paar nette und einfache Übersichten zum Einstieg in das Thema Kubernetes.

https://github.com/pavangudiwada/kubernetesguides

ranger – ein von VIM inspirierter Datei Manager

Ranger ist ein „VIM-inspired“ file-manager, mit den von VI gewohnten Key Bindings und einem minimalistischen terminal interface. Man glaubt es kaum, aber das Tool hat über 11k GitHub Stars.

https://github.com/ranger/ranger

❓ Feedback & Newsletter Abo

Vielen Dank, dass du es bis hierhin geschafft hast!
Kommentiere gerne oder schicke mir Inhalte, die du passend findest.

Falls dir die Inhalte gefallen haben, kannst du mir gerne auf Twitter folgen.
Gerne kannst du mir ein Bier ausgeben oder mal auf meiner Wunschliste vorbeischauen – Danke!

Möchtest du den Newsletter wöchentlich per E-Mail erhalten?
Einfach hier abonnieren:

507 Abonnenten sind schon dabei - Vielen Dank!

Please enter a valid email address
Diese E-Mail ist bereits registriert.
The security code entered was incorrect
Vielen Dank für Deine Anmeldung - bitte den Opt-In bestätigen.


  • Neueste Beiträge

  • Neueste Kommentare


  • Share

    By About
    Abonnieren
    Benachrichtige mich bei
    guest

    0 Comments
    Inline Feedbacks
    View all comments

    allesnurgecloud.com

    © 2024 allesnurgecloud.com
    0
    Would love your thoughts, please comment.x