Volné kapacity pro nové projekty
DevOps / SRE / Cloudová infrastruktura
Infrastruktura, která zůstává nudná - aby váš tým mohl zrychlit.
Jsem Aleš, DevOps a SRE inženýr na volné noze. Stavím a provozuji cloudové platformy, na kterých stojí startupy a rostoucí týmy: automatizované, monitorované a v klidu i ve tři ráno. Vy dodáváte funkce; infrastruktura prostě funguje.
Nástroje, které provozuji v produkci
Služby
Co převezmu za vás
Šest disciplín, jeden výsledek: platforma, které vaši inženýři věří a vaše finance jí rozumí. Najměte si jednu, nebo všechny.
- 01 Cloud & platforma
Cloudová infrastruktura
Dobře navržený základ na AWS nebo GCP, popsaný jako kód, takže je opakovatelný, kontrolovatelný a obnovitelný.
- Moduly Terraform / OpenTofu
- Síť napříč prostředími
- Landing zones a struktura účtů
- 02 Dodávka
CI/CD a automatizace nasazení
Pipeline, které z merge udělají bezpečné nasazení do produkce, a rollback, který funguje, když ho potřebujete.
- GitHub Actions / GitLab CI
- GitOps s Argo CD / Flux
- Nasazení bez výpadku a canary
- 03 Orchestrace
Kubernetes a kontejnery
Clustery navržené k provozu, ne k hlídání: rozumné výchozí hodnoty, autoscaling a Helm charty, které tým přečte.
- Návrh a zabezpečení clusteru
- Autoscaling a ladění zdrojů
- Balení přes Helm / Kustomize
- 04 Spolehlivost
Monitoring a SRE
Co nevidíte, neopravíte. SLO, dashboardy a alerty, které ukazují na problém, ne na šum.
- Prometheus / Grafana / Loki
- SLO a error budgety
- Nastavení on-call a runbooky
- 05 FinOps
Náklady a výkon
Najdu výdaje, které nic nepřinášejí, a latenci, která vás stojí uživatele. Pak obojí snížím, podloženo čísly.
- Right-sizing a přehled výdajů
- Profilování p99 latence
- Strategie spot / committed-use
- 06 Zabezpečení
Bezpečnost a odolnost
Přístup podle nejnižších oprávnění, spravované secrety a zálohy, které jste opravdu obnovili. Klidný spánek následuje.
- IAM a správa secretů
- Zálohy a disaster recovery
- Příprava na SOC 2 / ISO
Výsledky
Spolehlivost, kterou lze vyjádřit číslem
Smysl dobré infrastruktury je, že se nic neděje. Takhle to vypadá v praxi napříč nedávnými zakázkami.
- api-gateway v pořádku kontrola
- postgres-primary v pořádku kontrola
- k8s-ingress v pořádku kontrola
- edge-cache v pořádku kontrola
- prometheus v pořádku kontrola
- 99,98 %
- Dostupnost udržená na spravovaných platformách
- < 120 ms
- p99 latence API po vyladění
- 45 min
- Medián doby obnovy při incidentech
- 40 %
- Obvyklá úspora cloudových nákladů v auditu
Údaje jsou orientační z nedávných zakázek a závisí na konkrétní technologii.
Jak pracuji
Tři způsoby, jak mě zapojit
Vyberte si formu spolupráce podle toho, kde jste. Každá začíná krátkým hovorem a jasným písemným zadáním, ještě před první fakturou.
Projekt
Pevný rozsahKonkrétní práce: migrace do cloudu, platforma na Kubernetes, přestavba CI/CD. Nacenění a rozsah předem, dodáno s dokumentací a předáním.
Když víte, co potřebujete postavit.
Retainer
DlouhodoběVáš SRE na částečný úvazek. Stanovený počet dní měsíčně na provoz, vylepšování a on-call vaší platformy, aby spolehlivost měla majitele bez nutnosti plného úvazku.
Když potřebujete stálou oporu.
Audit
1-2 týdnyRevize infrastruktury, nákladů a spolehlivosti za pevnou cenu. Dostanete písemnou zprávu, seřazené nálezy a plán, který zrealizujete se mnou i bez mě.
Když chcete jasno, než se zavážete.
- 01 Úvodní hovor
- 02 Písemné zadání
- 03 Stavba a iterace
- 04 Předání a dokumentace
O mně
Dvanáct let udržuji systémy online.
Celou kariéru jsem strávil na provozní straně softwaru: pager, migrace, noční incident ve dvě ráno. Pokaždé mě to naučilo totéž. Spolehlivé systémy nejsou ty s nejchytřejší architekturou. Jsou to ty, které jsou automatizované, monitorované a zdokumentované natolik, že je další člověk dokáže opravit.
Pracuji tak, jak bych chtěl, aby externista pracoval s mým týmem: vzdáleně, asynchronně a s odporem k překvapením. Dostanete jednoho inženýra, který problém vlastní od začátku do konce, věci si zapisuje a předá něco, co váš tým provozuje i beze mě.
Sídlím v České republice, pracuji napříč evropskými i americkými časovými pásmy. K dispozici v angličtině a češtině.
Certifikace
- AWS Certified Solutions Architect - Professional
- Certified Kubernetes Administrator (CKA)
- HashiCorp Terraform Associate
Vybrané zakázky
Pár výsledků
Anonymizováno z ohledu na důvěrnost klientů. Reference rád poskytnu na vyžádání.
- 01
Snížení účtu za AWS o 40 %
Right-sizing platformy SaaS ve fázi Series A a přesun stálých workloadů na committed-use, bez dopadu na výkon.
AWS / Terraform / Kubernetes
- 02
Přechod na Kubernetes bez výpadku
Migrace fintechu ze stárnoucích VM na zabezpečený cluster s GitOps dodávkou a kompletním audit logem.
GKE / Argo CD / Prometheus
- 03
Z týdenních výpadků na 99,99 %
Zavedení SLO, skutečných alertů a runbooků pro e-commerce tým, který každý týden hasil požáry.
GCP / Grafana / PagerDuty
Otázky
Dobré vědět
Pracujete vzdáleně?
Ano, standardně. Sídlím v České republice (SEČ) a pracuji asynchronně s týmy po Evropě i v USA. Návštěva na místě je možná při kickoffu, když to pomůže.
S jak velkými firmami spolupracujete?
Od startupů v rané fázi po týmy kolem 200 lidí. Společné mají to, že spolehlivost už je příliš důležitá na náhodu a zatím příliš malá na plný úvazek SRE.
Jak účtujete?
Projekty mají rozsah a cenu předem. Retainer je pevný počet dní měsíčně. Audit je za pevnou cenu. Číslo znáte vždy předem. Ozvěte se pro aktuální sazby a kapacitu.
Zapojíte se do našeho týmu?
Ano. Pracuji ve vašich nástrojích, repozitářích a standupech a zanechávám dokumentaci, aby práce přežila spolupráci.
Děláte on-call?
V rámci retaineru ano. Zároveň vám on-call správně nastavím: rotace, eskalace a runbooky, aby byl pager snesitelný.
V jakých jazycích pracujete?
V angličtině a češtině, písemně i na hovorech.
Kontakt
Pojďme se bavit o vaší infrastruktuře
Napište, co stavíte a kde to bolí. Pro začátek stačí pár vět; odpovím s dalšími kroky.
- Raději e-mailem?
- hello@alesnovak.dev