Claude, OpenClaw i koniec płaskiego modelu cenowego dla agentów
Subskrypcje Claude’a nie są już wykorzystywane do zasilania agentów
Cicha luka, która napędzała falę eksperymentów z agentami, została teraz zamknięta.
Subskrypcje Claude’a nie są już wykorzystywane do zasilania agentów
Cicha luka, która napędzała falę eksperymentów z agentami, została teraz zamknięta.
Własne wyszukiwanie AI z lokalnymi modelami językowymi (LLM)
Vane to jedna z bardziej praktycznych pozycji w przestrzeni „AI z wyszukiwaniem i cytowaniami": samodzielnie hostowana silnia odpowiedziowa, która łąży pobieranie danych z sieci w czasie rzeczywistym z lokalnymi lub chmurowymi modelami LLM, zachowując jednocześnie pełną kontrolę nad całą infrastrukturą.
Agencjonalne kodowanie, teraz z lokalnymi backendami modeli.
Claude Code to nie autouzupełnianie z lepszym marketingiem. To narzędzie kodowania agentowe: czyta Twoją bazę kodu, edytuje pliki, uruchamia polecenia i integruje się z Twoimi narzędziami developerskimi.
Instalacja i szybki start agenta Hermes dla programistów
Hermes Agent to samodzielnie hostowany, niezależny od modelu asystent AI, który działa na lokalnym komputerze lub tangu VPS, współpracuje przez interfejsy terminalowe i komunikacyjne oraz z czasem się ulepsza, przekształcając powtarzalne zadania w wielokrotnego użytku umiejętności.
Zainstaluj TGI, wdrażaj szybko, debuguj jeszcze szybciej.
Text Generation Inference (TGI) ma bardzo specyficzną energię. Nie jest najmłodszym dzieckiem na ulicy inferencji, ale jest tym, które już nauczyło się, jak produkcja się psuje –
Szybkość generowania tokenów llama.cpp na VRAM 16 GB (tabele).
Porównuję tutaj prędkość działania kilku modeli LLM uruchamianych na GPU z 16 GB pamięci VRAM, wybierając najlepszy do samodzielnego hostowania.
RTX 5090 w Australii jest rzadkością i zawyżona cenowo.
Australia ma na stanie karty RTX 5090. Ledwie. A jeśli którąś znajdziesz, zapłacisz cenę, która wydaje się oderwana od rzeczywistości.
Zdalny dostęp do Ollamy bez otwierania portów publicznych
Ollama czuje się najlepiej, gdy jest traktowane jak lokalny demon: CLI i Twoje aplikacje komunikują się z API HTTP na pętli lokalnej (loopback), a reszta sieci nigdy nie dowiaduje się o jego istnieniu.
Zapytane logi JSON powiązane ze śladami.
Dzienniki (logi) to interfejs debugowania, który możesz nadal używać, gdy system jest w ogniu. Problem polega na tym, że zwykłe dzienniki tekstowe szybko się starzeją: gdy tylko potrzebujesz filtrowania, agregacji i powiadamiania, zaczynasz parsować zdania.
Serwer Ollama z pierwszeństwem kompozycji, obsługą GPU i trwałością danych.
Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.
HTTPS z Ollama bez przerywania strumieniowych odpowiedzi.
Uruchomienie Ollama za pośrednictwem proxy odwrotnego to najprostszy sposób na uzyskanie HTTPS, opcjonalnej kontroli dostępu oraz przewidywalnego zachowania strumieniowego.
RAG embeddings – Python, Ollama, API OpenAI.
Jeśli pracujesz nad generacją wspieraną odzyskiwaniem (RAG), ta sekcja wyjaśnia wektory tekstowe (embeddings) prostym językiem — czym są, jak pasują do wyszukiwania i odzyskiwania informacji, oraz jak wywołać dwa popularne lokalne rozwiązania z Pythonu przy użyciu Ollama lub kompatybilnego z OpenAI interfejsu HTTP (jakiego używają serwery oparte na llama.cpp).
Wdrożenia oparte na Git, CDN, kredyty i kompromisy.
Netlify to jedno z najbardziej przyjaznych dla deweloperów rozwiązań do wdrażania stron Hugo i nowoczesnych aplikacji webowych z wykorzystaniem profesjonalnego workflow: podglądowe URL-e dla każdej pull requestu, atomowe wdrożenia, globalna sieć CDN oraz opcjonalne możliwości serverless i edge.
Strumieniowanie z zachowaniem stanu, punkty kontrolne, K8s, PyFlink, Go.
Apache Flink to framework do obliczeń z pamięcią stanu (stateful computations) nad nieograniczonymi i ograniczonymi strumieniami danych.
Grafy, Cypher, wektory i utwardzanie operacji.
Neo4j to narzędzie, do którego sięgamy, gdy relacje są danymi. Jeśli domena Twojego projektu wygląda jak tablica kreskowa z kółkami i strzałkami, wymuszanie jej na tabele jest bolesne.
Po wdrożeniu wyślij zaktualizowane URL do wyszukiwarek.
Strony statyczne i blogi zmieniają się przy każdym wdrożeniu. Silniki wyszukiwania obsługujące IndexNow mogą dowiedzieć się o tych zmianach bez czekania na kolejną ślepą indeksację.
Otrzymuj nowe wpisy o systemach, infrastrukturze i inżynierii AI.