In - Helion

Tytuł oryginału: LLM Engineer's Handbook: Master the art of engineering large language models from concept to production
Tłumaczenie: Robert G
ISBN: 978-83-289-2532-8
stron: 440, Format: ebook
Data wydania: 2025-09-01
Księgarnia: Helion
Cena książki: 59,50 zł (poprzednio: 119,00 zł)
Oszczędzasz: 50% (-59,50 zł)
Osoby które kupowały "In", wybierały także:
- In 69,00 zł, (34,50 zł -50%)
- In 69,00 zł, (34,50 zł -50%)
- Uporz 49,90 zł, (24,95 zł -50%)
- DevOps dla zdesperowanych. Praktyczny poradnik przetrwania 67,00 zł, (33,50 zł -50%)
- Certyfikowany in 69,00 zł, (34,50 zł -50%)
Spis treści
Inżynieria dużych modeli językowych. Podręcznik projektowania, trenowania i wdrażania LLM eBook -- spis treści
O autorach
O korektorze merytorycznym
Przedmowa
Wprowadzenie
Rozdział 1. Architektura i koncepcja projektu LLM Twin
- Koncepcja kryjąca się za aplikacją LLM Twin
- Czym jest projekt LLM Twin?
- Dlaczego sensowne jest tworzenie projektu LLM Twin?
- Dlaczego w omawianym celu nie można użyć ChatGPT (lub podobnego chatbota)?
- Planowanie produktu o minimalnej niezbędnej funkcjonalności dla projektu LLM Twin
- Czym jest produkt o minimalnej niezbędnej funkcjonalności?
- Zdefiniowanie produktu o minimalnej niezbędnej funkcjonalności w projekcie LLM Twin
- Budowanie systemu uczenia maszynowego z wykorzystaniem potoków cech, trenowania i wnioskowania
- Aspekty, jakie należy uwzględnić podczas budowania systemów uczenia maszynowego
- Problem z poprzednimi rozwiązaniami
- Rozwiązanie - potoki uczenia maszynowego dla systemów uczenia maszynowego
- Zalety architektury FTI
- Opracowanie architektury systemu dla projektu LLM Twin
- Szczegóły techniczne dotyczące infrastruktury projektu LLM Twin
- Jak opracować architekturę LLM Twin za pomocą projektu opartego na potoku FTI?
- Kilka uwag końcowych na temat projektu FTI i architektury LLM Twin
- Podsumowanie
- Źródła
Rozdział 2. Narzędzia i ich instalacja
- Ekosystem Pythona i przygotowanie projektu
- Poetry - menedżer zależności i środowisk wirtualnych
- Poe the Poet - narzędzie do wykonywania zadań
- Narzędzia MLOps i LLMOps
- Hugging Face - rejestr modelu
- ZenML - oprogramowanie koordynujące, artefakty i metadane
- Comet - oprogramowanie do śledzenia eksperymentu
- Opik - monitorowanie promptu
- Bazy danych do przechowywania danych niestrukturyzowanych i wektorowych
- MongoDB - baza danych typu NoSQL
- Qdrant - wektorowa baza danych
- Przygotowanie do użycia chmury AWS
- Utworzenie konta AWS i klucza dostępu oraz przygotowanie narzędzia powłoki do pracy z usługą AWS
- SageMaker - obliczenia związane z trenowaniem i wnioskowaniem
- Dlaczego SageMaker?
- Podsumowanie
- Źródła
Rozdział 3. Inżynieria danych
- Opracowanie potoku pobierania danych do projektu LLM Twin
- Implementacja potoku pobierania danych do projektu LLM Twin
- Potok ZenML i kroki
- Dyspozytor - jak zainicjalizować odpowiedni crawler?
- Crawlery
- Dokumenty hurtowni danych typu NoSQL
- Umieszczanie nieprzetworzonych danych bezpośrednio w hurtowni danych
- Rozwiązywanie problemów
- Podsumowanie
- Źródła
Rozdział 4. Potok wykorzystujący technikę RAG
- Wyjaśnienie techniki RAG
- Dlaczego warto używać techniki RAG?
- Zwykły framework systemu RAG
- Czym są osadzenia?
- Więcej informacji na temat wektorowych baz danych
- Ogólne omówienie zaawansowanej techniki RAG
- Przed pobraniem danych
- Pobieranie danych
- Po pobraniu danych
- Prezentacja architektury techniki RAG wykorzystanej w projekcie LLM Twin
- Problem, który chcemy rozwiązać
- Magazyn danych cech
- Skąd pochodzą nieprzetworzone dane?
- Opracowanie architektury potoku cech techniki RAG
- Implementacja potoku techniki RAG w projekcie LLM Twin
- Klasa Settings
- Potok ZenML i kroki
- Encje dziedziny Pydantic
- Warstwa dyspozytora
- Procedury obsługi
- Podsumowanie
- Źródła
Rozdział 5. Nadzorowane dostrajanie modelu
- Tworzenie wysokiej jakości zbioru danych instrukcji
- Ogólny framework rozwiązania
- Gromadzenie danych
- Filtrowanie oparte na regułach
- Eliminacja duplikatów
- Dekontaminacja danych
- Ocena jakości danych
- Eksploracja danych
- Generowanie danych
- Uzupełnienie danych
- Tworzenie własnego zbioru danych instrukcji
- Nadzorowane dostrajanie modelu i związanych z nim technik
- Kiedy należy dostrajać model?
- Formaty zbiorów danych instrukcji
- Szablony czatu
- Techniki Parameter-Efficient Fine-Tuning (PEFT)
- Trenowanie parametrów
- Dostrajanie w praktyce
- Podsumowanie
- Źródła
Rozdział 6. Dostrajanie modelu z uwzględnieniem preferencji użytkowników
- Poznanie zbiorów danych preferencji
- Dane preferencji
- Generowanie danych i ich ocena
- Samodzielne tworzenie zbioru danych preferencji
- Uwzględnienie preferencji
- Uczenie przez wzmocnienie na podstawie opinii użytkowników
- Bezpośrednia optymalizacja preferencji
- Implementacja bezpośredniej optymalizacji preferencji
- Podsumowanie
- Źródła
Rozdział 7. Ocena dużych modeli językowych
- Ocena modelu
- Porównanie oceny uczenia maszynowego i oceny dużego modelu językowego
- Ocena dużego modelu językowego ogólnego przeznaczenia
- Ocena dużego modelu językowego związanego z dziedziną
- Ocena dużego modelu językowego związanego z zadaniem
- Ocena systemu RAG
- Ragas
- ARES
- Ocena modelu TwinLlama-3.1-8B
- Generowanie odpowiedzi
- Ocena odpowiedzi
- Analiza wyników
- Podsumowanie
- Źródła
Rozdział 8. Optymalizacja wnioskowania
- Strategie optymalizacji modelu
- Bufor KV
- Przetwarzanie ciągłymi partiami
- Dekodowanie spekulatywne
- Zoptymalizowane mechanizmy uwagi
- Równoległość modelu
- Równoległość danych
- Równoległość potoku
- Równoległość tensora
- Łączenie różnych technik
- Kwantyzacja modelu
- Wprowadzenie do kwantyzacji
- Kwantyzacja za pomocą GGUF i llama.cpp
- Kwantyzacja za pomocą GPTQ i EXL2
- Inne techniki kwantyzacji
- Podsumowanie
- Źródła
Rozdział 9. Potok wnioskowania wykorzystujący technikę RAG
- Potok wnioskowania RAG w modelu Twin
- Zaawansowane techniki RAG w modelu Twin
- Zaawansowane techniki optymalizacji etapu przed pobieraniem danych w systemie RAG - rozbudowa zapytania i samozapytanie
- Zaawansowane techniki optymalizacji etapu pobierania danych w systemie RAG - filtrowane wyszukiwanie wektorowe
- Zaawansowane techniki optymalizacji etapu po pobieraniu danych w systemie RAG - ponowne przygotowanie rankingu
- Implementacja potoku wnioskowania RAG w modelu Twin
- Implementacja modułu pobierania danych
- Połączenie wszystkiego w całość w potoku wnioskowania w systemie RAG
- Podsumowanie
- Źródła
Rozdział 10. Wdrożenie potoku wnioskowania
- Kryteria wyboru rodzaju wdrożenia
- Przepustowość i opóźnienie
- Dane
- Infrastruktura
- Różne typy wdrożeń potoku wnioskowania
- Wnioskowanie online w czasie rzeczywistym
- Wnioskowanie asynchroniczne
- Przekształcanie partiami w trybie offline
- Architektura monolityczna i architektura mikrousług w infrastrukturze udostępniania modelu
- Architektura monolityczna
- Architektura mikrousług
- Wybór między architekturą monolityczną i architekturą mikrousług
- Strategia wdrażania potoku wnioskowania projektu LLM Twin
- Potok wnioskowania i potok trenowania
- Wdrażanie usługi LLM Twin
- Implementowanie mikrousługi dużego modelu językowego za pomocą AWS SageMakera
- Budowanie mikrousługi biznesowej za pomocą FastAPI
- Automatyczne skalowanie możliwości w celu obsługi nagłego wzrostu poziomu użycia usługi
- Rejestrowanie skalowanego celu
- Tworzenie polityki skalowania
- Wartości minimalna i maksymalna podczas skalowania
- Okres oczekiwania
- Podsumowanie
- Źródła
Rozdział 11. MLOps i LLMOps
- Ścieżka prowadząca do LLMOps - korzenie w podejściach DevOps i MLOps
- DevOps
- MLOps
- LLMOps
- Wdrożenie w chmurze potoków projektu LLM Twin
- Elementy infrastruktury
- Konfiguracja bazy danych MongoDB
- Konfiguracja bazy danych Qdrant
- Konfiguracja chmury ZenML
- Dodanie LLMOps do projektu LLM Twin
- Przepływ pracy w potoku CI/CD projektu LLM Twin
- GitHub Actions
- Potok CI
- Potok CD
- Testowanie potoku CI/CD
- Potok CT
- Monitorowanie promptu
- Ostrzeganie
- Podsumowanie
- Źródła
Dodatek A. Reguły MLOps