In - Helion

ebook

Autor: Paul Iusztin, Maxime Labonne, Julien Chaumond (Foreword), Hamza Tahir (Foreword)
Tytuł oryginału: LLM Engineer's Handbook: Master the art of engineering large language models from concept to production
Tłumaczenie: Robert G
ISBN: 978-83-289-2532-8
stron: 440, Format: ebook
Data wydania: 2025-09-01
Księgarnia: Helion

Cena książki: 63,07 zł (poprzednio: 119,00 zł)
Oszczędzasz: 47% (-55,93 zł)

Pobierz fragment książki » Osoby, które kupiły tę książkę, wybierały także »

Tagi: In

Wraz ze wzrostem popularno

Osoby które kupowały "In", wybierały także:

In 69,00 zł, (36,57 zł -47%)
In 69,00 zł, (36,57 zł -47%)
DevOps dla zdesperowanych. Praktyczny poradnik przetrwania 67,00 zł, (35,51 zł -47%)
Certyfikowany in 69,00 zł, (36,57 zł -47%)
Uporz 48,98 zł, (26,45 zł -46%)

Spis treści

Inżynieria dużych modeli językowych. Podręcznik projektowania, trenowania i wdrażania LLM eBook -- spis treści

O autorach

O korektorze merytorycznym

Przedmowa

Wprowadzenie

Rozdział 1. Architektura i koncepcja projektu LLM Twin

Koncepcja kryjąca się za aplikacją LLM Twin
- Czym jest projekt LLM Twin?
- Dlaczego sensowne jest tworzenie projektu LLM Twin?
- Dlaczego w omawianym celu nie można użyć ChatGPT (lub podobnego chatbota)?
Planowanie produktu o minimalnej niezbędnej funkcjonalności dla projektu LLM Twin
- Czym jest produkt o minimalnej niezbędnej funkcjonalności?
- Zdefiniowanie produktu o minimalnej niezbędnej funkcjonalności w projekcie LLM Twin
Budowanie systemu uczenia maszynowego z wykorzystaniem potoków cech, trenowania i wnioskowania
- Aspekty, jakie należy uwzględnić podczas budowania systemów uczenia maszynowego
- Problem z poprzednimi rozwiązaniami
- Rozwiązanie - potoki uczenia maszynowego dla systemów uczenia maszynowego
- Zalety architektury FTI
Opracowanie architektury systemu dla projektu LLM Twin
- Szczegóły techniczne dotyczące infrastruktury projektu LLM Twin
- Jak opracować architekturę LLM Twin za pomocą projektu opartego na potoku FTI?
- Kilka uwag końcowych na temat projektu FTI i architektury LLM Twin
Podsumowanie
Źródła

Rozdział 2. Narzędzia i ich instalacja

Ekosystem Pythona i przygotowanie projektu
- Poetry - menedżer zależności i środowisk wirtualnych
- Poe the Poet - narzędzie do wykonywania zadań
Narzędzia MLOps i LLMOps
- Hugging Face - rejestr modelu
- ZenML - oprogramowanie koordynujące, artefakty i metadane
- Comet - oprogramowanie do śledzenia eksperymentu
- Opik - monitorowanie promptu
Bazy danych do przechowywania danych niestrukturyzowanych i wektorowych
- MongoDB - baza danych typu NoSQL
- Qdrant - wektorowa baza danych
Przygotowanie do użycia chmury AWS
- Utworzenie konta AWS i klucza dostępu oraz przygotowanie narzędzia powłoki do pracy z usługą AWS
- SageMaker - obliczenia związane z trenowaniem i wnioskowaniem
- Dlaczego SageMaker?
Podsumowanie
Źródła

Rozdział 3. Inżynieria danych

Opracowanie potoku pobierania danych do projektu LLM Twin
Implementacja potoku pobierania danych do projektu LLM Twin
- Potok ZenML i kroki
- Dyspozytor - jak zainicjalizować odpowiedni crawler?
- Crawlery
- Dokumenty hurtowni danych typu NoSQL
Umieszczanie nieprzetworzonych danych bezpośrednio w hurtowni danych
- Rozwiązywanie problemów
Podsumowanie
Źródła

Rozdział 4. Potok wykorzystujący technikę RAG

Wyjaśnienie techniki RAG
- Dlaczego warto używać techniki RAG?
- Zwykły framework systemu RAG
- Czym są osadzenia?
- Więcej informacji na temat wektorowych baz danych
Ogólne omówienie zaawansowanej techniki RAG
- Przed pobraniem danych
- Pobieranie danych
- Po pobraniu danych
Prezentacja architektury techniki RAG wykorzystanej w projekcie LLM Twin
- Problem, który chcemy rozwiązać
- Magazyn danych cech
- Skąd pochodzą nieprzetworzone dane?
- Opracowanie architektury potoku cech techniki RAG
Implementacja potoku techniki RAG w projekcie LLM Twin
- Klasa Settings
- Potok ZenML i kroki
- Encje dziedziny Pydantic
- Warstwa dyspozytora
- Procedury obsługi
Podsumowanie
Źródła

Rozdział 5. Nadzorowane dostrajanie modelu

Tworzenie wysokiej jakości zbioru danych instrukcji
- Ogólny framework rozwiązania
- Gromadzenie danych
- Filtrowanie oparte na regułach
- Eliminacja duplikatów
- Dekontaminacja danych
- Ocena jakości danych
- Eksploracja danych
- Generowanie danych
- Uzupełnienie danych
Tworzenie własnego zbioru danych instrukcji
Nadzorowane dostrajanie modelu i związanych z nim technik
- Kiedy należy dostrajać model?
- Formaty zbiorów danych instrukcji
- Szablony czatu
- Techniki Parameter-Efficient Fine-Tuning (PEFT)
- Trenowanie parametrów
Dostrajanie w praktyce
Podsumowanie
Źródła

Rozdział 6. Dostrajanie modelu z uwzględnieniem preferencji użytkowników

Poznanie zbiorów danych preferencji
- Dane preferencji
- Generowanie danych i ich ocena
Samodzielne tworzenie zbioru danych preferencji
Uwzględnienie preferencji
- Uczenie przez wzmocnienie na podstawie opinii użytkowników
- Bezpośrednia optymalizacja preferencji
Implementacja bezpośredniej optymalizacji preferencji
Podsumowanie
Źródła

Rozdział 7. Ocena dużych modeli językowych

Ocena modelu
- Porównanie oceny uczenia maszynowego i oceny dużego modelu językowego
- Ocena dużego modelu językowego ogólnego przeznaczenia
- Ocena dużego modelu językowego związanego z dziedziną
- Ocena dużego modelu językowego związanego z zadaniem
Ocena systemu RAG
- Ragas
- ARES
Ocena modelu TwinLlama-3.1-8B
- Generowanie odpowiedzi
- Ocena odpowiedzi
- Analiza wyników
Podsumowanie
Źródła

Rozdział 8. Optymalizacja wnioskowania

Strategie optymalizacji modelu
- Bufor KV
- Przetwarzanie ciągłymi partiami
- Dekodowanie spekulatywne
- Zoptymalizowane mechanizmy uwagi
Równoległość modelu
- Równoległość danych
- Równoległość potoku
- Równoległość tensora
- Łączenie różnych technik
Kwantyzacja modelu
- Wprowadzenie do kwantyzacji
- Kwantyzacja za pomocą GGUF i llama.cpp
- Kwantyzacja za pomocą GPTQ i EXL2
- Inne techniki kwantyzacji
Podsumowanie
Źródła

Rozdział 9. Potok wnioskowania wykorzystujący technikę RAG

Potok wnioskowania RAG w modelu Twin
Zaawansowane techniki RAG w modelu Twin
- Zaawansowane techniki optymalizacji etapu przed pobieraniem danych w systemie RAG - rozbudowa zapytania i samozapytanie
- Zaawansowane techniki optymalizacji etapu pobierania danych w systemie RAG - filtrowane wyszukiwanie wektorowe
- Zaawansowane techniki optymalizacji etapu po pobieraniu danych w systemie RAG - ponowne przygotowanie rankingu
Implementacja potoku wnioskowania RAG w modelu Twin
- Implementacja modułu pobierania danych
- Połączenie wszystkiego w całość w potoku wnioskowania w systemie RAG
Podsumowanie
Źródła

Rozdział 10. Wdrożenie potoku wnioskowania

Kryteria wyboru rodzaju wdrożenia
- Przepustowość i opóźnienie
- Dane
- Infrastruktura
Różne typy wdrożeń potoku wnioskowania
- Wnioskowanie online w czasie rzeczywistym
- Wnioskowanie asynchroniczne
- Przekształcanie partiami w trybie offline
Architektura monolityczna i architektura mikrousług w infrastrukturze udostępniania modelu
- Architektura monolityczna
- Architektura mikrousług
- Wybór między architekturą monolityczną i architekturą mikrousług
Strategia wdrażania potoku wnioskowania projektu LLM Twin
- Potok wnioskowania i potok trenowania
Wdrażanie usługi LLM Twin
- Implementowanie mikrousługi dużego modelu językowego za pomocą AWS SageMakera
- Budowanie mikrousługi biznesowej za pomocą FastAPI
Automatyczne skalowanie możliwości w celu obsługi nagłego wzrostu poziomu użycia usługi
- Rejestrowanie skalowanego celu
- Tworzenie polityki skalowania
- Wartości minimalna i maksymalna podczas skalowania
- Okres oczekiwania
Podsumowanie
Źródła

Rozdział 11. MLOps i LLMOps

Ścieżka prowadząca do LLMOps - korzenie w podejściach DevOps i MLOps
- DevOps
- MLOps
- LLMOps
Wdrożenie w chmurze potoków projektu LLM Twin
- Elementy infrastruktury
- Konfiguracja bazy danych MongoDB
- Konfiguracja bazy danych Qdrant
- Konfiguracja chmury ZenML
Dodanie LLMOps do projektu LLM Twin
- Przepływ pracy w potoku CI/CD projektu LLM Twin
- GitHub Actions
- Potok CI
- Potok CD
- Testowanie potoku CI/CD
- Potok CT
- Monitorowanie promptu
- Ostrzeganie
Podsumowanie
Źródła

Dodatek A. Reguły MLOps