Глоссарий и карта понятий продакшн-курса

Как пользоваться

Справочный урок: сжатый словарь продакшн-терминов курса и карта их связей. Здесь нет новой теории — есть быстрый возврат к понятию, когда оно встретилось в работе. Рядом — глава, где термин раскрыт. Карта внизу показывает, что прод-агент — это надёжное ядро (harness), обвешанное слоями знаний, оценки, безопасности и эксплуатации.

Архитектура и контекст (главы 1–2)

Harness — каркас вокруг agent loop: бюджеты, стоп-условия, надёжность.
Durable execution — чекпойнты состояния + возобновление после краша.
Чекпойнт — сохранённое состояние агента для resume.
Loop detection — обнаружение зацикливания по сигнатуре шага.
Бюджеты / стоп-условия — лимиты шагов/токенов и набор условий остановки.
Context rot — деградация качества с ростом контекста.
Компакция (compaction) — суммаризация старых эпизодов контекста по триггеру.
Just-in-time retrieval — подтягивать данные по необходимости, а не «всё сразу».
KV-кэш / prompt caching — серверный кеш стабильного префикса байт-в-байт.

Знания и память (урок 2.0, главы 3–4)

Эмбеддинг — вектор смысла; близость = косинус (урок 2.0).
ANN — приближённый поиск ближайших; HNSW (граф) и IVF (кластеры) — семейства индексов.
Векторная БД — хранилище эмбеддингов (pgvector/Qdrant/Weaviate/Milvus/FAISS/Pinecone).
Гибридный поиск — BM25 + вектор, слияние через RRF (reciprocal rank fusion).
Re-ranking / cross-encoder — переранжирование кандидатов ради precision.
Чанкинг / contextual retrieval — нарезка документов + дописывание контекста перед индексацией.
HyDE — поиск по эмбеддингу гипотетического ответа.
Agentic RAG — поиск как инструмент в цикле (multi-hop).
GraphRAG — поиск по графу знаний для глобальных/связных вопросов.
Эпизодическая / семантическая / процедурная память — типы долгосрочной памяти.
Консолидация / decay — сворачивание эпизодов в факты / забывание по свежести.
Data-ops индекса — переиндексация, свежесть, инвалидация (глава 3).

Рассуждение и оркестрация (главы 5–6)

ReAct — чередование мысли, действия, наблюдения.
Plan-and-execute — сначала весь план, потом исполнение.
Reflection — генерация → критика → доработка.
Routing — классификатор направляет запрос на нужный путь/модель.
Orchestrator-workers — координатор декомпозирует и раздаёт подзадачи.
Blackboard / shared state — общая «доска» состояния; требует защиты от гонок.
A2A — открытый протокол межагентного взаимодействия (отличается от MCP; глава 6).

Качество, надёжность, безопасность (главы 9–11)

Eval-датасет — версионируемый набор кейсов с эталонами.
LLM-as-judge — оценка субъективных критериев моделью-судьёй.
Offline / online eval — оценка на датасете до релиза / на живом трафике.
Trajectory eval — оценка пути (шаги, инструменты, эффективность), а не только ответа (глава 9).
Wilson interval — доверительный интервал доли: сигнал vs шум (глава 9).
Data flywheel — прод-трейсы → разметка → датасет → переоценка → выкат.
Tracing / spans (OTel) — трейсинг шагов агента с токенами/латентностью.
Circuit breaker — размыкание при устойчивом сбое зависимости.
Lethal trifecta — приватные данные + недоверенный контент + внешний канал.
Prompt injection (indirect) — инструкция, спрятанная в данных, которые читает агент.
Least privilege — минимальные права инструментов и доступ по пользователю.
Tool poisoning / rug pull — атаки через описание/подмену MCP-инструментов (глава 11).
OWASP LLM Top 10 — отраслевой чек-лист рисков LLM-приложений.
PII redaction — маскирование персональных данных перед логом/спаном.

Производительность и эксплуатация (главы 12–14)

Model cascade — дешёвая модель сначала, эскалация на дорогую.
Batching (Message Batches API) — асинхронная офлайн-обработка дешевле.
Token budget — лимит токенов на запрос/сессию с деградацией.
Semantic cache — кеш ответов по близости запроса; скоуп по пользователю.
Cost attribution / unit-экономика — стоимость на решённую задачу по фиче/тенанту (глава 12).
Reasoning под прод — thinking-токены как output, влияние на TTFT/кэш (глава 12).
Backpressure / load shedding — отклонять при перегрузе, не копить очередь.
Rate limit / Retry-After — уважать лимиты провайдера и backoff.
Canary / A-B — частичный выкат и сравнение версий.
Distillation — обучение дешёвой модели на ответах дорогой (глава 14).

Карта продакшн-агента: надёжное ядро и слои вокруг