Продакшн-разработка ИИ-агентов · Модуль 7 · Урок 7.2
Глоссарий и карта понятий продакшн-курса
Как пользоваться
Справочный урок: сжатый словарь продакшн-терминов курса и карта их связей. Здесь нет новой теории — есть быстрый возврат к понятию, когда оно встретилось в работе. Рядом — глава, где термин раскрыт. Карта внизу показывает, что прод-агент — это надёжное ядро (harness), обвешанное слоями знаний, оценки, безопасности и эксплуатации.
Архитектура и контекст (главы 1–2)
- Harness — каркас вокруг agent loop: бюджеты, стоп-условия, надёжность.
- Durable execution — чекпойнты состояния + возобновление после краша.
- Чекпойнт — сохранённое состояние агента для resume.
- Loop detection — обнаружение зацикливания по сигнатуре шага.
- Бюджеты / стоп-условия — лимиты шагов/токенов и набор условий остановки.
- Context rot — деградация качества с ростом контекста.
- Компакция (compaction) — суммаризация старых эпизодов контекста по триггеру.
- Just-in-time retrieval — подтягивать данные по необходимости, а не «всё сразу».
- KV-кэш / prompt caching — серверный кеш стабильного префикса байт-в-байт.
Знания и память (урок 2.0, главы 3–4)
- Эмбеддинг — вектор смысла; близость = косинус (урок 2.0).
- ANN — приближённый поиск ближайших; HNSW (граф) и IVF (кластеры) — семейства индексов.
- Векторная БД — хранилище эмбеддингов (pgvector/Qdrant/Weaviate/Milvus/FAISS/Pinecone).
- Гибридный поиск — BM25 + вектор, слияние через RRF (reciprocal rank fusion).
- Re-ranking / cross-encoder — переранжирование кандидатов ради precision.
- Чанкинг / contextual retrieval — нарезка документов + дописывание контекста перед индексацией.
- HyDE — поиск по эмбеддингу гипотетического ответа.
- Agentic RAG — поиск как инструмент в цикле (multi-hop).
- GraphRAG — поиск по графу знаний для глобальных/связных вопросов.
- Эпизодическая / семантическая / процедурная память — типы долгосрочной памяти.
- Консолидация / decay — сворачивание эпизодов в факты / забывание по свежести.
- Data-ops индекса — переиндексация, свежесть, инвалидация (глава 3).
Рассуждение и оркестрация (главы 5–6)
- ReAct — чередование мысли, действия, наблюдения.
- Plan-and-execute — сначала весь план, потом исполнение.
- Reflection — генерация → критика → доработка.
- Routing — классификатор направляет запрос на нужный путь/модель.
- Orchestrator-workers — координатор декомпозирует и раздаёт подзадачи.
- Blackboard / shared state — общая «доска» состояния; требует защиты от гонок.
- A2A — открытый протокол межагентного взаимодействия (отличается от MCP; глава 6).
Качество, надёжность, безопасность (главы 9–11)
- Eval-датасет — версионируемый набор кейсов с эталонами.
- LLM-as-judge — оценка субъективных критериев моделью-судьёй.
- Offline / online eval — оценка на датасете до релиза / на живом трафике.
- Trajectory eval — оценка пути (шаги, инструменты, эффективность), а не только ответа (глава 9).
- Wilson interval — доверительный интервал доли: сигнал vs шум (глава 9).
- Data flywheel — прод-трейсы → разметка → датасет → переоценка → выкат.
- Tracing / spans (OTel) — трейсинг шагов агента с токенами/латентностью.
- Circuit breaker — размыкание при устойчивом сбое зависимости.
- Lethal trifecta — приватные данные + недоверенный контент + внешний канал.
- Prompt injection (indirect) — инструкция, спрятанная в данных, которые читает агент.
- Least privilege — минимальные права инструментов и доступ по пользователю.
- Tool poisoning / rug pull — атаки через описание/подмену MCP-инструментов (глава 11).
- OWASP LLM Top 10 — отраслевой чек-лист рисков LLM-приложений.
- PII redaction — маскирование персональных данных перед логом/спаном.
Производительность и эксплуатация (главы 12–14)
- Model cascade — дешёвая модель сначала, эскалация на дорогую.
- Batching (Message Batches API) — асинхронная офлайн-обработка дешевле.
- Token budget — лимит токенов на запрос/сессию с деградацией.
- Semantic cache — кеш ответов по близости запроса; скоуп по пользователю.
- Cost attribution / unit-экономика — стоимость на решённую задачу по фиче/тенанту (глава 12).
- Reasoning под прод — thinking-токены как output, влияние на TTFT/кэш (глава 12).
- Backpressure / load shedding — отклонять при перегрузе, не копить очередь.
- Rate limit / Retry-After — уважать лимиты провайдера и backoff.
- Canary / A-B — частичный выкат и сравнение версий.
- Distillation — обучение дешёвой модели на ответах дорогой (глава 14).
flowchart TB H["Harness: durable loop, бюджеты, стоп-условия (гл.1)"] H --> CTX["Context engineering (гл.2)"] H --> KN["Знания и память: эмбеддинги, RAG, память (2.0, гл.3-4)"] H --> RE["Рассуждение и оркестрация (гл.5-6)"] H --> TL["Инструменты и MCP (гл.7-8)"] H --> Q["Оценка и observability (гл.9)"] H --> REL["Надёжность и guardrails (гл.10)"] H --> SEC["Безопасность (гл.11)"] H --> OPS["Стоимость, деплой, эксплуатация (гл.12-14)"] Q -.питает.-> OPS SEC -.ограничивает.-> TL