Продакшн-разработка ИИ-агентов · Модуль 7 · Урок 7.2

Глоссарий и карта понятий продакшн-курса

Как пользоваться

Справочный урок: сжатый словарь продакшн-терминов курса и карта их связей. Здесь нет новой теории — есть быстрый возврат к понятию, когда оно встретилось в работе. Рядом — глава, где термин раскрыт. Карта внизу показывает, что прод-агент — это надёжное ядро (harness), обвешанное слоями знаний, оценки, безопасности и эксплуатации.

Архитектура и контекст (главы 1–2)

  • Harness — каркас вокруг agent loop: бюджеты, стоп-условия, надёжность.
  • Durable execution — чекпойнты состояния + возобновление после краша.
  • Чекпойнт — сохранённое состояние агента для resume.
  • Loop detection — обнаружение зацикливания по сигнатуре шага.
  • Бюджеты / стоп-условия — лимиты шагов/токенов и набор условий остановки.
  • Context rot — деградация качества с ростом контекста.
  • Компакция (compaction) — суммаризация старых эпизодов контекста по триггеру.
  • Just-in-time retrieval — подтягивать данные по необходимости, а не «всё сразу».
  • KV-кэш / prompt caching — серверный кеш стабильного префикса байт-в-байт.

Знания и память (урок 2.0, главы 3–4)

  • Эмбеддинг — вектор смысла; близость = косинус (урок 2.0).
  • ANN — приближённый поиск ближайших; HNSW (граф) и IVF (кластеры) — семейства индексов.
  • Векторная БД — хранилище эмбеддингов (pgvector/Qdrant/Weaviate/Milvus/FAISS/Pinecone).
  • Гибридный поиск — BM25 + вектор, слияние через RRF (reciprocal rank fusion).
  • Re-ranking / cross-encoder — переранжирование кандидатов ради precision.
  • Чанкинг / contextual retrieval — нарезка документов + дописывание контекста перед индексацией.
  • HyDE — поиск по эмбеддингу гипотетического ответа.
  • Agentic RAG — поиск как инструмент в цикле (multi-hop).
  • GraphRAG — поиск по графу знаний для глобальных/связных вопросов.
  • Эпизодическая / семантическая / процедурная память — типы долгосрочной памяти.
  • Консолидация / decay — сворачивание эпизодов в факты / забывание по свежести.
  • Data-ops индекса — переиндексация, свежесть, инвалидация (глава 3).

Рассуждение и оркестрация (главы 5–6)

  • ReAct — чередование мысли, действия, наблюдения.
  • Plan-and-execute — сначала весь план, потом исполнение.
  • Reflection — генерация → критика → доработка.
  • Routing — классификатор направляет запрос на нужный путь/модель.
  • Orchestrator-workers — координатор декомпозирует и раздаёт подзадачи.
  • Blackboard / shared state — общая «доска» состояния; требует защиты от гонок.
  • A2A — открытый протокол межагентного взаимодействия (отличается от MCP; глава 6).

Качество, надёжность, безопасность (главы 9–11)

  • Eval-датасет — версионируемый набор кейсов с эталонами.
  • LLM-as-judge — оценка субъективных критериев моделью-судьёй.
  • Offline / online eval — оценка на датасете до релиза / на живом трафике.
  • Trajectory eval — оценка пути (шаги, инструменты, эффективность), а не только ответа (глава 9).
  • Wilson interval — доверительный интервал доли: сигнал vs шум (глава 9).
  • Data flywheel — прод-трейсы → разметка → датасет → переоценка → выкат.
  • Tracing / spans (OTel) — трейсинг шагов агента с токенами/латентностью.
  • Circuit breaker — размыкание при устойчивом сбое зависимости.
  • Lethal trifecta — приватные данные + недоверенный контент + внешний канал.
  • Prompt injection (indirect) — инструкция, спрятанная в данных, которые читает агент.
  • Least privilege — минимальные права инструментов и доступ по пользователю.
  • Tool poisoning / rug pull — атаки через описание/подмену MCP-инструментов (глава 11).
  • OWASP LLM Top 10 — отраслевой чек-лист рисков LLM-приложений.
  • PII redaction — маскирование персональных данных перед логом/спаном.

Производительность и эксплуатация (главы 12–14)

  • Model cascade — дешёвая модель сначала, эскалация на дорогую.
  • Batching (Message Batches API) — асинхронная офлайн-обработка дешевле.
  • Token budget — лимит токенов на запрос/сессию с деградацией.
  • Semantic cache — кеш ответов по близости запроса; скоуп по пользователю.
  • Cost attribution / unit-экономика — стоимость на решённую задачу по фиче/тенанту (глава 12).
  • Reasoning под прод — thinking-токены как output, влияние на TTFT/кэш (глава 12).
  • Backpressure / load shedding — отклонять при перегрузе, не копить очередь.
  • Rate limit / Retry-After — уважать лимиты провайдера и backoff.
  • Canary / A-B — частичный выкат и сравнение версий.
  • Distillation — обучение дешёвой модели на ответах дорогой (глава 14).
Карта продакшн-агента: надёжное ядро и слои вокруг
flowchart TB
  H["Harness: durable loop, бюджеты, стоп-условия (гл.1)"]
  H --> CTX["Context engineering (гл.2)"]
  H --> KN["Знания и память: эмбеддинги, RAG, память (2.0, гл.3-4)"]
  H --> RE["Рассуждение и оркестрация (гл.5-6)"]
  H --> TL["Инструменты и MCP (гл.7-8)"]
  H --> Q["Оценка и observability (гл.9)"]
  H --> REL["Надёжность и guardrails (гл.10)"]
  H --> SEC["Безопасность (гл.11)"]
  H --> OPS["Стоимость, деплой, эксплуатация (гл.12-14)"]
  Q -.питает.-> OPS
  SEC -.ограничивает.-> TL