Claude Certified Architect · Модуль 5 · Урок 5.5

Человеческое ревью и калибровка уверенности

Суть

Агрегированные метрики (97% в целом) маскируют провалы по сегментам (71% на рукописных чеках): валидируйте по типу документа/полю до автоматизации. Уверенность считайте на уровне поля, не документа: документ может быть на 98% уверен в vendor_name, но на 60% — в line_items.

Стратификация и продолжающаяся выборка

Стратифицированная случайная выборка высоко-уверенных выводов ловит новые паттерны ошибок до их масштабирования. Расширение в более рисковую область требует пере-калибровки порогов, а не их снижения.

Anti-patterns

ЛовушкаПочему не работаетВерный паттерн
Обосновывать снижение ревью агрегатной точностью (97%)Агрегат маскирует провалы сегментов (71% на рукописных чеках)Стратифицировать по типу/полю; автоматизировать лишь сегменты, прошедшие цель по отдельности
Маршрутизировать все документы по порогу уверенности документаУверенность документа игнорирует вариацию по полямУверенность на уровне поля; маршрутизировать неуверенные поля независимо
Прекратить выборку, установив 97%Новые форматы/распределения молча снижают точностьПоддерживать стратифицированную случайную выборку постоянно

Exam traps

ЛовушкаПочему не работаетВерный паттерн
Агрегатные числаСкрывают производительность по сегментамСтратифицировать по сегментам
Уверенность уровня документаМаскирует вариацию по полямУверенность уровня поля
Разовая калибровкаНе ловит новые паттерны ошибокПостоянная выборка

Практическое задание (T5)

  • Прогнать извлечение на смешанных документах (стандартные счета, сканы форм, рукописные чеки); посчитать агрегатную и потиповую точность.
  • Реализовать уверенность уровня поля; маршрутизировать поля ниже порога независимо от других полей того же документа.
  • Откалибровать пороги по 50 размеченным документам; найти оценку уверенности, где точность превышает 95%.
  • Стратифицированная случайная выборка: 5% высоко-уверенных извлечений — на случайное ревью для обнаружения новых паттернов.
  • Построить приоритетную очередь маршрутизации: неуверенные поля → плохие типы → противоречивые источники → высоко-уверенные стандартные форматы.

Проверка знаний

Агрегатная точность маскирует провалы

Конвейер извлечения достигает 97% общей точности. Команда предлагает направлять все высоко-уверенные выводы прямо в системы без человеческого ревью. Главный риск?

  • A 97% недостаточно; нужно 99,5%
  • B Агрегатная точность маскирует слабую производительность на конкретных типах/полях (например, 65% незаметно скрыты в 97%)
  • C Оценки уверенности не калиброваны без размеченного валидационного набора
  • D Система не обнаружит появление новых форматов документов

Провалы кластеризуются на новом сегменте клиентов

Агент поддержки: 85% верной обработки в целом. Но 15% сбоев кластеризуются вокруг нового сегмента клиентов, добавленного 6 недель назад. Руководство предлагает убрать человеческое ревью полностью. Ответ?

  • A Принять; 85% достаточно
  • B Сегмент-специфичная маршрутизация: держать ревью для нового сегмента до решения; автоматизировать хорошо работающие сегменты
  • C Принять с 5% еженедельным пост-аудитом
  • D Отклонить полностью до 99% по всем сегментам

Расширение в более рисковую область

Конвейер изначально для биллинга/доставки (высокая точность установлена). Теперь расширен на претензии о дефектах продукта (безопасность, регуляторные последствия). Руководство просит снизить человеческое ревью. Ответ?

  • A Снизить ревью в биллинге/доставке, чтобы компенсировать новую нагрузку
  • B Сохранить существующий порог точности для всех типов тикетов
  • C Отклонить снижение надзора; расширение в более рисковую область требует пере-калибровки, а не снижения
  • D Приостановить автоматизацию, пока конвейер не переобучен на дефектах