Человеческое ревью и калибровка уверенности

Суть

Агрегированные метрики (97% в целом) маскируют провалы по сегментам (71% на рукописных чеках): валидируйте по типу документа/полю до автоматизации. Уверенность считайте на уровне поля, не документа: документ может быть на 98% уверен в vendor_name, но на 60% — в line_items.

Стратификация и продолжающаяся выборка

Стратифицированная случайная выборка высоко-уверенных выводов ловит новые паттерны ошибок до их масштабирования. Расширение в более рисковую область требует пере-калибровки порогов, а не их снижения.

Anti-patterns

Ловушка	Почему не работает	Верный паттерн
Обосновывать снижение ревью агрегатной точностью (97%)	Агрегат маскирует провалы сегментов (71% на рукописных чеках)	Стратифицировать по типу/полю; автоматизировать лишь сегменты, прошедшие цель по отдельности
Маршрутизировать все документы по порогу уверенности документа	Уверенность документа игнорирует вариацию по полям	Уверенность на уровне поля; маршрутизировать неуверенные поля независимо
Прекратить выборку, установив 97%	Новые форматы/распределения молча снижают точность	Поддерживать стратифицированную случайную выборку постоянно

Exam traps

Ловушка	Почему не работает	Верный паттерн
Агрегатные числа	Скрывают производительность по сегментам	Стратифицировать по сегментам
Уверенность уровня документа	Маскирует вариацию по полям	Уверенность уровня поля
Разовая калибровка	Не ловит новые паттерны ошибок	Постоянная выборка

Практическое задание (T5)

Прогнать извлечение на смешанных документах (стандартные счета, сканы форм, рукописные чеки); посчитать агрегатную и потиповую точность.
Реализовать уверенность уровня поля; маршрутизировать поля ниже порога независимо от других полей того же документа.
Откалибровать пороги по 50 размеченным документам; найти оценку уверенности, где точность превышает 95%.
Стратифицированная случайная выборка: 5% высоко-уверенных извлечений — на случайное ревью для обнаружения новых паттернов.
Построить приоритетную очередь маршрутизации: неуверенные поля → плохие типы → противоречивые источники → высоко-уверенные стандартные форматы.

Проверка знаний

Агрегатная точность маскирует провалы

Конвейер извлечения достигает 97% общей точности. Команда предлагает направлять все высоко-уверенные выводы прямо в системы без человеческого ревью. Главный риск?

A 97% недостаточно; нужно 99,5%
B Агрегатная точность маскирует слабую производительность на конкретных типах/полях (например, 65% незаметно скрыты в 97%)
C Оценки уверенности не калиброваны без размеченного валидационного набора
D Система не обнаружит появление новых форматов документов

Провалы кластеризуются на новом сегменте клиентов

Агент поддержки: 85% верной обработки в целом. Но 15% сбоев кластеризуются вокруг нового сегмента клиентов, добавленного 6 недель назад. Руководство предлагает убрать человеческое ревью полностью. Ответ?

A Принять; 85% достаточно
B Сегмент-специфичная маршрутизация: держать ревью для нового сегмента до решения; автоматизировать хорошо работающие сегменты
C Принять с 5% еженедельным пост-аудитом
D Отклонить полностью до 99% по всем сегментам

Расширение в более рисковую область

Конвейер изначально для биллинга/доставки (высокая точность установлена). Теперь расширен на претензии о дефектах продукта (безопасность, регуляторные последствия). Руководство просит снизить человеческое ревью. Ответ?

A Снизить ревью в биллинге/доставке, чтобы компенсировать новую нагрузку
B Сохранить существующий порог точности для всех типов тикетов
C Отклонить снижение надзора; расширение в более рисковую область требует пере-калибровки, а не снижения
D Приостановить автоматизацию, пока конвейер не переобучен на дефектах