Claude Certified Architect · Модуль 5 · Урок 5.5
Человеческое ревью и калибровка уверенности
Суть
Агрегированные метрики (97% в целом) маскируют провалы по сегментам (71% на рукописных чеках): валидируйте по типу документа/полю до автоматизации. Уверенность считайте на уровне поля, не документа: документ может быть на 98% уверен в vendor_name, но на 60% — в line_items.
Стратификация и продолжающаяся выборка
Стратифицированная случайная выборка высоко-уверенных выводов ловит новые паттерны ошибок до их масштабирования. Расширение в более рисковую область требует пере-калибровки порогов, а не их снижения.
Anti-patterns
| Ловушка | Почему не работает | Верный паттерн |
|---|---|---|
| Обосновывать снижение ревью агрегатной точностью (97%) | Агрегат маскирует провалы сегментов (71% на рукописных чеках) | Стратифицировать по типу/полю; автоматизировать лишь сегменты, прошедшие цель по отдельности |
| Маршрутизировать все документы по порогу уверенности документа | Уверенность документа игнорирует вариацию по полям | Уверенность на уровне поля; маршрутизировать неуверенные поля независимо |
| Прекратить выборку, установив 97% | Новые форматы/распределения молча снижают точность | Поддерживать стратифицированную случайную выборку постоянно |
Exam traps
| Ловушка | Почему не работает | Верный паттерн |
|---|---|---|
| Агрегатные числа | Скрывают производительность по сегментам | Стратифицировать по сегментам |
| Уверенность уровня документа | Маскирует вариацию по полям | Уверенность уровня поля |
| Разовая калибровка | Не ловит новые паттерны ошибок | Постоянная выборка |
Практическое задание (T5)
- Прогнать извлечение на смешанных документах (стандартные счета, сканы форм, рукописные чеки); посчитать агрегатную и потиповую точность.
- Реализовать уверенность уровня поля; маршрутизировать поля ниже порога независимо от других полей того же документа.
- Откалибровать пороги по 50 размеченным документам; найти оценку уверенности, где точность превышает 95%.
- Стратифицированная случайная выборка: 5% высоко-уверенных извлечений — на случайное ревью для обнаружения новых паттернов.
- Построить приоритетную очередь маршрутизации: неуверенные поля → плохие типы → противоречивые источники → высоко-уверенные стандартные форматы.
Проверка знаний
Агрегатная точность маскирует провалы
Конвейер извлечения достигает 97% общей точности. Команда предлагает направлять все высоко-уверенные выводы прямо в системы без человеческого ревью. Главный риск?
Верный ответ: B
B верно. Агрегатные метрики маскируют слабую производительность сегментов — главный риск предложенного подхода. C — валидная вторичная забота. D (решается постоянной выборкой) третична. A выдумывает произвольный порог.
Провалы кластеризуются на новом сегменте клиентов
Агент поддержки: 85% верной обработки в целом. Но 15% сбоев кластеризуются вокруг нового сегмента клиентов, добавленного 6 недель назад. Руководство предлагает убрать человеческое ревью полностью. Ответ?
Верный ответ: B
B верно. Сбои кластеризуются в конкретном сегменте — равномерное снятие ревью убирает надзор ровно там, где он нужен. Сегмент-специфичная маршрутизация сохраняет экономию на хороших сегментах и ревью на проблемном. A игнорирует кластеризацию. C недостаточный надзор при 15% сбоев. D игнорирует, что хорошие сегменты можно безопасно автоматизировать.
Расширение в более рисковую область
Конвейер изначально для биллинга/доставки (высокая точность установлена). Теперь расширен на претензии о дефектах продукта (безопасность, регуляторные последствия). Руководство просит снизить человеческое ревью. Ответ?
Верный ответ: C
C верно. Более рисковая область (безопасность, регуляторика) требует усиленного или пере-калиброванного надзора, а не сниженного. Исходные пороги калибровались под менее рисковые решения — нельзя переносить без переоценки. A снижает надзор в проверенной области. B предполагает перенос порога без пере-калибровки. D избыточно разрушительно — существующая область всё ещё работает хорошо.