Claude Certified Architect · Модуль 5 · Урок 5.6
Сохранение происхождения данных и работа с неопределённостью при синтезе из многих источников
Суть
Структурированные сопоставления «утверждение–источник» (URL, дата публикации, релевантная цитата) должны проходить через синтез, а не суммироваться в прозу. Проза безвозвратно срывает атрибуцию (URL, статистику, даты).
Конфликты и время
Конфликтующую статистику аннотируйте обоими источниками с атрибуцией и методологическим контекстом — пусть читатель решит, не выбирайте произвольно. Временны́е различия требуют дат публикации: 35% (2020) против 67% (2023) — это эволюция, а не противоречие.
claimMapping := map[string]any{
"claim": "Внедрение ИИ среди Fortune 500 достигло 67%",
"source_url": "https://example.com/report",
"source_name": "McKinsey",
"publication_date": "2023-09",
"relevant_excerpt": "...67% of Fortune 500 companies...",
"methodology_notes": "опрос 500 CIO, самоотчёт",
"confidence": 0.8,
}Anti-patterns
| Ловушка | Почему не работает | Верный паттерн |
|---|---|---|
| Суммировать находки в прозу перед синтезом | Проза срывает URL, статистику, даты; атрибуция потеряна навсегда | Передавать структурированные сопоставления; синтез сливает данные с сохранённой атрибуцией |
| Выбрать более качественный источник, отбросив конфликтующий | Оба могут быть верны в разных контекстах (время, популяция, методология) | Аннотировать конфликт обоими источниками, датами, методологическим контекстом |
| Опускать даты публикации в выводах | Временна́я эволюция (35%→67%) выглядит как противоречие | Требовать даты публикации и сбора данных во всех выводах субагентов |
Exam traps
| Ловушка | Почему не работает | Верный паттерн |
|---|---|---|
| Прозаическая суммаризация | Безвозвратно срывает атрибуцию | Структурированные сопоставления |
| Выбор одного источника | Ошибочное допущение, что оба не верны | Аннотировать оба |
| Без дат | Временна́я эволюция кажется разногласием | Требовать даты |
Практическое задание (T6)
- Спроектировать схему субагента: claim, source_url, source_name, publication_date, relevant_excerpt, methodology_notes, confidence.
- Велеть синтезатору сохранять сопоставления при объединении; проверить, что цитаты доживают до финального вывода.
- Дать две конфликтующие статистики из надёжных источников; проверить, что синтез аннотирует обе с атрибуцией, а не выбирает.
- Дать находки с разными годами публикации (2020, 2022, 2024); проверить трактовку как эволюции, а не противоречия.
- Построить финальный отчёт с разделами: устоявшиеся находки, спорные (с аннотацией источников), пробелы покрытия.
Проверка знаний
Потеря атрибуции при синтезе
Синтез объединяет находки субагентов веб-поиска и анализа документов. Каждый возвращает прозаические сводки. В финальном отчёте статистика без источников, утверждения без атрибуции, нет прослеживаемости. Структурное решение?
Верный ответ: B
B верно. Корень архитектурный: прозаические сводки срывают атрибуцию на стадии субагента ещё до синтеза. Нужна верхнеуровневая правка — структурированные сопоставления, чтобы атрибуция не терялась. A велит цитировать уже отсутствующие источники. C встраивает цитаты в прозу (хрупко, ошибки разбора). D восстанавливает уже потерянное (дорого, ненадёжно).
Конфликт отчётов аналитиков (McKinsey 67% vs Gartner 45%)
McKinsey сообщает 67% внедрения ИИ среди Fortune 500; Gartner — 45%. Оба надёжны, тот же год. Как синтезу поступить?
Верный ответ: C
C верно. Обе цифры могут быть верны при разных методологиях, популяциях или определениях «внедрения»; аннотация с полным контекстом делает их полезными. A выбирает произвольно. B создаёт неотчётную цифру. D опускает потенциально валидную статистику.
Смешение региональных/канальных цифр
Отчёт гласит: «Рост выручки 23–31% CAGR подтверждён тремя источниками». Разбор: источник A (Северная Америка 23%), B (Азия-Тихоокеанский регион 31%), C (только цифровые каналы 27%). Синтез фактически неверен. Корень?
Верный ответ: C
C верно. Цифры точны в пределах своих источников (нет галлюцинаций, нет усреднения). Сбой — семантическое смешение: цифры с разной областью охвата приняты за взаимозаменяемые. Сохранение происхождения (метаданные охвата, атрибуция) сделало бы несовместимость видимой. A неверно (цифры дословны). B неверно (усреднения нет). D неверно (источники измеряют разное, все точны в своей области).