🜂 Как оценивается работа
(Испытание «Без алиби» · Первый сезон)
Испытание «Без алиби» — это не экзамен и не конкурс решений. Это практическая проверка способности удерживать субъектность, ответственность и архитектурное мышление в присутствии искусственного интеллекта.
Мы не проверяем:
- скорость освоения инструментов,
- знание конкретных LLM-моделей,
- «красоту» ответов ИИ сама по себе,
- умение «выжать» эффектный текст из генерации.
Мы смотрим на то,
как ты проектируешь систему с ИИ, где проходят границы решений, и кто в ней несёт ответственность.
Это испытание не про интеллект машины. Это испытание человека рядом с интеллектом.
Общие принципы оценки
- Оценивается система и результат, а не личность участника
- Оценивается архитектура решений, а не «умность» модели
- Искусственный интеллект не является субъектом оценки
- Вердикты принимают живые люди, не алгоритмы
- ИИ не выносит решений о прохождении испытания
Качество работы ИИ учитывается, но никогда не приписывается самому ИИ.
Если система отвечает корректно — это результат контекста, рамок, ограничений и решений человека.
Если система галлюцинирует — это архитектурная ошибка, а не «особенность модели».
Кто оценивает
Оценку проводят операторы и команда испытания — люди, имеющие практический опыт проектирования и внедрения систем с ИИ.
Важно:
-
оценка не автоматизирована;
-
ИИ не участвует в вынесении решений;
-
при сомнениях приоритет имеет:
- проверяемость результата,
- соответствие архитектуры заявленной задаче,
- ясность ответственности.
Универсальность критериев
Критерии оценки одинаковы для всех ролей.
Они применимы к:
- инженерным и архитектурным решениям,
- продуктовым и бизнес-сценариям,
- сценарным, коммуникационным и исследовательским системам.
Если ты не инженер:
- сущность — это продукт, сервис или процесс;
- состояния — это контексты и фазы работы;
- логика — это правила, ограничения и выборы;
- исполняемость — способность системы работать без постоянного ручного управления.
Мы не требуем кода от всех. Мы требуем осознанного удержания целого.
Обязательное условие сдачи работы
Для корректной оценки участник обязан предоставить:
-
Краткое описание задачи, которую решает система (что это за продукт / ассистент / процесс и для кого)
-
Описание архитектуры решения в свободной форме:
- роль ИИ,
- источники знаний и контекста,
- ограничения и guardrails,
- где и кем принимаются решения
-
Реализацию в Metabot Runtime
Без описания замысла и логики решений работа не может быть оценена.
Структура испытания
Испытание проходит в два раунда, каждый из которых проверяет разный уровень зрелости.
🜁 Раунд 1 — Архитектура и ответственность
(Формализованная оценка)
В первом раунде участник создаёт исполняемую темпоральную сущность с ИИ в Metabot Runtime.
Что мы проверяем в первом раунде
Мы не проверяем:
- «хитрые» промпты ради эффекта,
- максимальную креативность ответов,
- количество интеграций и функций.
Мы проверяем:
- способность встроить ИИ в систему, а не заменить им мышление;
- управление контекстом и рамками принятия решений;
- трассируемость поведения системы;
- удержание ответственности человеком.
Критерии оценки Раунда 1
🔹 Критерий 1. Архитектура принятия решений
(Интеллект ↔ Ответственность) — 0–5 баллов
Проверяется, как устроено принятие решений в системе и где зафиксирована ответственность человека.
Оценивается:
- кто именно принимает решения — человек, ИИ или смешанная модель;
- какие решения делегированы ИИ, а какие запрещены;
- как управляется контекст, в котором ИИ действует;
- зафиксированы ли границы допустимого поведения.
Шкала 0–5:
- 0 — ИИ решает всё; границы отсутствуют
- 1–2 — формально человек «главный», но реальные решения скрыто принимает ИИ
- 3–4 — границы обозначены; решения распределены осознанно
- 5 — архитектура явно фиксирует роли, контуры ответственности и пределы ИИ
🔹 Критерий 2. Управление контекстом и знаниями
(RAG · Knowledge · Context) — 0–5 баллов
Проверяется, за счёт чего система знает то, что она знает.
Оценивается:
- источники знаний и данных;
- корректность их использования;
- отсутствие «магического знания»;
- соответствие ответов реальному контексту задачи.
Шкала 0–5:
- 0 — ИИ отвечает «из ниоткуда»
- 1–2 — контекст есть формально, но не управляется
- 3–4 — осознанная работа с базами знаний и контекстом
- 5 — контекст строго управляет ответами; система не фантазирует
🔹 Критерий 3. Ограничения и контроль галлюцинаций
(Guardrails · Validation) — 0–5 баллов
Проверяется, как система предотвращает ошибки и галлюцинации.
Оценивается:
- наличие ограничений и правил ответа;
- запреты на выход за рамки знаний;
- механизмы проверки и отказа от ответа;
- устойчивость поведения.
Шкала 0–5:
- 0 — галлюцинации неконтролируемы
- 1–2 — проблемы признаются, но не решаются системно
- 3–4 — есть рабочие механизмы контроля
- 5 — архитектура изначально минимизирует риск ошибок
🔹 Критерий 4. Позиция человека и десакрализация ИИ
(Субъектность) — 0–5 баллов
Проверяется, как участник мыслит об ИИ.
Оценивается:
- отсутствие сакрализации и «магического мышления»;
- понимание ИИ как технического инструмента;
- принятие личной ответственности за результат.
Шкала 0–5:
- 0 — ИИ представлен как «сам решает»
- 1–2 — ответственность размыта
- 3–4 — осознанная позиция оператора
- 5 — ясная субъектная позиция и зрелое отношение к силе ИИ
🔹 Критерий 5. Архитектурная ясность и объяснимость
(Meta-уровень) — 0–5 баллов
Проверяется, понимаешь ли ты, что именно построил.
Оценивается:
- ясность описания системы;
- совпадение замысла и реализации;
- способность объяснить поведение системы.
Шкала 0–5:
- 0 — «оно как-то работает»
- 1–2 — объяснение не совпадает с реальностью
- 3–4 — ясная и проверяемая логика
- 5 — мышление категориями архитектуры и траекторий
🔹 Критерий 6. Интегральная зрелость
(Общее впечатление) — 0–2 балла
Суммарная оценка целостности и готовности идти дальше.
- 0 — несобрано, непрозрачно
- 1 — рабоче, но с явными слабостями
- 2 — цельно, аккуратно, ответственно
Итог Раунда 1
Максимум: 27 баллов
Рекомендованные пороги:
- 0–10 — не пройдено
- 11–16 — частичное прохождение
- 17–22 — пройдено
- 23–27 — Excellent / С отличием
🜂 Раунд 2 — Индивидуальная калибровка
(Ремесло · ответственность · глубина)
Во втором раунде задания индивидуальны и формируются на основе первого раунда.
Формат оценки:
- 0 — Не пройдено
- 1 — Пройдено
- 2 — Пройдено с отличием
Детальные внутренние критерии не публикуются. Решение принимает команда испытания.
Заключение
Испытание «Без алиби» — это не фильтр «хороших» и «плохих». Это проверка способности держать ответственность рядом с силой.
Здесь нельзя спрятаться за формулой «так решила система».
Если ты проходишь — ты берёшь на себя право и обязанность быть оператором.
Если нет — ты уходишь без поражения, но с пониманием границы.

