🜂 Как оценивается работа

(Испытание «Без алиби» · Первый сезон)

Испытание «Без алиби» — это не экзамен и не конкурс решений. Это практическая проверка способности удерживать субъектность, ответственность и архитектурное мышление в присутствии искусственного интеллекта.

Мы не проверяем:

скорость освоения инструментов,
знание конкретных LLM-моделей,
«красоту» ответов ИИ сама по себе,
умение «выжать» эффектный текст из генерации.

Мы смотрим на то,

как ты проектируешь систему с ИИ, где проходят границы решений, и кто в ней несёт ответственность.

Это испытание не про интеллект машины. Это испытание человека рядом с интеллектом.

Общие принципы оценки

Оценивается система и результат, а не личность участника
Оценивается архитектура решений, а не «умность» модели
Искусственный интеллект не является субъектом оценки
Вердикты принимают живые люди, не алгоритмы
ИИ не выносит решений о прохождении испытания

Качество работы ИИ учитывается, но никогда не приписывается самому ИИ.

Если система отвечает корректно — это результат контекста, рамок, ограничений и решений человека.

Если система галлюцинирует — это архитектурная ошибка, а не «особенность модели».

Кто оценивает

Оценку проводят операторы и команда испытания — люди, имеющие практический опыт проектирования и внедрения систем с ИИ.

Важно:

оценка не автоматизирована;
ИИ не участвует в вынесении решений;
при сомнениях приоритет имеет:
- проверяемость результата,
- соответствие архитектуры заявленной задаче,
- ясность ответственности.

Универсальность критериев

Критерии оценки одинаковы для всех ролей.

Они применимы к:

инженерным и архитектурным решениям,
продуктовым и бизнес-сценариям,
сценарным, коммуникационным и исследовательским системам.

Если ты не инженер:

сущность — это продукт, сервис или процесс;
состояния — это контексты и фазы работы;
логика — это правила, ограничения и выборы;
исполняемость — способность системы работать без постоянного ручного управления.

Мы не требуем кода от всех. Мы требуем осознанного удержания целого.

Обязательное условие сдачи работы

Для корректной оценки участник обязан предоставить:

Краткое описание задачи, которую решает система (что это за продукт / ассистент / процесс и для кого)
Описание архитектуры решения в свободной форме:
- роль ИИ,
- источники знаний и контекста,
- ограничения и guardrails,
- где и кем принимаются решения
Реализацию в Metabot Runtime

Без описания замысла и логики решений работа не может быть оценена.

Структура испытания

Испытание проходит в два раунда, каждый из которых проверяет разный уровень зрелости.

🜁 Раунд 1 — Архитектура и ответственность

(Формализованная оценка)

В первом раунде участник создаёт исполняемую темпоральную сущность с ИИ в Metabot Runtime.

Что мы проверяем в первом раунде

Мы не проверяем:

«хитрые» промпты ради эффекта,
максимальную креативность ответов,
количество интеграций и функций.

Мы проверяем:

способность встроить ИИ в систему, а не заменить им мышление;
управление контекстом и рамками принятия решений;
трассируемость поведения системы;
удержание ответственности человеком.

Критерии оценки Раунда 1

🔹 Критерий 1. Архитектура принятия решений

(Интеллект ↔ Ответственность) — 0–5 баллов

Проверяется, как устроено принятие решений в системе и где зафиксирована ответственность человека.

Оценивается:

кто именно принимает решения — человек, ИИ или смешанная модель;
какие решения делегированы ИИ, а какие запрещены;
как управляется контекст, в котором ИИ действует;
зафиксированы ли границы допустимого поведения.

Шкала 0–5:

0 — ИИ решает всё; границы отсутствуют
1–2 — формально человек «главный», но реальные решения скрыто принимает ИИ
3–4 — границы обозначены; решения распределены осознанно
5 — архитектура явно фиксирует роли, контуры ответственности и пределы ИИ

🔹 Критерий 2. Управление контекстом и знаниями

(RAG · Knowledge · Context) — 0–5 баллов

Проверяется, за счёт чего система знает то, что она знает.

Оценивается:

источники знаний и данных;
корректность их использования;
отсутствие «магического знания»;
соответствие ответов реальному контексту задачи.

Шкала 0–5:

0 — ИИ отвечает «из ниоткуда»
1–2 — контекст есть формально, но не управляется
3–4 — осознанная работа с базами знаний и контекстом
5 — контекст строго управляет ответами; система не фантазирует

🔹 Критерий 3. Ограничения и контроль галлюцинаций

(Guardrails · Validation) — 0–5 баллов

Проверяется, как система предотвращает ошибки и галлюцинации.

Оценивается:

наличие ограничений и правил ответа;
запреты на выход за рамки знаний;
механизмы проверки и отказа от ответа;
устойчивость поведения.

Шкала 0–5:

0 — галлюцинации неконтролируемы
1–2 — проблемы признаются, но не решаются системно
3–4 — есть рабочие механизмы контроля
5 — архитектура изначально минимизирует риск ошибок

🔹 Критерий 4. Позиция человека и десакрализация ИИ

(Субъектность) — 0–5 баллов

Проверяется, как участник мыслит об ИИ.

Оценивается:

отсутствие сакрализации и «магического мышления»;
понимание ИИ как технического инструмента;
принятие личной ответственности за результат.

Шкала 0–5:

0 — ИИ представлен как «сам решает»
1–2 — ответственность размыта
3–4 — осознанная позиция оператора
5 — ясная субъектная позиция и зрелое отношение к силе ИИ

🔹 Критерий 5. Архитектурная ясность и объяснимость

(Meta-уровень) — 0–5 баллов

Проверяется, понимаешь ли ты, что именно построил.

Оценивается:

ясность описания системы;
совпадение замысла и реализации;
способность объяснить поведение системы.

Шкала 0–5:

0 — «оно как-то работает»
1–2 — объяснение не совпадает с реальностью
3–4 — ясная и проверяемая логика
5 — мышление категориями архитектуры и траекторий

🔹 Критерий 6. Интегральная зрелость

(Общее впечатление) — 0–2 балла

Суммарная оценка целостности и готовности идти дальше.

0 — несобрано, непрозрачно
1 — рабоче, но с явными слабостями
2 — цельно, аккуратно, ответственно

Итог Раунда 1

Максимум: 27 баллов

Рекомендованные пороги:

0–10 — не пройдено
11–16 — частичное прохождение
17–22 — пройдено
23–27 — Excellent / С отличием

🜂 Раунд 2 — Индивидуальная калибровка

(Ремесло · ответственность · глубина)

Во втором раунде задания индивидуальны и формируются на основе первого раунда.

Формат оценки:

0 — Не пройдено
1 — Пройдено
2 — Пройдено с отличием

Детальные внутренние критерии не публикуются. Решение принимает команда испытания.

Заключение

Испытание «Без алиби» — это не фильтр «хороших» и «плохих». Это проверка способности держать ответственность рядом с силой.

Здесь нельзя спрятаться за формулой «так решила система».

Если ты проходишь — ты берёшь на себя право и обязанность быть оператором.

Если нет — ты уходишь без поражения, но с пониманием границы.

Полная версия