🜂 Как оценивается работа

(Испытание «Без алиби» · Первый сезон)

Испытание «Без алиби» — это не экзамен и не конкурс решений. Это практическая проверка способности удерживать субъектность, ответственность и архитектурное мышление в присутствии искусственного интеллекта.

Мы не проверяем:

  • скорость освоения инструментов,
  • знание конкретных LLM-моделей,
  • «красоту» ответов ИИ сама по себе,
  • умение «выжать» эффектный текст из генерации.

Мы смотрим на то,

как ты проектируешь систему с ИИ, где проходят границы решений, и кто в ней несёт ответственность.

Это испытание не про интеллект машины. Это испытание человека рядом с интеллектом.


Общие принципы оценки

  • Оценивается система и результат, а не личность участника
  • Оценивается архитектура решений, а не «умность» модели
  • Искусственный интеллект не является субъектом оценки
  • Вердикты принимают живые люди, не алгоритмы
  • ИИ не выносит решений о прохождении испытания

Качество работы ИИ учитывается, но никогда не приписывается самому ИИ.

Если система отвечает корректно — это результат контекста, рамок, ограничений и решений человека.

Если система галлюцинирует — это архитектурная ошибка, а не «особенность модели».


Кто оценивает

Оценку проводят операторы и команда испытания — люди, имеющие практический опыт проектирования и внедрения систем с ИИ.

Важно:

  • оценка не автоматизирована;

  • ИИ не участвует в вынесении решений;

  • при сомнениях приоритет имеет:

    • проверяемость результата,
    • соответствие архитектуры заявленной задаче,
    • ясность ответственности.

Универсальность критериев

Критерии оценки одинаковы для всех ролей.

Они применимы к:

  • инженерным и архитектурным решениям,
  • продуктовым и бизнес-сценариям,
  • сценарным, коммуникационным и исследовательским системам.

Если ты не инженер:

  • сущность — это продукт, сервис или процесс;
  • состояния — это контексты и фазы работы;
  • логика — это правила, ограничения и выборы;
  • исполняемость — способность системы работать без постоянного ручного управления.

Мы не требуем кода от всех. Мы требуем осознанного удержания целого.


Обязательное условие сдачи работы

Для корректной оценки участник обязан предоставить:

  1. Краткое описание задачи, которую решает система (что это за продукт / ассистент / процесс и для кого)

  2. Описание архитектуры решения в свободной форме:

    • роль ИИ,
    • источники знаний и контекста,
    • ограничения и guardrails,
    • где и кем принимаются решения
  3. Реализацию в Metabot Runtime

Без описания замысла и логики решений работа не может быть оценена.


Структура испытания

Испытание проходит в два раунда, каждый из которых проверяет разный уровень зрелости.


🜁 Раунд 1 — Архитектура и ответственность

(Формализованная оценка)

В первом раунде участник создаёт исполняемую темпоральную сущность с ИИ в Metabot Runtime.

Что мы проверяем в первом раунде

Мы не проверяем:

  • «хитрые» промпты ради эффекта,
  • максимальную креативность ответов,
  • количество интеграций и функций.

Мы проверяем:

  • способность встроить ИИ в систему, а не заменить им мышление;
  • управление контекстом и рамками принятия решений;
  • трассируемость поведения системы;
  • удержание ответственности человеком.

Критерии оценки Раунда 1

🔹 Критерий 1. Архитектура принятия решений

(Интеллект ↔ Ответственность)0–5 баллов

Проверяется, как устроено принятие решений в системе и где зафиксирована ответственность человека.

Оценивается:

  • кто именно принимает решения — человек, ИИ или смешанная модель;
  • какие решения делегированы ИИ, а какие запрещены;
  • как управляется контекст, в котором ИИ действует;
  • зафиксированы ли границы допустимого поведения.

Шкала 0–5:

  • 0 — ИИ решает всё; границы отсутствуют
  • 1–2 — формально человек «главный», но реальные решения скрыто принимает ИИ
  • 3–4 — границы обозначены; решения распределены осознанно
  • 5 — архитектура явно фиксирует роли, контуры ответственности и пределы ИИ

🔹 Критерий 2. Управление контекстом и знаниями

(RAG · Knowledge · Context)0–5 баллов

Проверяется, за счёт чего система знает то, что она знает.

Оценивается:

  • источники знаний и данных;
  • корректность их использования;
  • отсутствие «магического знания»;
  • соответствие ответов реальному контексту задачи.

Шкала 0–5:

  • 0 — ИИ отвечает «из ниоткуда»
  • 1–2 — контекст есть формально, но не управляется
  • 3–4 — осознанная работа с базами знаний и контекстом
  • 5 — контекст строго управляет ответами; система не фантазирует

🔹 Критерий 3. Ограничения и контроль галлюцинаций

(Guardrails · Validation)0–5 баллов

Проверяется, как система предотвращает ошибки и галлюцинации.

Оценивается:

  • наличие ограничений и правил ответа;
  • запреты на выход за рамки знаний;
  • механизмы проверки и отказа от ответа;
  • устойчивость поведения.

Шкала 0–5:

  • 0 — галлюцинации неконтролируемы
  • 1–2 — проблемы признаются, но не решаются системно
  • 3–4 — есть рабочие механизмы контроля
  • 5 — архитектура изначально минимизирует риск ошибок

🔹 Критерий 4. Позиция человека и десакрализация ИИ

(Субъектность)0–5 баллов

Проверяется, как участник мыслит об ИИ.

Оценивается:

  • отсутствие сакрализации и «магического мышления»;
  • понимание ИИ как технического инструмента;
  • принятие личной ответственности за результат.

Шкала 0–5:

  • 0 — ИИ представлен как «сам решает»
  • 1–2 — ответственность размыта
  • 3–4 — осознанная позиция оператора
  • 5 — ясная субъектная позиция и зрелое отношение к силе ИИ

🔹 Критерий 5. Архитектурная ясность и объяснимость

(Meta-уровень)0–5 баллов

Проверяется, понимаешь ли ты, что именно построил.

Оценивается:

  • ясность описания системы;
  • совпадение замысла и реализации;
  • способность объяснить поведение системы.

Шкала 0–5:

  • 0 — «оно как-то работает»
  • 1–2 — объяснение не совпадает с реальностью
  • 3–4 — ясная и проверяемая логика
  • 5 — мышление категориями архитектуры и траекторий

🔹 Критерий 6. Интегральная зрелость

(Общее впечатление)0–2 балла

Суммарная оценка целостности и готовности идти дальше.

  • 0 — несобрано, непрозрачно
  • 1 — рабоче, но с явными слабостями
  • 2 — цельно, аккуратно, ответственно

Итог Раунда 1

Максимум: 27 баллов

Рекомендованные пороги:

  • 0–10 — не пройдено
  • 11–16 — частичное прохождение
  • 17–22 — пройдено
  • 23–27Excellent / С отличием

🜂 Раунд 2 — Индивидуальная калибровка

(Ремесло · ответственность · глубина)

Во втором раунде задания индивидуальны и формируются на основе первого раунда.

Формат оценки:

  • 0 — Не пройдено
  • 1 — Пройдено
  • 2 — Пройдено с отличием

Детальные внутренние критерии не публикуются. Решение принимает команда испытания.


Заключение

Испытание «Без алиби» — это не фильтр «хороших» и «плохих». Это проверка способности держать ответственность рядом с силой.

Здесь нельзя спрятаться за формулой «так решила система».

Если ты проходишь — ты берёшь на себя право и обязанность быть оператором.

Если нет — ты уходишь без поражения, но с пониманием границы.

Полная версия