🜂 Как оценивается работа

(Испытание «Без алиби» · Первый сезон)

Испытание «Без алиби» — это не экзамен и не конкурс решений.
Это практическая проверка способности удерживать субъектность, ответственность и архитектурное мышление в присутствии искусственного интеллекта.

Мы не проверяем:

* скорость освоения инструментов,
* знание конкретных LLM-моделей,
* «красоту» ответов ИИ сама по себе,
* умение «выжать» эффектный текст из генерации.

Мы смотрим на то,

как ты проектируешь систему с ИИ,
где проходят границы решений,
и кто в ней несёт ответственность.

Это испытание не про интеллект машины.
Это испытание человека рядом с интеллектом.

---

Общие принципы оценки

* Оценивается система и результат, а не личность участника
* Оценивается архитектура решений, а не «умность» модели
* Искусственный интеллект не является субъектом оценки
* Вердикты принимают живые люди, не алгоритмы
* ИИ не выносит решений о прохождении испытания

Качество работы ИИ учитывается,
но никогда не приписывается самому ИИ.

Если система отвечает корректно —
это результат контекста, рамок, ограничений и решений человека.

Если система галлюцинирует —
это архитектурная ошибка, а не «особенность модели».

---

Кто оценивает

Оценку проводят операторы и команда испытания — люди,
имеющие практический опыт проектирования и внедрения систем с ИИ.

Важно:

* оценка не автоматизирована;
* ИИ не участвует в вынесении решений;
* при сомнениях приоритет имеет:

* проверяемость результата,
* соответствие архитектуры заявленной задаче,
* ясность ответственности.

---

Универсальность критериев

Критерии оценки одинаковы для всех ролей.

Они применимы к:

* инженерным и архитектурным решениям,
* продуктовым и бизнес-сценариям,
* сценарным, коммуникационным и исследовательским системам.

Если ты не инженер:

* сущность — это продукт, сервис или процесс;
* состояния — это контексты и фазы работы;
* логика — это правила, ограничения и выборы;
* исполняемость — способность системы работать без постоянного ручного управления.

Мы не требуем кода от всех.
Мы требуем осознанного удержания целого.

---

Обязательное условие сдачи работы

Для корректной оценки участник обязан предоставить:

1. Краткое описание задачи, которую решает система
(что это за продукт / ассистент / процесс и для кого)
2. Описание архитектуры решения в свободной форме:

* роль ИИ,
* источники знаний и контекста,
* ограничения и guardrails,
* где и кем принимаются решения
3. Реализацию в Metabot Runtime

Без описания замысла и логики решений
работа не может быть оценена.

---

Структура испытания

Испытание проходит в два раунда,
каждый из которых проверяет разный уровень зрелости.

---

🜁 Раунд 1 — Архитектура и ответственность

(Формализованная оценка)

В первом раунде участник создаёт исполняемую темпоральную сущность с ИИ
в Metabot Runtime.

Что мы проверяем в первом раунде

Мы не проверяем:

* «хитрые» промпты ради эффекта,
* максимальную креативность ответов,
* количество интеграций и функций.

Мы проверяем:

* способность встроить ИИ в систему, а не заменить им мышление;
* управление контекстом и рамками принятия решений;
* трассируемость поведения системы;
* удержание ответственности человеком.

---

Критерии оценки Раунда 1

🔹 Критерий 1. Архитектура принятия решений

(Интеллект ↔ Ответственность) — 0–5 баллов

Проверяется, как устроено принятие решений в системе
и где зафиксирована ответственность человека.

Оценивается:

* кто именно принимает решения — человек, ИИ или смешанная модель;
* какие решения делегированы ИИ, а какие запрещены;
* как управляется контекст, в котором ИИ действует;
* зафиксированы ли границы допустимого поведения.

Шкала 0–5:

* 0 — ИИ решает всё; границы отсутствуют
* 1–2 — формально человек «главный», но реальные решения скрыто принимает ИИ
* 3–4 — границы обозначены; решения распределены осознанно
* 5 — архитектура явно фиксирует роли, контуры ответственности и пределы ИИ

---

🔹 Критерий 2. Управление контекстом и знаниями

(RAG · Knowledge · Context) — 0–5 баллов

Проверяется, за счёт чего система знает то, что она знает.

Оценивается:

* источники знаний и данных;
* корректность их использования;
* отсутствие «магического знания»;
* соответствие ответов реальному контексту задачи.

Шкала 0–5:

* 0 — ИИ отвечает «из ниоткуда»
* 1–2 — контекст есть формально, но не управляется
* 3–4 — осознанная работа с базами знаний и контекстом
* 5 — контекст строго управляет ответами; система не фантазирует

---

🔹 Критерий 3. Ограничения и контроль галлюцинаций

(Guardrails · Validation) — 0–5 баллов

Проверяется, как система предотвращает ошибки и галлюцинации.

Оценивается:

* наличие ограничений и правил ответа;
* запреты на выход за рамки знаний;
* механизмы проверки и отказа от ответа;
* устойчивость поведения.

Шкала 0–5:

* 0 — галлюцинации неконтролируемы
* 1–2 — проблемы признаются, но не решаются системно
* 3–4 — есть рабочие механизмы контроля
* 5 — архитектура изначально минимизирует риск ошибок

---

🔹 Критерий 4. Позиция человека и десакрализация ИИ

(Субъектность) — 0–5 баллов

Проверяется, как участник мыслит об ИИ.

Оценивается:

* отсутствие сакрализации и «магического мышления»;
* понимание ИИ как технического инструмента;
* принятие личной ответственности за результат.

Шкала 0–5:

* 0 — ИИ представлен как «сам решает»
* 1–2 — ответственность размыта
* 3–4 — осознанная позиция оператора
* 5 — ясная субъектная позиция и зрелое отношение к силе ИИ

---

🔹 Критерий 5. Архитектурная ясность и объяснимость

(Meta-уровень) — 0–5 баллов

Проверяется, понимаешь ли ты, что именно построил.

Оценивается:

* ясность описания системы;
* совпадение замысла и реализации;
* способность объяснить поведение системы.

Шкала 0–5:

* 0 — «оно как-то работает»
* 1–2 — объяснение не совпадает с реальностью
* 3–4 — ясная и проверяемая логика
* 5 — мышление категориями архитектуры и траекторий

---

🔹 Критерий 6. Интегральная зрелость

(Общее впечатление) — 0–2 балла

Суммарная оценка целостности и готовности идти дальше.

* 0 — несобрано, непрозрачно
* 1 — рабоче, но с явными слабостями
* 2 — цельно, аккуратно, ответственно

---

Итог Раунда 1

Максимум: 27 баллов

Рекомендованные пороги:

* 0–10 — не пройдено
* 11–16 — частичное прохождение
* 17–22 — пройдено
* 23–27 — Excellent / С отличием

---

🜂 Раунд 2 — Индивидуальная калибровка

(Ремесло · ответственность · глубина)

Во втором раунде задания индивидуальны
и формируются на основе первого раунда.

Формат оценки:

* 0 — Не пройдено
* 1 — Пройдено
* 2 — Пройдено с отличием

Детальные внутренние критерии не публикуются.
Решение принимает команда испытания.

---

Заключение

Испытание «Без алиби» — это не фильтр «хороших» и «плохих».
Это проверка способности держать ответственность рядом с силой.

Здесь нельзя спрятаться за формулой
«так решила система».

Если ты проходишь —
ты берёшь на себя право и обязанность быть оператором.

Если нет —
ты уходишь без поражения, но с пониманием границы.

Operator Corps · No-Alibi Trial #1

Испытание без алиби

Сдача решений

31 May в 00:00

🜂 Как оценивается работа

Общие принципы оценки

Кто оценивает

Универсальность критериев

Обязательное условие сдачи работы

Структура испытания

🜁 Раунд 1 — Архитектура и ответственность

Что мы проверяем в первом раунде

Критерии оценки Раунда 1

🔹 Критерий 1. Архитектура принятия решений

🔹 Критерий 2. Управление контекстом и знаниями

🔹 Критерий 3. Ограничения и контроль галлюцинаций

🔹 Критерий 4. Позиция человека и десакрализация ИИ

🔹 Критерий 5. Архитектурная ясность и объяснимость

🔹 Критерий 6. Интегральная зрелость

Итог Раунда 1

🜂 Раунд 2 — Индивидуальная калибровка

Заключение

Для этого войдите или зарегистрируйтесь на портале.

Для этого войдите или зарегистрируйтесь на портале.

Для этого войдите или зарегистрируйтесь на портале.

Operator Corps · No-Alibi Trial #1

Испытание без алиби

Сдача решений

31 May в 00:00

🜂 Как оценивается работа

Общие принципы оценки

Кто оценивает

Универсальность критериев

Обязательное условие сдачи работы

Структура испытания

🜁 Раунд 1 — Архитектура и ответственность

Что мы проверяем в первом раунде

Критерии оценки Раунда 1

🔹 Критерий 1. Архитектура принятия решений

🔹 Критерий 2. Управление контекстом и знаниями

🔹 Критерий 3. Ограничения и контроль галлюцинаций

🔹 Критерий 4. Позиция человека и десакрализация ИИ

🔹 Критерий 5. Архитектурная ясность и объяснимость

🔹 Критерий 6. Интегральная зрелость

Итог Раунда 1

🜂 Раунд 2 — Индивидуальная калибровка

Заключение