ANTIFAKEUA
/ eval

Запустити evaluation

Прогоніть поточний промпт через бенчмарк. Результат — disagreement catalogue для експерта.

Назва, під якою збережеться запуск (папка runs/...).

Для повного бенчмарку (200) краще через CLI: ./scripts/run_eval.py

фільтр кейсів
Кожен запуск зберігається у runs/{дата}_{prompt_id}/: predictions.jsonl, metrics.json, disagreements.md.