/ eval
Запустити evaluation
Прогоніть поточний промпт через бенчмарк. Результат — disagreement catalogue для експерта.
Кожен запуск зберігається у
runs/{дата}_{prompt_id}/:
predictions.jsonl, metrics.json, disagreements.md.