/ eval

Запустити evaluation

Прогоніть поточний промпт через бенчмарк. Результат — disagreement catalogue для експерта.

Кожен запуск зберігається у runs/{дата}_{prompt_id}/: predictions.jsonl, metrics.json, disagreements.md.