Aagent-eval作成者 affaan-magent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。Model Evaluationお気に入り 0GitHub 156k