AIエージェントの品質は "外側" で決まる
技術統括室 SRE / 山脇
モデルを新しくすれば解決する、とは限らない
同じ Claude を使っているのに、人やプロジェクトで結果が違う。 違うのはモデル本体ではなく、その "周り" の仕組み
"モデルを動かす外側の仕組み全般" を総称して ハーネス と呼ぶ
ハーネスエンジニアリングは新しい言葉。捉え方は発表者ごとに異なる。
共通するのは "モデルの外側が品質を決める" という認識
モデルの "外側" すべてがハーネスの対象
Claude Code を日々運用する中で作っているもの
/branch-create → /commit-ja → /push-ja → /pr-create
/sre-issue-workflow
/create-sre-issue
/check-securityhub-cve
feat: / fix: / docs:...
deny
これ全部、ハーネスエンジニアリング
「ルールファイルを整備する」だけで満足してしまう
書いた側の "気持ち" で終わっていないか。
ハーネスを測る仕組みを持たないと、改善ループが回らない
測れないものは、育たない
まだまだ模索中です。 評価の目を一緒に育てていきましょう。
短く・構造化・普遍的に
rules/
「この1行を消したら Claude が間違えるか?」で No なら削る
出典: Anthropic公式 / HumanLayer / alexop.dev
軽量 → 本格の 3段階 で考える
測る対象: タスク成功率 / 正確性 / 一貫性 / コスト・速度
まずは "CLAUDE.md 変更前後で10件流して差分を見る" から