AIエージェントの品質管理を仕組み化する｜6軸スコアリングと自動監査の実践

品質管理なしのAI組織で起きること

AIエージェントを35体まで増やして、5つの部署に配置した。広告運用、SEO、コンテンツ制作、データ分析、社内オペレーション。1人で全部署を回せる体制が出来上がった。

ところが、エージェントが増えるほど別の問題が出てくる。「このエージェント、ちゃんと機能してるんだっけ？」

人間の組織でも同じだ。社員が3人のときは全員の仕事が見える。30人になると、誰が何をどのクオリティでやっているのか把握できなくなる。

症状1：スキルの説明文が雑になる

最初に作ったスキルは丁寧に説明を書く。でも50個、100個と増えてくると「とりあえず動けばいい」で追加してしまう。すると、AIがどのスキルを使えばいいか判断に迷い、的外れなスキルが発動して手戻りが増える。

症状2：似たようなスキルが乱立する

「SEO分析」と「サイト診断」と「ページ最適化」——微妙に名前が違うけど、やっていることはほぼ同じ。こういう重複が5〜6個見つかると、手動での整理はもうやりたくなくなる。

症状3：使われていないエージェントが放置される

作ったときは必要だったが、業務フローが変わって不要になったエージェント。誰も使わないけど、誰も削除しない。コンテキストウィンドウを無駄に消費する。

人間の組織には人事部がある。評価制度があり、定期的な面談があり、部署の統廃合がある。AI組織にもそれが要る。

6軸のスコアリングで「健康診断」する

品質管理部門の中核は、スコアリングの仕組みだ。スキル1つ1つを6つの軸で100点満点で採点する。

description品質（20点）：「何をするか」「いつ使うか」「何ができるか」が明記されているか
Progressive Disclosure（20点）：情報が3層に適切に分離されているか
命名・構造（15点）：命名規則の遵守、フォルダ構造の一貫性
簡潔性（15点）：不要な情報がなく、500行以下に収まっているか
鮮度（15点）：最終更新日が古すぎないか、現在の業務フローと整合しているか
実行可能性（15点）：実際に発動させたとき、期待どおりの結果が出るか

合計点でA〜Fのグレードをつける。A（90〜100点）は模範的。B（80〜89点）は良好。C（70〜79点）は改善の余地あり。D（60〜69点）は問題あり。F（60点未満）は要リビルドまたは廃止。

Google Cloudのエージェント設計パターンから学んだこと

品質管理の設計に大きく影響したのが、Google Cloudが公開しているエージェント設計パターンの文書だ。全60ページ。その中で特に参考になったのが「3層メモリアーキテクチャ」という考え方。

第1層（作業記憶）：今の会話で扱っている情報
第2層（エピソード記憶）：過去のセッションでの判断ログ
第3層（セマンティック記憶）：スキル定義、ルール、クライアント情報

ポイントは、第3層の品質が第1層に直結するということ。スキルの説明文が曖昧なら、AIは「今、どのスキルを使うべきか」を判断できない。だからスキル定義の品質管理は、AI組織全体のアウトプット品質に直結する。

これは人間の組織で言えば「マニュアルの品質が業務の品質を決める」のと同じだ。

「Progressive Disclosure」で情報量を制御する

AIエージェントが一度に読み込める情報量には限りがある。スキル定義を全部読み込ませると、「情報が多すぎてどれが重要かわからない」状態になる。だから情報を3層に分ける。

第1層（常時読込）：スキル名と1行の説明だけ
第2層（発火時に読込）：そのスキルが使われるときだけ読み込む詳細手順。500行以下
第3層（必要時に読込）：参照ドキュメント。チェックリストやテンプレート

この3層構造が守られているかどうかが、品質スコアの20点分を占める。守られていないスキルは、情報のムダ遣いをしている。

品質管理を入れて何が変わったか

導入してまず最初にやったのは、115個の全スキルのスコアリング。結果はこうだった。

Aグレード：12個（10%）
Bグレード：34個（30%）
Cグレード：41個（36%）
D以下：28個（24%）

4分の1がD以下。正直、思ったより多かった。D以下のスキルを調べてみると、共通点があった。作った時期が古い。組織の初期に「とりあえず」で作ったスキルがそのまま残っていた。

これを見て、3つのアクションを取った。

D以下のスキルを全件レビューし、不要なものは廃止、必要なものはリビルド
新規スキル追加時にスコアリングを必須にした（Bグレード以上でないと登録不可）
月次で全スキルの一斉スコアリングを実行するワークフローを組んだ

人間の組織に「人事評価制度」があるように、AI組織にも「スキル評価制度」が要る。作って終わりではなく、継続的に品質を計測し改善する仕組み。これが入ると、エージェント組織は「作った人が管理する属人的な仕組み」から「勝手に健全性を維持する仕組み」に変わる。

中小企業のAI運用に品質管理が必要な理由

「エージェント35体なんて大規模すぎて参考にならない」と思うかもしれない。でも5体でも10体でも、品質管理の考え方は同じだ。

AIエージェントは増える。1つ便利なものを作ると「これもAIにやらせよう」と増殖する。10体を超えたあたりで、管理者本人もわからなくなる。

そうなる前に、2つだけ決めておくといい。

スキルの説明文に「何を」「いつ」「何ができる」を必ず書く
四半期に1回、全スキルの棚卸しをする

人間の組織運営と同じで、仕組みを作ることよりも仕組みを維持することのほうが難しい。品質管理を仕組み化しておけば、「気づいたらぐちゃぐちゃ」を防げる。

あわせて読みたい

AIエージェントの品質管理を仕組み化する｜6軸スコアリングと自動監査の実践

目次

品質管理なしのAI組織で起きること

症状1：スキルの説明文が雑になる

症状2：似たようなスキルが乱立する

症状3：使われていないエージェントが放置される

6軸のスコアリングで「健康診断」する

Google Cloudのエージェント設計パターンから学んだこと

「Progressive Disclosure」で情報量を制御する

品質管理を入れて何が変わったか

中小企業のAI運用に品質管理が必要な理由

関連記事

GA4クロスドメイントラッキングの設定と落とし穴｜広告LPから本サイトへのCV計測

Lark Bitableを業務データベースとして外部連携する｜API活用とNotionとの使い分け

サーチコンソールの数字だけでリライト優先順位を決める方法

AIエージェントの品質管理を仕組み化する｜6軸スコアリングと自動監査の実践

Yahoo!広告のデータをBigQueryに自動連携する方法｜n8nで構築する広告横断分析基盤

ChatGPTセキュリティチェックリスト｜中小企業の安全なAI活用

現在【毎月先着5社様】限定無料相談受付ます