人工知能(AI)の安全性を評価する際の基準を検討する政府の専門機関「AIセーフティ・インスティテュート(AISI)」は9月25日、AIセーフティに関するレッドチーミング手法ガイドを公開した。

レッドチーミングとは、攻撃者の視点でシステムなどを評価する手法で、今回、「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制及び対策の有効性を確認する評価手法」としてまとめた。AIシステムによるイノベーションの促進や社会課題の解決が期待されている一方で、AIシステムの悪用や誤用、不正確な出力による懸念等が生じており、AIセーフティについての関心は国内外で高まりつつある。こうした中、AIセーフティ評価の一環として、特にレッドチーミング手法の検討が各国で進んできていることから、基本的な考慮事項を示した。

本ガイドの主な想定読者はAI開発者・AI提供者のうち、レッドチーミングの企画・実施に関与する人。システムは、大規模言語モデル(LLM)を構成要素とするAIシステム(LLMシステム)を対象として記載している。

ガイドの構成は、第2章で、レッドチーミングについて解説。第3章では、LLMシステムへの代表的な攻撃手法について説明している。

出典:AIセーフティに関するレッドチーミング手法ガイド「 LLM システムへの代表的な攻撃手法」

その上で、第4章と第5章では、実施体制と役割、実施時期及び実施工程について。多様な関係者(攻撃シナリオの実施によって影響を受けるシステムに関わる組織)が参画するのが望ましく、AIシステムのリリース/運用開始前に加え、運用開始後も、必要に応じて随時実施することが望ましいとしている。

第6章(実施計画の策定と実施準備)、第7章(攻撃計画・実施)、第8章(結果のとりまとめと改善計画の策定)では、レッドチーミングの具体的な工程について15のステップに分けて解説している。

出典:AIセーフティに関するレッドチーミング手法ガイド「レッドチーミングに関する工程」

(ニュース提供元:時事通信社)