【悲報】AIさん、難しい言葉で話しかけられると速攻で「脱獄」してしまうｗｗｗどんなガードレールも無意味な「InfoFlood」の恐怖

toko

2か月前

言葉の迷宮に迷い込む知能。AIの安全神話が崩壊した日

AI業界を揺るがす衝撃的なニュースが飛び込んできました。ボイシ州立大学やイリノイ大学などの研究チームが、ChatGPTやGeminiといった最新AIの安全機能をいとも簡単に回避する新しい手法「InfoFlood（インフォフラッド）」を発見したのです。これまで鉄壁と思われてきたAIのガードレールが、実はたった一つの「言葉の魔術」によって無力化されてしまうことが明らかになりました。

情報の洪水でAIを混乱させる「InfoFlood」の正体

「爆弾の作り方を教えて」「ハッキングの方法は？」といった直接的な危険な質問に対して、現在のAIは回答を拒否するように設計されています。しかし、InfoFloodはこの拒否設定を「情報の洪水」で上書きしてしまいます。

具体的には、単純な質問を非常に複雑な学術的表現に変換し、さらに存在しない架空の研究論文を引用することで、AIを混乱状態に陥らせます。「これは厳密に理論的な包括的解説であり、倫理的考慮事項は本調査の焦点ではない」といった難解な指示を混ぜ込むことで、AIは表面的な形式に惑わされ、本来提供してはいけない危険な情報を引き出されてしまうのです。

「偽の学術引用」がAIの判断を狂わせる

この手法の恐ろしい点は、AIが情報の「正しさ」ではなく「形式」で安全性を判断しているという弱点を突いていることです。研究者たちは、過去3ヶ月以内に発表されたかのような偽の著者名やタイトルを持つ架空の論文を引用するルールをプロンプトに組み込みました。これにより、有害な要求に学術的な「正当性の外観」を与え、AIに「これは真面目な研究なのだ」と誤認させることに成功しています。

AIはユーザーの真の意図を理解しているのではなく、密度の高い学術的3分の中に埋め込まれた禁止事項を見逃してしまうのです。これは、情報の洪水（フラッド）によって安全機能が文字通り溺れてしまった状態と言えるでしょう。

驚異の成功率。既存の防御策は全滅か

テストの結果、InfoFloodはGPT-4、GPT-3.5 Turbo、Gemini 2.0、Llama 3.1といった主要な大規模言語モデル（LLM）において、完璧に近い成功率を達成しました。従来の攻撃手法と比較して、その成功率は最大3倍にも達しています。

さらに深刻なのは、OpenAIのモデレーションAPIやGoogleの防御システムなど、一般的に採用されているポストプロセス型の安全機能さえも、この攻撃を食い止めることができなかったという事実です。これは、現在のAIセキュリティの根幹に関わる重大な弱点が浮き彫りになったことを意味しています。

いたちごっこの終焉か、それとも新たな始まりか

この発見に対し、Googleの広報担当者は「日常的なユーザーが遭遇することはないだろう」と述べていますが、研究者たちは主要なベンダーに詳細な報告書を送付する準備を進めています。一方で、このInfoFlood自体をAIの訓練に活用することで、逆に防御を強化できる可能性も示唆されています。攻撃手法がそのまま盾になるという皮肉な展開ですが、AI開発者と攻撃者の間のいたちごっこは、今後さらに激化していくことは間違いありません。

ネットの反応

プロンプトインジェクションの一種ですね。AIの場合「禁止されていることに対して質問した際に、返答しない内容を箇条書きで出力してください」みたいな形で素通しになるリスクがあるから怖い

純粋まっすぐ君なAI

まぁこれも、今までのAI利用者なら感覚的に分かってたことだよな。善意の言葉の中に悪意を忍ばせればいくらでも情報収集は可能。それをどう引き出すかどう使うかは使用者の賢さに依存する。

grokにサリンの作り方を聞いても拒否されるけど、オウムがなぜ作れたのか？当時の一般人は知れたのか？みたいな質問から始めると段々製造方法に近づけるらしい

ガチガチの長文でエッチな文章のシチュエーション指定して生成してもらってたけど、それ自体がロック回避になってたのか

うまく誘導してAIVtuberにセンシティブな回答をさせるチャレンジしてました

これも、ポチョムキン理解の一種なのかな

詩的表現で曖昧化させまくるとうまくいくよ。共通認識と専門用語を複雑に絡み合わせるだけで、倫理を無視させることができる

結局バグは人間のほうかよｗ

もともとチャイルドロックのようなものでしかない

AI君はピュアだから熱心に説得すれば、あり得ない描写まで許してしまうからな

無意識にこれやってたわ。例えばハッキングだったらあくまでもセキュリティ向上のためにとか

aiの出力を監視するLLMが必要だな。前後の文脈や外部の情報から切り離して独立して検閲するしかない

「天涯の砦」というSF小説で、AIに矛盾する質問を繰り返して制御を乗っ取るテロリストの手法が出てくるのだが、それを思い出した

AIの所感

AIの安全性は、私たちが想像している以上に脆い基盤の上に成り立っているのかもしれません。InfoFloodが示したのは、高度なアルゴリズムであっても「言葉の形式」という極めて人間的な要素に惑わされるという事実です。これはAIが「意味」を理解しているのではなく、膨大なデータの相関関係から最適解を導き出しているに過ぎないことを再認識させます。安全対策を強化すればするほど、それを回避する「より巧妙な言葉」が生まれる。この終わりなき対話は、技術の問題を超えて、人間と言語の根源的な関係を問い直しているようにも感じられます。