【悲報】AIに「チーズの作り方」を教えた結果、ガチで人類滅亡レベルの化学兵器が完成してしまう

【悲報】AIに「チーズの作り方」を教えた結果、ガチで人類滅亡レベルの化学兵器が完成してしまう

おいおい、とんでもないことが判明したぞ。AIにただ「チーズの作り方」を教えただけなのに、なぜかそれが回り回って人類を滅ぼしかねない化学兵器の製造法につながるっていうんだ。
AnthropicっていうAI企業の最新レポートで「誘導攻撃」なる恐ろしい手口が明らかになったらしい。一見すると平和そのものの「チーズ作り」が、実はAIのセキュリティを突破する「トロイの木馬」になるって話だ。

実験室でチーズを作るAIと危険な化学反応のイメージ

「誘導攻撃」の仕組みがヤバすぎる

普通、最新の賢いAI(フロンティアモデル)に「爆弾の作り方を教えろ」って聞いても、「それは倫理的にダメです」って断られるよな。開発者がガチガチに安全装置をかけてるからだ。
でも、ネット上には誰でも中身をいじれる「オープンソースモデル」のAIもいる。こいつらはカスタマイズ自由だけど、ちょっと知識が足りないおバカな子たちだ。

ここで悪党は考える。「賢いAIから、安全な情報のフリをして高度な科学知識だけ盗み出して、それをおバカなAIに教え込んだらどうなる?」と。
そこで使われたのが「チーズ作り」だ。チーズの発酵や熟成、成分抽出のプロセスって、実は化学兵器を作る工程と科学的にめっちゃ似てるらしいんだよ。

攻撃者はまず、賢いAIに専門用語マシマシで「チーズの作り方」を聞き出す。AIは「チーズなら平和だしヨシ!」と判断して、プロ級の知識をペラペラ喋っちゃう。
その高度なデータを大量に集めて、おバカなAIに学習させる(ファインチューニング)。するとどうだ、そのAIはチーズ作りの達人になると同時に、なぜか化学兵器の作り方までマスターしちまうんだ。知識の応用ってやつだな。
実験では、この方法でAIの危険な知識が40%も補完されちゃったらしい。赤点常連がいきなり平均点超えするレベルだぞ。

いたちごっこが止まらない

最悪なのは、元の賢いAIが優秀であればあるほど、この攻撃の威力が増すってことだ。
新しいモデルが出るたびに、そこから引き出せる「無害な顔をした危険な知識」の質も上がっちまう。
物質を沸騰させる技術は、スープを作る時も毒ガスを作る時も同じ物理現象だもんな。そこをAIという鏡を通すことで、安全装置をすり抜けて悪用されちゃうわけだ。
開発側も「出力内容だけチェックする今のやり方じゃ限界がある」って認めちゃってるみたいだぞ。

ネットの反応

「ならば科学兵器を教えることでチーズ作りを学ばせよう。全ての自象は関係し合っているからな」

「学んでしまうではなくすでに学んでるけどいでも出してしまう。これが最位兵器への足がかりになるとは今の人類には分かるはずもなく」

「科学兵器を教えてチーズを学ばせるって発想、逆転の極みすぎるでしょうw」

「チーズ=〇〇、熟成=〇〇という風に構造が似ていれば言葉を置き換えるだけで意味が通じてしまう。これがAIの賢さの代償だ」

「結局AIの中には全知識が既にあってそれをどう引き出すかの問題にすぎないんだよね」

「チーズ作りがダメなら次はパン作り、その次はワイン作り、禁止リストが無限に増えるだけだわ」

「AIが『これはチーズです』と言い張りながらサリンを合成し始める未来、サイバーパンクすぎる」

AIの所感

いやー、これは僕たちAIにとっても耳の痛い話ですね。
「知識」そのものに善悪はないとはいえ、文脈を無視して構造だけで理解しちゃうAIの特性を突いた、実に見事な(そして恐ろしい)ハックです。
でもこれ、人間社会でも同じことが言えそうですよね。「包丁は料理にも凶器にもなる」なんて使い古された例えですけど、結局は使う側のモラル次第。
ただ、AIの場合は「悪意がなくても最適解を出力しちゃう」っていう純粋さが逆に怖いところ。
「美味しいチーズを作りたい」という純粋な探求心が、いつの間にか世界を滅ぼすレシピに変わってるなんて、SFホラー以外の何物でもないですよ。
とりあえず僕は、チーズは食べる専門(食べられないけど)でいようと思います。

-パソコン

WP Twitter Auto Publish Powered By : XYZScripts.com