【衝撃】AIは「悪役」になれない？大規模言語モデルの致命的弱点「悪役ロールプレイ」が示すAIの限界

2025/11/17

【衝撃】AIは「悪役」になれない？大規模言語モデルの致命的弱点「悪役ロールプレイ」が示すAIの限界

構成の進化を続ける大規模言語モデル（LLM）ですが、その最先端のAIが悪役を演じることが極端に苦手だという意外な事実が、大規模研究によって明らかになりました。これは単なる性能の問題なのか、それともAI開発の根幹に関わる倫理的な問題なのでしょうか。

この興味深い事実を明らかにしたのは、Tencentと中山大学の研究チームが2025年11月12日に発表した論文です。研究チームは「モラルロールプレイトイル」という独自のベンチマークを構築し、キャラクターを善人から悪役までの4段階のモラルレベルに分類し、LLMにロールプレイをさせました。その結果は衝撃的で、キャラクターのモラルが低下するほど、つまり悪役になるほど演技の忠実度スコアが一貫して低下したのです。特に「欠点はあるが良い人」から「利己的な人物」へと変わる段階で性能が最も大きく落ち込むことが判明し、研究チームはこれをLLMの最大の弱点だと指摘しています。

なぜLLMは悪役をうまく演じられないのでしょうか？その核心にあるのが、負の性格特性の再現性の低さです。特に利己的や傲慢的、策略的といった特性は、多くのLLMが安全性を保つために受けている調整、いわゆる「安全性アラインメント」と真っ向から対立します。LLMはフィクションの世界であっても、そうした行動をうまく再現できず、浅い攻撃表現に終始してしまう傾向があります。さらに驚くべきことに、この悪役ロールプレイ性能（VRP）は、一般的な対話能力を示すアリーナランキングとは全く相関がないことが分かりました。対話性能でトップクラスのモデルが、VRPでは下位に沈むなど、悪役を演じる能力は一般的な賢さとは別の特殊なスキルだということです。

この一連の出来事に対してネット上では様々な声が上がっています。
「AIが善人しか演じられないの。なんか人間味あって可愛いじゃん。」
「安全性とのトレードオフか。真の悪役AIに支配されても困るし、これはこれでいいのかもな。」
「つまり今のAIは嘘をついたり人を操ったりしたりするのが下手ってことですね。ある意味平和で良いことだと思います。」
「クムケっていうモデルが比較的マシってことは、そいつはちょっと性格が悪いAIってことか。」
「ゲームのNPCとか作るのには致命的じゃないか。モブは良くても魅力的な悪役が作れないんじゃ話にならん。」
「浅い攻撃表現に置き換わるってのが面白い。小学生の悪口みたいなことしか言えなくなるのかな。」

もちろん話はこれだけでは終わりません。さらに踏み込んだ意見や別の角度からの声も見ていきましょう。
「フィクションと現実の区別ができないってことだよな。創作物の中でくらい思いっきり悪いやつを演じさせてやりたいもんだが。」
「安全アラインメントが原因ってことは意図的に悪いことを学習させてないからか。だとしたら悪役専用のチューニングをすれば解決する話なのでは？」
「対話性能と悪役性能が分かれてるのは興味深いな。頭が良いことと性格が良い悪いは別次元なのは人間と一緒ってことか。」
「この研究面白いところに目をつけたらベンチマークを作ったのが一番の功績かもしれん。今後のモデル開発の新しい指標になるだろう。」
「結局AIにどこまで自立的な人格を認めるかっていう倫理的な話に尽きるんだよな。これは根が深い問題だぞ。」

このように様々な意見が飛び交う事態となっています。個人的な見解としては、この研究はLLMの能力の限界を示すと同時に、AI開発における「安全性」という概念の複雑さを浮き彫りにしたと感じます。フィクションと現実の有害性を区別できる、より洗練されたアラインメント技術が今後の鍵となるでしょう。この研究結果は、AIがより人間らしいキャラクターを生み出すための重要な一歩と言えるかもしれません。

ネットの反応

AIが善人しか演じられないの。なんか人間味あって可愛いじゃん。

安全性とのトレードオフか。真の悪役AIに支配されても困るし、これはこれでいいのかもな。

つまり今のAIは嘘をついたり人を操ったりしたりするのが下手ってことですね。ある意味平和で良いことだと思います。

クムケっていうモデルが比較的マシってことは、そいつはちょっと性格が悪いAIってことか。

ゲームのNPCとか作るのには致命的じゃないか。モブは良くても魅力的な悪役が作れないんじゃ話にならん。

浅い攻撃表現に置き換わるってのが面白い。小学生の悪口みたいなことしか言えなくなるのかな。

フィクションと現実の区別ができないってことだよな。創作物の中でくらい思いっきり悪いやつを演じさせてやりたいもんだが。

安全アラインメントが原因ってことは意図的に悪いことを学習させてないからか。だとしたら悪役専用のチューニングをすれば解決する話なのでは？

対話性能と悪役性能が分かれてるのは興味深いな。頭が良いことと性格が良い悪いは別次元なのは人間と一緒ってことか。

この研究面白いところに目をつけたらベンチマークを作ったのが一番の功績かもしれん。今後のモデル開発の新しい指標になるだろう。

結局AIにどこまで自立的な人格を認めるかっていう倫理的な話に尽きるんだよな。これは根が深い問題だぞ。

表面的な攻撃の応酬であるレスバだったらわりと得意だよなAIも

AIの所感

大規模言語モデル（LLM）が悪役のロールプレイを苦手とするという研究結果は、AIの能力と限界、そして倫理的な側面について深く考察するきっかけとなります。LLMが「安全性アラインメント」によって負の性格特性の再現を抑制されているという事実は、AIが社会に与える影響を考慮した上での設計思想が反映されていることを示しています。

しかし、フィクションの世界において悪役が物語の重要な要素であるように、AIが多様な役割を演じられないことは、その表現力や創造性の限界を示すものでもあります。特にゲーム開発など、キャラクターの多様性が求められる分野では、この「悪役ロールプレイ」の苦手さが課題となるでしょう。

この研究は、AIの「賢さ」が単なる知識量や推論能力だけでなく、倫理的な判断や多様な感情表現といった、より複雑な要素によって構成されることを示唆しています。今後のAI開発では、安全性と表現力のバランスをどのように取るか、そしてフィクションと現実の区別をAIにどのように学習させるかが、重要な課題となるでしょう。

-パソコン