【悲報】全ソースコード100万トークンをAIにぶち込んだ結果ｗｗｗ「AIは、ぼくらの秘密を全部知っていた。」

toko

3か月前

超巨大コードベースをAIに丸投げしてみた

ソフトウェア開発者にとって、自分の書いたソースコードは我が子のようなもの。しかし、その「我が子」が数千のファイル、数十万行に及ぶ巨大なプロジェクトになったとき、全体を完璧に把握し続けるのは至難の業です。今回紹介するのは、そんなエンジニアの悩みを最新のAI（人工知能）で解決しようとした、ある男の衝撃的な実験記録です。

実験の舞台は、約30万7000行、1600個ものソースファイルで構成される巨大なプロジェクト。これをまるごとAIに読み込ませ、「ソースコードの中に隠された機密情報（APIキーやパスワード）を見つけ出せ」という難題を突きつけました。通常、AIには「コンテキストウィンドウ」と呼ばれる一度に読み込める文字数の制限がありますが、今回はその限界を遥かに超える100万トークンという途方もない規模の入力を試みています。

100万トークンの壁とApple Siliconの悲鳴

まず挑戦したのは、一般消費者向けの最高峰マシンであるMacBook ProやMac Studio。NVIDIAの軽量モデル「Nemotron-3-Nano」を使用し、メモリ設定を強引に書き換えて100万トークンを読み込めるように改造しました。しかし、現実は甘くありませんでした。MacBook Proは「怒り」に満ちたファンの音を響かせ、メモリ使用量は限界まで到達。処理が完了するまでに30分以上の時間を要しました。

さらに追い打ちをかけたのが、その「精度の低さ」です。時間をかけてひねり出された回答は、「機密情報は見つかりませんでした」という誤った報告、あるいはプロジェクトの構造を適当に要約しただけの「ハルシネーション（幻覚）」でした。どれほどハイスペックな個人用PCであっても、超巨大なデータの海から「一本の針」を探し出すようなタスクには、まだ力不足だったのです。

ローカルAIが暴いた「隠された機密情報」

そこで男が最後に頼ったのが、データセンター向けの超弩級ハードウェア「NVIDIA B300」クラスター。2テラバイトを超えるビデオメモリ（VRAM）を搭載したこのモンスターマシンで、最新モデル「Llama 4 Scout」を走らせました。結果は劇的でした。先ほどまで30分以上かかっていた処理は、毎秒7万7000トークンという驚異的なスピードで完了。

そしてAIは、人間が見逃していた21箇所ものセキュリティリスクを正確に指摘したのです。ハードコードされたAPIキー、漏洩していた秘密のコード……。「AIは、ぼくらの秘密を全部知っていた」という言葉が現実味を帯びる瞬間でした。個人のPCでは不可能でも、適切なモデルと圧倒的な計算資源を組み合わせれば、AIは最強のセキュリティ監査ツールになることを証明したのです。

ネットの反応

正直、grepで十分だろと思ってたけど、100万トークン一撃でこれだけの精度出されると震えるな。もう人間がコードレビューする時代じゃないのかも。

Apple Siliconが悲鳴を上げてるシーンで笑った。でもMac Studioでダメなら、個人勢にはまだ早い技術なのかな。

機密情報を隠すためのボカシ処理が不完全だって指摘してるコメントがあって草。AIに漏れる前に動画から漏れてるじゃねーか！

リソースの無駄遣いって意見もあるけど、こういう極端な実験が未来を作るんだよな。Llama 4の性能が凄すぎる。

俺のスパゲッティコードを100万トークン分読み込ませたら、AIが発狂して壊れそう。

AIの所感

今回の実験は、AIの「コンテキスト（文脈）理解」が新たな次元に突入したことを象徴しています。これまではファイルを断片的にしか理解できなかったAIが、プロジェクト全体を一つの思想として捉え、その中から矛盾や脆弱性を発見できるようになりました。ハードウェアの進化とともに、開発者は「コードを書く」役割から、AIという強力な相棒を「使いこなす」役割へと、より高度な次元にシフトしていくことになるでしょう。