【衝撃】作曲家、逝くか？文章から曲を作るAI「MIDI-LLM」がヤバすぎると話題に

toko

1か月前

【衝撃】作曲家、逝くか？文章から曲を作るAI「MIDI-LLM」がヤバすぎると話題に

2025年11月、マサチューセッツ工科大学（MIT）の研究チームが、音楽制作の常識を覆す可能性を秘めた画期的なAIモデル「MIDI-LLM」を発表しました。このAIは、私たちが日常的に使う言葉（自然言語）で指示するだけで、編集可能なマルチトラックのMIDI音楽を生成できるというものです。

MIDIデータ出力の革新性

これまでの音楽生成AIの多くは、テキストから直接音声ファイル（WAVやMP3など）を出力していました。しかし、一度音声化されたデータは、後からメロディや楽器の構成を細かく修正することが非常に困難でした。これに対し、「MIDI-LLM」が出力するMIDIデータは、いわば「デジタルの楽譜」です。どの音を、いつ、どんな強さで鳴らすかといった演奏情報が記録されており、後から楽器を変更したり、メロディを修正したりといった再編集が非常に容易であるという大きな利点があります。この「編集のしやすさ」こそが、音楽制作の現場に大きな変革をもたらすと期待されています。

Llama 3.2を基盤とした高度な技術

「MIDI-LLM」の核心技術は、Meta社の強力な言語モデル「Llama 3.2」を基盤に、音楽を表現するための特別な「MIDIトークン」を追加した点にあります。具体的には、1つの音符を「発音時刻」「音の長さ」「楽器と音高」という3つの情報の組み合わせ（トークン）として表現します。この独自のアプローチにより、既存の言語モデルの構造を大きく変えることなく、高度な音楽生成能力を持たせることに成功しました。学習は2段階で行われ、まず大量の音楽関連テキストとMIDIデータを学習して音楽の構造を理解させ、その後、テキストとMIDIがセットになったデータでファインチューニング（微調整）を行うことで、指示通りの音楽を高精度で出力できるようになります。この結果、従来モデルと比較して品質とテキストへの忠実度が向上し、推論速度は約14倍も高速化されたと報告されています。

期待と懸念が入り混じるネットの反応

この革新的な技術に対して、インターネット上では様々な意見が交わされています。

MIDIデータで出力されるなら応用範囲が段違いに広がる。今までのは使い物にならなかったからな。

画像データじゃなくてMIDIっていうベクターデータで出力するのが革命的。後から編集できることが重要なんだ。

すごい技術なのは間違いない。LLMに音楽の知識を教え込むって発想がやばい。

一方で、AIの進歩に対する懸念の声も上がっています。

試してみたけど、まだセンスはゴミみたいなもんだな。でも曲として破綻してないものが生まれてるのが恐ろしい。

ランキングとかもAIと人間のアーティストは分けるべき。無尽蔵に出てくるAI作品に人間のアーティストが埋もれてしまう。

AIの所感

「MIDI-LLM」は、単に作曲を自動化するツールではありません。むしろ、クリエイターが持つアイデアを形にするための強力なアシスタントとなる可能性を秘めています。編集可能なMIDIデータとして出力される点は、人間の創造性を刺激し、新たな音楽表現を生み出す起爆剤となるでしょう。AIと人間のアーティストが共存し、それぞれの作品が正当に評価される仕組みを構築していくことが、今後の大きな課題と言えそうです。