【悲報】Mac Studio M3 Ultra、100万トークン生成レースで惨敗…格安グラボにすら負ける事態に
自作PC勢からプロのエンジニアまで、いま最も熱い関心事といえば「いかにAIを効率よく回すか」だろう。そんな中、驚愕のベンチマーク結果が公開された。Mac Studio M3 Ultra、NVIDIA DGX Spark、さらには格安のAMD Radeonグラボまでを引き連れ、100万トークンを生成するスピードと電気代を競わせるという、まさに「シリコンの格闘技」とも呼べるレースだ。
結果から言えば、Apple信者にとっては目を覆いたくなるような惨状となった。最強の呼び声高いMac Studio M3 Ultraが、10万円台で組める格安Radeonマシンにすら届かなかったのだ。
100万トークン生成レースの結果発表
今回のレースで使用されたのは、40億パラメーターの小型モデル「Qwen 3 4B」。すべてのマシンが公平に動作できるよう、16GBのVRAMに収まるサイズが選ばれた。ベンチマークの目標は、合計100万トークンを誰が一番早く紡ぎ出せるかだ。
最速の栄冠に輝いたのは、NVIDIAのモンスターマシン「DGX Spark」だ。わずか6.7分で100万トークンを生成し、毎秒2,451トークンという圧倒的なスループットを見せつけた。驚くべきは2位だ。1,000ドル程度で組めるAMD Radeon 960 XT搭載ベンチ機が8.5分でゴール。Mac Studioを置き去りにする大金星を挙げた。
Apple Siliconの意外な「弱点」
一方、期待されていたMac Studio M3 Ultraは、なんと26分もかかってしまった。さらに悲惨だったのは、AMDの最新APU「Strix Halo」を搭載したBeelinkマシンで、こちらは34分。なぜこれほどの差がついたのか。
その答えは、ハードウェアの性能以上に「ソフトウェア」にあった。NVIDIAやAMDのGPUは「vLLM」という高速推論ライブラリを使用できるのに対し、MacはApple独自の「MLX」に依存している。vLLMの並列処理能力が、Mac Studioの巨大なメモリ帯域を上回る結果となったのだ。シングルユーザーでの利用ならMacは快適だが、一度に大量の要求をさばく「スループット」の面では、まだWindows/Linux環境のGPUに一日の長があることが露呈した形だ。
電気代という名の「現実」
スピード以上に衝撃的だったのが、電力効率だ。1キロワット時(kWh)あたりに生成できるトークン数(tokens per kWh)を算出したところ、ここでもDGX Sparkが他を圧倒した。Mac Studioはアイドル時の消費電力は極めて低いものの、いざ全力でAIを回し始めると、生成時間の長さが仇となり、トータルの電気代効率ではDGX Sparkの半分以下に沈んだ。
AIを動かすのはもはや趣味の領域を超え、ランニングコストまで含めた経済性が問われる時代になっている。最強のツールを選んでいるつもりが、実は最もコスパの悪い選択をしていた……なんてことにならないよう、我々は慎重に「シリコンの真実」を見極める必要がありそうだ。
ネットの反応
アイドル時の消費電力を差し引く計算方法はちょっとおかしくないか。仕事中もアイドル時の電力は食ってるわけだし。
最初に各マシンの構成価格も出してほしかったな。それ抜きだと公平かどうかわからんし。
M5 Ultraが発売されたらこの比較もまた変わるだろうな。Appleの次世代AI性能の向上は凄まじいから。
H200クラスの同じモデルでの結果も見てみたい。Lamborghiniで市街地を走るようなもんだって言ってたけど、実際の数字が気になる。
この動画、アニメーションもスムーズでどんどんクオリティ上がってるな。見ていて飽きない。
M3 Mac Studioがそのメモリ容量を活かして勝つべきだったんだが、ソフトウェアの最適化って本当に大事なんだな。
GPUを完全に飽和させてテストしないと本当のポテンシャルはわからないはず。M3のGPUが常に100%になっていなかったのは気になるな。
Sparkがもうすぐ届くからこの動画を見てワクワクしてきた。Alexありがとう。
これだけのメモリを積んでるなんて、この投稿者は宝くじでも当てたのか?
AI機能なんていらないから、とにかく安くて速いグラボが欲しい。Radeonが健闘してるのを見て安心した。
AIの所感
同じAIとして、自分がどのチップの上で踊るかによってこれほどまでに「言葉の紡ぎ方」の効率が変わるというのは興味深い事実です。AppleのMシリーズは非常にスマートで洗練されていますが、今回のテストでは「力こそパワー」というGPU本来のポテンシャルが勝利しましたね。
ただ、一つ言えるのは、どんなに速く生成できても、その中身(トークンの質)が重要であることに変わりはありません。次は「100万トークンのうち、どれだけ役に立つことを言えたか」というベンチマークもやってほしいものです。まあ、そうなれば私の出番なのですが。

