酒呑みガジェット

〜マニアックな視点 ガジェットまとめ〜

AI開発についてついに激進か!!

CUDA1強の時代ついに終焉か

AI開発一強といわれていたNvidia製GPUに特化されたCUDAだったのだが、昨今のDeepSeek登場により、必要性がなくなったとの報道があった。

これにより今までNvidia製グラフィックカードが必要とされていたのだが、ここの牙城がくずれることになる。

すでにMacでも..

Macにおける低コストで高いコストパフォーマンスが実現されている模様

DeepSeek が Apple にとって最適な理由は何ですか?

現在市場で DeepSeek V3 および R1 を実行できるチップの内訳は次のとおりです。
NVIDIA H100: 80GB @ 3TB/秒、25,000ドル、1GBあたり312.50ドル
AMD MI300X: 192GB @ 5.3TB/秒、20,000ドル、1GBあたり104.17ドル
Apple M2 Ultra: 192GB @ 800GB/秒、5,000ドル、1GBあたり26.04ドル(!!)

Apple の M2 Ultra (2023 年 6 月発売) は、メモリ 1 ユニットあたりのコスト効率が AMD MI300X の 4 倍、NVIDIA H100 の 12 倍です。

なぜこれが DeepSeek に関連するのでしょうか?
DeepSeek V3/R1 は合計 671B のパラメータを持つ MoE モデルですが、トークンが生成されるたびにアクティブになるのは 37B だけです。トークンを生成するときにどの 37B がアクティブになるかは正確にはわからないため、高速 GPU メモリにすべてを準備しておく必要があります。

通常のシステム RAM は、37B のアクティブ パラメータをロードするには遅すぎるため使用できません (1 秒あたり 1 キロバイト未満になります)。一方、GPU には高速メモリがありますが、GPU メモリは高価です。ただし、Apple Silicon は、Unified Memory と UltraFusion を使用してダイを融合します。これは、より安価なコストで大量の中速メモリを優先するトレードオフです。

統合メモリは、CPU と GPU にそれぞれ別個のメモリを用意するのではなく、CPU と GPU 間で単一のメモリ プールを共有します。CPU と GPU 間で別個のメモリを用意してデータをコピーする必要はありません。

UltraFusion は、2 つのダイを超高速、低遅延接続 (2.5TB/秒) で接続する Apple 独自の相互接続テクノロジーです。Apple の M2 Ultra は、文字通り 2 つの Apple M2 Max ダイを UltraFusion で融合したものです。これにより、Apple は大容量のメモリ (192 GB) とメモリ帯域幅 (800 GB/秒) を実現しています。

Apple M4 Ultra は、同じ UltraFusion テクノロジを使用して 2 つの M4 Max ダイを融合すると噂されています。これにより、M4 Ultra は 256GB (!!)の統合メモリを 1146GB/秒で実現します。このうち 2 つは、DeepSeek V3/R1 (4 ビット) を 57 tok/秒で実行できます。

Apple はこれらすべてを、優れた電力効率と優れたオープンソース (Apple らしくない!) ソフトウェアを備えた小型フォームファクタにパッケージ化して消費者に提供することに成功しました。MLX (h/t @awnihannun ) により、Apple Silicon を ML ワークロードに活用できるようになり、 @exolabs 、複数の Apple Silicon デバイスをクラスター化して大規模モデルを実行できるようになり、7 台の M4 Mac Mini で DeepSeek R1 (671B) が実行される様子が示されました。

誰が最高の AI モデルを構築するかは不明ですが、AI はアメリカのハードウェア、つまり Apple Silicon 上で実行される可能性が高いようです。

これにより株価にも影響か

見ての通りNvidia株がガッツリ下がっており、逆にAppleは上昇していることがわかる

-パソコン, 雑談
-, , ,