Mac Studioクラスター vs M3 Ultra：Apple Siliconでの機械学習性能

2025/07/12

このビデオでは、機械学習タスク、特に大規模言語モデル（LLM）におけるMac StudioクラスターとM3 Ultraの性能について探求しています。

主なポイント：

Apple Siliconの利点： ハイエンドのNvidia GPUほど高速ではありませんが、Mac StudioのようなApple Silicon Macは、豊富なメモリ、電力効率、CPUとGPU間の共有メモリを提供し、大規模モデルをローカルで実行するのに適しています。
クラスタリングのためのMLX Distributed： MLX Distributedは、Apple Silicon向けのCUDAに対するAppleの回答であり、機械学習モデルをMacのクラスター全体で実行できるようにします。これにより、単一のマシンでは対応できない大規模なモデルを処理できます。
パフォーマンスのスケーリング：
- 単一のM4 Max（128GB）は、700億パラメータのモデルを実行できます。
- 複数のMac Studio（M4 Max）をクラスタリングするとパフォーマンスが向上しますが、オーバーヘッド（MPIによるネットワーク通信など）のため、スケーリングは線形ではありません。
- M3 Ultra（512GBユニファイドメモリ）は、非常に大規模なモデル（例：Deepseek R1 4ビット、407GB）で印象的なパフォーマンスを発揮し、1秒あたり19トークンを達成します。これは、単一の128GB M4 Maxではクラッシュするようなモデルも処理できます。
不均一な分散の課題： 非常に大規模なモデル（例：Deepseek V3、750GB）を、メモリ容量が異なるクラスター（例：128GBのMac Studioと512GBのM3 Ultra）に分散させることは、メモリ割り当てとパフォーマンスの最適化において課題を提示します。ビデオでは、メモリに基づいてレイヤーをマシンに手動で割り当てるための努力が詳しく説明されています。
イーサネット vs Thunderbolt： Thunderboltは初期モデルのロードにおいて高速なデータ転送を提供しますが、イーサネットは一般的にセットアップが容易で、より柔軟で、継続的なクラスター通信においてより安定しています。
クラスタリングの正当性： クラスタリングは、単一のマシンには大きすぎるモデルに最も有益です。小規模なモデル（300億〜700億パラメータ）は、単一の128GBマシンで快適に実行できます。