「メモリ64GB」が20万円で手に入る破壊力
ローカルLLMで実用的な賢さを持つモデル(Llama 3 8BのQ8量子化や、さらに巨大な30B〜70Bクラスの軽量モデル)を快適に動かすには、最低でも32GB、できれば64GB以上のVRAM(Macではユニファイドメモリ)が必要です。
* Windows(NVIDIA)でVRAM 48GB環境を作ろうとした場合:
RTX 4090(24GB/約30万円)を2枚挿しするか、業務用GPU(RTX 6000 Ada等)を買う必要があり、グラボだけで数十万〜100万円超になります。さらに爆熱・大爆音・超消費電力のデスクトップPCを組まなければなりません。
* 最新のMacで64GB環境を作ろうとした場合:
M3 MaxやM4 Maxでメモリを盛る必要があり、Appleストアの新品価格ベースでは50万〜60万円コースになります。
これが、「すべてが揃った完成品の16インチMacBook Pro(しかもディスプレイもスピーカーも極上)」として、20万円ポッキリで手に入ってしまうわけです。コストパフォーマンスの次元が違います。
「M1 Maxが最新モデルより帯域が太い」という衝撃の事実
これがM1 Maxをいま選ぶ最大の理由です。ローカルLLMの推論速度(トークン生成速度)は、CPUやGPUの計算性能よりも**「メモリ帯域幅(データを引き出すスピード)」**に完全に依存します(メモリ帯域ボトルネック)。
* M1 Maxのメモリ帯域幅:400 GB/s
* M2 Pro / M3 Proのメモリ帯域幅:150 GB/s 〜 200 GB/s(実は半分近くにダウングレードされている)
* M4 Proのメモリ帯域幅:273 GB/s(これでもM1 Maxに届かない)
つまり、ローカルLLMを動かすという一点においては、**「4年前に出たM1 Maxのほうが、ここ1〜2年に出た最新の『Pro』グレードのMacよりも圧倒的に速くLLMが動く」**という逆転現象が起きています。M1 Maxより明確に上の帯域を持つのは、さらに高価な「Max」系(M2/M3/M4 Maxの400GB/s〜)か、「Ultra」系(800GB/s)しかありません。
Gemini がまとめました。
関西電気保安協会の「とんかつとんかつ KYK」が何か分からないって言ったら徳島の友人からURLが送られてくるなどした。
---
とんかつKYK - YouTube
https://youtu.be/TgqXRXZD3cY?si=E7zJGDojKmtPrkW2
@ichigaya2016 登山してきた。おつありー
@ef58 作る…?
実はただのデブ猫です。