なんかイロイロ読んでて Rapid-MLX やめました。ヤツは確かに速い。しかし速いだけだった。耐性がまるでない。
時代は vllm-mlx ですよ。知らんけど。
KV Cache がどこまで効くのやら
Rapid-MLX は確かに速かったのですが、Max Tokens の設定値を無視したリクエストを拒否せず受け入れ、結果捌ききれずパンクするという致命的なバグがありました。
それだけじゃない。トークンを圧縮したり再利用したりする仕組みが無いから、速いんだけど耐性がない(すぐパンクする)という問題が顕著化しました。
思考の /dev/null
Rapid-MLX は確かに速かったのですが、Max Tokens の設定値を無視したリクエストを拒否せず受け入れ、結果捌ききれずパンクするという致命的なバグがありました。