こんにちは、たねやつです。
最近、オープンソースのLLM(大規模言語モデル)がすごい勢いで増えていて、どれを使えばいいのか迷ってしまいますよね。そんな中、海外の掲示板Redditで、なんと41個ものオープンソースLLMを個人のローカル環境でベンチマークしたという猛者が現れました!
18日間以上もかけて行われたこの壮大なプロジェクト、一体どんな結果になったのでしょうか。この記事では、その驚くべきベンチマークの内容と結果を詳しくご紹介します。
この記事でできること
- 41個のオープンソースLLMのベンチマークプロジェクトの概要がわかる
- ベンチマークで上位にランクインしたモデルがわかる
- ベンチマークに使用されたツールがわかる
壮大なベンチマークプロジェクト
今回紹介するのは、Redditユーザーu/ManyInterests氏による投稿です。彼は、41個のオープンソースLLMを、19の異なるタスクで評価し、その総合的なパフォーマンスをランキング化しました。
驚くべきことに、このベンチマークはすべてローカル環境で実行され、完了までに18日間以上もかかったそうです。GPUの使用状況や生データなど、詳細な結果はすべてGitHubで公開されています。
ベンチマークに使われたツール
ベンチマークには、Hugging Faceで公開されているモデルを直接評価できるlm-evaluation-harnessというライブラリが使用されました。これにより、統一された基準で各モデルの性能を測定できたようです。
気になるベンチマーク結果は?
注目のベンチマーク結果(トップ10)は以下のようになりました。
| Model Name | Total Time | GPU Use Time | Score | Rank |
|---|---|---|---|---|
| google_gemma-3-12b-it | 15h 45m | 14h 8m | 0.6038 | 1 🥇 |
| Qwen_Qwen3-14B (8bit) | 29h 45m | 17h 29m | 0.5961 | 2 🥈 |
| openchat_openchat-3.6-8b-20240522 | 7h 51m | 6h 59m | 0.5871 | 3 🥉 |
| Qwen_Qwen3-8B | 15h 31m | 13h 44m | 0.5859 | 4 |
| Qwen_Qwen2.5-7B-Instruct | 9h 36m | 8h 33m | 0.5788 | 5 |
| Qwen_Qwen2.5-14B-Instruct (8bit) | 52h 44m | 29h 32m | 0.5775 | 6 |
| 01-ai_Yi-1.5-9B | 11h 43m | 10h 26m | 0.5676 | 7 |
| Qwen_Qwen2.5-7B-Instruct-1M | 11h 17m | 10h 10m | 0.5672 | 8 |
| meta-llama_llama-3.1-8B-Instruct | 12h 19m | 10h 52m | 0.5653 | 9 |
| 01-ai_Yi-1.5-9B-Chat | 13h 54m | 12h 15m | 0.5621 | 10 |
堂々の1位に輝いたのはgoogle_gemma-3-12b-itでした!2位にはQwen_Qwen3-14B、3位にはopenchat_openchat-3.6-8b-20240522がランクインしています。
特に注目すべきは、8Bや7Bといった比較的小規模なモデルが、14Bなどのより大きなモデルと肩を並べて上位に食い込んでいる点です。これは、ローカル環境での実行において、性能とリソースのバランスが取れたモデルが非常に強力であることを示していますね。
一方で、より大規模なモデルや新しいモデルもテストに含めてほしいといった要望も寄せられており、今後の展開にも期待が高まります。
詳細なランキングや各モデルのスコアに興味がある方は、ぜひ元投稿やGitHubリポジトリをチェックしてみてください!
最後に
個人でこれだけの規模のベンチマークを実行するというのは、本当にすごい情熱ですよね!🤯 オープンソースLLMの世界は日々進化していますが、こういった有志による客観的な評価は、私たちが次に試すモデルを選ぶ上で非常に参考になります。
私も、この結果を参考にして新しいモデルを試してみたくなりました!