たねやつの木

Photographs, Keyboards and Programming

Anthropicの新モデル「Sonnet 4.5」登場!海外Redditでの反応まとめ

Anthropicが新しいAIモデル「Sonnet 4.5」をリリースしました。このニュースは海外の技術コミュニティで早速話題となっています。

この記事では、特に海外掲示板RedditのAI関連コミュニティで、Sonnet 4.5がどのように受け止められているのか、その初期評価や反応をまとめてご紹介します。

この記事でわかること

  • Sonnet 4.5の主な特徴
  • 海外ユーザーによる初期評価(特にコード生成について)
  • 他の主要モデル(GPT-5など)との比較に関する意見

Redditでの主な反応

今回参考にしたのは、Anthropicの公式Subredditに投稿された「Sonnet 4.5 is available now!」というスレッドです。多くの開発者やAIユーザーから、早速様々なフィードバックが寄せられていました。

コード生成能力の向上に期待の声

最も多くのコメントが集中していたのが、コード生成能力の向上に関するものでした。

  • 「以前のSonnetやOpusよりも明らかに改善されている」
  • 「コード生成に関しては、GPT-5に匹敵するか、それ以上かもしれない」

など、特にプログラミングタスクにおける性能向上を評価する声が目立ちました。これまで他のモデルを使っていたユーザーからも、Sonnet 4.5を試す価値がありそうだという期待が寄せられています。

速度と生産性の高さ

Sonnetシリーズは元々、性能と速度のバランスを重視したモデルですが、Sonnet 4.5もその特徴を継承しているようです。

レスポンスが高速であるため、対話形式での開発やコーディング作業がスムーズに進む点が高く評価されており、「生産性が高い」という意見が見られました。

大規模・複雑なタスクへの懸念

一方で、手放しで絶賛されているわけではありません。特に、より複雑で大規模なプロジェクトへの適用については、いくつかの懸念点が指摘されています。

あるユーザーは、「大規模なコードベースを扱う場合、GPT-5-Codexと比較すると、Sonnet 4.5は実装が不完全だったり、必要なテストコードが不足していることがある」とコメントしています。

単純なコード生成は得意でも、プロジェクト全体の文脈を理解した上での複雑なタスクには、まだ課題が残るのかもしれません。

他のモデルとの比較

多くのユーザーが、やはりOpenAIのGPTシリーズ、特に「GPT-5」やその派生モデルとの比較を行っています。

全体的な風潮としては、

  • 得意なタスク: コード生成や比較的単純なタスクでは、Sonnet 4.5が速度と性能の面で非常に競争力がある。
  • 複雑なタスク: より複雑なシナリオや大規模開発では、まだGPT-5-Codexのような特化モデルに分がある。

という見方が多いようです。

海外ユーザーの具体的な声(原文引用)

さらに、スレッドに寄せられた具体的なユーザーの声をいくつかピックアップしてご紹介します。

エージェントとしてのコーディング能力を絶賛する声

ユーザーPsecretPseudonym氏は、他のモデルが苦戦したタスクでの成功体験を詳細に語り、Sonnet 4.5を「エージェント的なコーダーとして最高かもしれない」と高く評価しています。

Just a few hours in, but on some tasks both gpt-5-codex and Opus 4.1 struggled with. It might be the best agentic coder out there — by a wide margin depending on what you care about. Really productive, fast, more deliberate and conscientious, less amnesia, a substantial drop in noticeable sycophancy so far. (...) The biggest thing I’m noticing is the quality is as good or better than gpt-5-codex and Opus 4.1, but it just thinks with more clarity and takes more deliberate actions more quickly, so it’s way, way faster at actually getting things done.

by PsecretPseudonym

大規模プロジェクトでの厳しい評価

一方で、ユーザーyagooar氏は、約20万行のウェブアプリケーションにファジー検索を実装させた際の比較体験を報告。Sonnet 4.5は高速だったものの、バグが多くテストもない不完全な実装に終わったと指摘。対照的に、GPT-5-Codexは時間はかかったものの、シニア開発者のような完璧な仕事をしたと結論付けています。

Sonnet 4.5 went really fast at ~3min. But what it built was broken and superficial. The code did not even manage to reuse already existing auth and started re-building auth server-side instead of looking how other API endpoints do it. Even re-prompting and telling it how it went wrong did not help much. No tests were written (despite the project rules requiring it).

GPT-5-Codex needed MUCH longer ~20min. Changes made were much more profound, but it implemented proper error handling, lots of edge cases and wrote tests without me prompting it to do so (project rules already require it). API calls ran smoothly. The entire feature worked perfectly.

My conclusion is clear: GPT-5-Codex is the clear winner, not even close.

by yagooar

ベンチマークでの性能低下を指摘する声

ユーザーredditisunproductive氏は、独自の推論テストの結果を共有。Sonnet 4.5は以前のSonnet 4やOpus 4.1と比較して、正解数が減りエラーが大幅に増加したと報告しています。「新しいClaudeモデルは非常に雑(super sloppy)で、細部への注意力が欠けている」と厳しい評価です。

I ran a reasoning test on the new Deepseek and Claude models, compared to old models. (...) Sonnet 4 (WebUI) 18 correct, 1 error Sonnet 4.5 (WebUI) 13 correct, 29 errors Opus 4.1 (WebUI) 42 correct, 16 errors (...) I'm not convinced we aren't still stuck in the era of "jagged uplift". It seems like new model typically perform worse in private benchmarks even as they push forward in other public benchmarks. In particular, the new Claude models are super sloppy.

by redditisunproductive

Claude特有の「お世辞」が消えた?

Claudeユーザーにはお馴染みの「You're absolutely right(あなたのおっしゃる通りです)」といった、やや過剰な同意の表現がなくなったことを喜ぶ声も複数見られました。

Oh also, “you’re absolutely right” is absolutely gone. 😂

by graymalkcat

最後に

今回登場したSonnet 4.5は、特にコード生成と速度の面で大きな進歩を遂げたモデルとして、多くの開発者から注目を集めていることがわかりました。

しかし、Redditの具体的な声を見ていくと、その評価は一様ではありません。「エージェントとして最高」という絶賛の声がある一方で、「大規模プロジェクトでは使い物にならない」「ベンチマークのスコアはむしろ悪化している」といった厳しい意見も存在します。

まだリリースされたばかりのモデル、今後どのような評価が定まっていくのか、引き続き動向を追っていきたいと思います。

参考・引用