Anthropic は今週、Claude 3.5 Sonnet をリリースしました。これは、今後リリースされる Claude 3.5 モデル ファミリーの最初のリリースです。特に、Claude 3.5 Sonnet は、大学院レベルの教育に通常関連する複雑な推論と知識の応用をテストし、さまざまな分野にわたる高度な学術的理解を評価するように設計された、大学院レベルの熟練度質問応答 (GPQA) 評価で優れています。このテストでの博士号取得者の平均スコアは 34%、専門分野の博士号取得者は約 65% ですが、Claude 3.5 Sonnet は 67.2% という素晴らしいスコアで記録を樹立しました。