GPQA是一组常用的具有挑战性的生物、化学和物理问题。 Claude 3.7 Sonnet 使用 256 个独立样本的等效计算、学习的评分模型和最大64 token的思维成本之下,取得了 84.8% 的 GPQA 分数(包括 96.5% 的物理子分数)。 Claude深夜重磅发布新模型—— Claude 3.7 Sonnet,首个混合 ...