hunts - 搜索 News

1 天

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

在 ENIGMAEVAL 基准上，研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示，包括 OpenAI o1 在内等 SOTA 模型在普通谜题（Normal）上的准确率最高仅为 7.0% ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果