研究团队首先观察到长推理模型频繁切换思路的现象,并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题,研究团队引入了一种新颖的思考不足指标,为推理效率低下提供了量化评估框架。同时,研究团队提出了一种缓解思考不足的简单有效方案 —— ...
数据合成技术作为一种新颖高效的数据生成策略,逐渐成为研究热点,并在模型迭代过程中扮演着关键角色。 上海AI Lab研究团队的Condor数据合成主要 ...
书理 投稿自 凹非寺量子位 | 公众号 QbitAI 仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式—— ...
为解决这一问题,清华大学,香港大学和上海 AI Lab 联合提出了一种新的用于多模态大模型的位置编码方法 ——Variable Vision Position Embedding (V2PE ...
然而,虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上却显示出显著的下降。 这说明TTS在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。
品玩8月2日讯,据venturebeat 报道,Stable Diffusion 的原作者之一Robin Rombach近日宣布成立新公司Black Forest Lab,并发布了一系列新的图片生成模型。