近日,上海AI ...
研究团队首先观察到长推理模型频繁切换思路的现象,并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题,研究团队引入了一种新颖的思考不足指标,为推理效率低下提供了量化评估框架。同时,研究团队提出了一种缓解思考不足的简单有效方案 —— ...
总的来说,上海 AI Lab 的研究成果不仅为数学推理方向的研究提供了一条崭新的路径,更向业界展示了强化学习在实际应用中的无限潜力。通过不断探索与创新,AI技术的未来将更加光明,而被追求的“超越”也将不再只是理想。 返回搜狐,查看更多 ...
从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如 DeepSeek-R1 的情况下, 就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 ...
然而,虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上却显示出显著的下降。 这说明TTS在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。
梦晨 发自 凹非寺量子位 | 公众号 QbitAI 倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版,7B反超671B。
TPO团队 投稿量子位 | 公众号 QbitAI 随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO ...
据悉,上海AI ...
来自MSN11 小时
腾讯到底有没有AGI梦想?已知 DeepSeek 不融资,腾讯在没有投的情况下全系产品接入 DeepSeek-R1,说明两点: 1.腾讯把 DeepSeek 当成自家 AI Lab 了,反正都是开源; 2.DeepSeek ...
数据合成技术作为一种新颖高效的数据生成策略,逐渐成为研究热点,并在模型迭代过程中扮演着关键角色。 上海AI Lab研究团队的Condor数据合成主要 ...
最近,来自上海AI Lab的研究团队针对合成数据技术展开研究,提出了SFT数据合成引擎Condor,通过世界知识树(World Knowledge Tree)和自我反思(Self-Reflection)机制,探索合成海量高质量SFT数据的方案。 仅使用20K合成数据,就能让Qwen模型能力飙升—— 模型主观对话 ...
模型主观对话能力显著提升,还能实现模型自我迭代。 合成数据大法好! 最近,来自上海AI Lab的研究团队针对合成数据技术展开研究,提出了SFT数据合成引擎Condor,通过世界知识树(World Knowledge Tree)和自我反思(Self-Reflection)机制,探索合成海量高质量SFT数据 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果