Chinchilla - 搜索 News

3 天

苹果研究者认为，该发现降低了大规模使用蒸馏的风险，现在我们可以基于此优化教师和学生模型的计算分配，以最大化学生模型的性能。该工作提供的计算最优的蒸馏方案适用于两种情况：1）已有教师模型，或 2）需要训练教师模型。

17 天

郭明錤：DeepSeek 加速生成式 AI 产业迈入新阶段，优化训练引发算力变革

在生成式 AI 日益普及的今天，新的创新技术将推动行业进入更加多元化的阶段。近日，天风国际证券分析师郭明錤发布报告指出，DeepSeek-R1 的发布是这一趋势的催化剂，它不仅揭示了 AI 算力的升级路径，也为 AI 应用的多样化奠定了基础。

17 天

解密DeepSeek：加速生成式AI产业新阶段的突破与机遇

在近日发布的报告中，天风国际证券分析师郭明錤指出，随着DeepSeek-R1的推出，生成式AI产业正在迈入新的阶段，两个重要的趋势正在显现。首先，虽然Scaling ...

来自MSN6 天

S型智能增长曲线：从Deepseek R1看Scaling Law的未来

Scaling Law过去是、现在是、将来也会继续是推动大模型快速发展的第一动力，我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的：只要目前Scaling ...

腾讯网15 天

DeepSeek背后的技术基石：DeepSeekMoE基于专家混合系统的大规模语言模型 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 !DeepSeekMoE是一种创新的大规模语言模型架构，通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略，在模型效率与计算能力之间实现了新的平衡。DeepSeekMoE架构融合了专家混合系统(MoE)、多头潜在注意力机制(Multi-Head Latent ...

知乎 on MSN4 天

Scaling Law要撞墙了吗？如何找到基座大模型的未来方向？

IT之家17 天

郭明錤：DeepSeek 加速生成式 AI 产业迈入新阶段

然而，Scaling law 的边际效益正逐渐递减，这让市场更加关注 DeepSeek 通过 Scaling law 以外的方式显著提升模型效益。最常被引用之一的 Chinchilla 的 Scaling law 指出，AI 模型性能由模型参数量 (N)、训练数据量 (D) 与运算能力 (C) 三者决定，最理想的情形是 N、D 与 C 同时 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果