MHA - 搜索 News

15 小时

太真实了! 越南大学生的真实生活,跟中国比差距大吗

太真实了! 越南大学生的真实生活,跟中国比差距大吗 ...

2 天

菲律宾6艘快艇冲击中国在仁爱礁建立起来的封锁线，下场悲惨

菲律宾6艘快艇冲击中国在仁爱礁建立起来的封锁线，下场悲惨 ...

4 天

DeepSeek的MLA架构：大模型迁移的新突破

在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络（Multi-head Latent Attention，MLA）架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA ...

腾讯网4 天

DeepSeek的MLA，任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 ...

证券之星股票频道 on MSN7 天

紫光国微（002049）3月3日主力资金净卖出5531.30万元

证券之星消息，截至2025年3月3日收盘，紫光国微(002049)报收于61.8元，上涨0.24%，换手率1.92%，成交量16.3万手，成交额10.14亿元。

腾讯网11 天

MHA/MQA/GQA过时了？姚班TPA改写规则：一个框架统治所有注意力设计

T6一经发布便引发各界热议。创业者们惊喜地发现，借助TPA技术，能大幅降低云服务成本；研究者们则期待团队能在更大规模模型上开展实验，带来更多令人期待的成果。代码已上线始智AI-wisemodel开源社区，欢迎大家使用。

12 天

2025清华MHA复试备考常见问题解读！

2024年清华MHA复试中有政治笔试，政治笔试考核方式为开卷（不得使用电子设备），考试时间为120分钟，评分等级为A、B、C、F，其中F为不合格。政治考试不合格者，将不予录取。

中华网新闻频道13 天

算法冲破算力瓶颈 DeepSeek继续开源推动AI普及与发展

2月24日和25日，DeepSeek先后宣布开源了FlashMLA代码和DeepEP通信库，致力于推动大模型的开源化进程。DeepSeek-R1模型的问世与开源为大模型行业带来了新的希望，特别是在算力瓶颈方面。与其他厂商不同，DeepSeek不仅追求 ...

腾讯网13 天

北青：中国足协基本放弃申办2031年男足亚洲杯

据报道，由于本届赛事申办期至本月底截止，因此中国足协基本不会申办该届赛事。

14 天

清华大学MHA去年各分数段淘汰率？

基于去年分数分布模型预测：今年考生成绩将集中分布于185-195分核心区间，同分竞争加剧可能导致淘汰率整体上浮。分差容错空间进一步缩小，单分价值显著提升，建议考生精准提升薄弱环节。

来自MSN14 天

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3% | 邱锡鹏团队联合出品

一水发自凹非寺量子位 | 公众号 QbitAI DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！而且只需原始数据的0.3%~0.6%。这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出，复旦教授邱锡鹏（Moss大模型项目负责人）也在作者名单之列。他们提出了MHA2MLA这种数据高效的微调方法，使基于MHA（多头注意力）的大语言模型（ ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果