优化器选用了AdamW和Lion,以及它们对应的Cautious版本:C-AdamW和C-Lion,每个实验中进行1万步迭代。 尤其是在1B规模上,相比原版的AdamW和Lion,它们的样本效率分别提高了47%和28%,这表明Cautious ...
随着人工智能技术的飞速发展,越来越多的人开始把目光投向大型语言模型(LLM)的表现与个性。最近,加州大学伯克利分校进行了一项引人注目的研究,探索了不同大型模型间的性格差异,并采用类似于MBTI性格测试的方法来进行评估。这一研究的核心在于揭示:这些智能体是不是具备独特的个性?在当前的AI应用中,这一问题显得尤为重要。
Hello folks,我是 Luga,今天我们来聊一下 LLM(大型语言模型) 生态相关技术:Meta Llama 3.1,一个被称为世界上最大、最有能力、最先进的开源人工智能模型。     2024年,对于人工智能领域来说可谓意义非凡。继 ...
除了人类评审员,VibeCheck还调用了GPT-4o mini来评价不同大模型的回复,结果发现与人类的评估结果相符。也就是说,GPT-4o mini也能发现上述人类评审员总结的细微差异。
众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling ...
Meta首次尝试推出的AI项目并未取得显著进展。2022年11月,FAIR发布了名为Galactica的聊天机器人,它基于大语言模型构建,并接受了科学文本的训练。与以往的FAIR模型一样,Galactica也是以开源形式发布的,旨在让研究人员深入了解 ...
Meta 副总裁 John Hegeman 向外媒表示,全球风靡的 AI 热潮为企业商业部门带来了重要机遇,人们可以使用 AI 提高效率和改善客户体验,由史宗玮领导的人工智能商业部门团队将进一步 Llama 模型应用,协助 Meta 实现这一愿景。
【开源大模型Llama深度分析】带你梳理Llama开源家族:Llama1到Llama3.1演进及源码 ...
Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork ...
智东西11月1日消息,据外媒Wired报道,在周三的Meta第三季度财报电话会议上,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)透露,Llama 4模型正在一个由10万片H100 GPU组成的集群上进行训练,并预计在明年首次推出。 为了支持AI计划,Meta预计本年度资本支出将高达 ...
中新网 约翰内斯堡11月27日电 西非语言沃洛夫语和普拉尔语,撒哈拉以南地区非洲语言林加拉语、斯瓦希里语和班巴拉语等被纳入大语言模型开发视野。 法国电信公司Orange当地时间26日公布,其将与人工智能技术公司OpenAI、互动媒体与服务公司Meta合作,用非洲本土语言训练人工智能大模型。
机器之心原创编辑:杜伟、泽南没想到,技术发展得竟然这么快。最近,人们已经开始畅想 AI 时代后的生活了。上周末,摩根大通 CEO 杰米・戴蒙(Jamie ...