近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。 继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。 与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。 这个「不走寻常路」如果写 ...