LLM Tuning - 搜索 News

4 天

为了提高性能，新技术使用了多代理辩论（Multiagent Debate）的概念，即：由多个 LLM ...

在LLM模型post-training中，仅使用强化学习（reinforcement learning，RL）提升模型推理能力，不再依赖有监督微调训练（supervised fine-tuning，SFT）。证明了LLM模型具有自行探索长思维链（chain-of-thought，COT）的能力。端侧模型（小模型）推理能力提升相对于使用RL进行 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点