Meta提出思维偏好优化TPO;谷歌推出可穿戴基础模型LSM|大模型论文日报

发布时间:2024-10-19 18:32  浏览量:12

今日值得关注的大模型前沿论文Meta 提出思维偏好优化 TPO谷歌推出可穿戴基础模型 LSMMeta 推出媒体生成基础模型 Movie Gen康奈尔大学团队:从交互中回溯学习AgentOccam:基于 LLM 的网络智能体MLLM 能否理解中文图像背后的深意?可高效私密推理的纯 Softmax 大语言模型想要第一时间获取每日最新大模型热门论文?点击阅读原文,查看“2024必读大模型论文”ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~Meta 提出思维偏好优化 TPO大语言模型(LLM)通常经过训练,能够回答用户问题或遵循指令,与人类专家的回答方式类似。然而,在标准对齐框架中,它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要,但也可用于任何任务。在这项工作中,来自 Meta 的研究团队及其合作者提出了思维偏好优化(TPO)方法,让现有的 LLM 具备这种思维能力,从而在不使用额外人类数据的情况下,进行一般指导。为此,他们采用迭代搜索和优化程序,探索可能的思维生成空间,让模型在没有直接监督的情况下学习如何思考。对于每条指令,候选思维都会使用一个法官模型进行评分,从而评估它们的反应,然后通过偏好优化进行优化。研究结果表明,这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩,而且除了更传统的推理和问题解决任务外,还能在市场营销、健康和常识等非推理类别的思考中发挥作用。论文链接:https://arxiv.org/abs/2410.10630
标签:

外部推荐