Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

发布时间：2024-10-19 18:32 浏览量：102

今日值得关注的大模型前沿论文Meta 提出思维偏好优化 TPO谷歌推出可穿戴基础模型 LSMMeta 推出媒体生成基础模型 Movie Gen康奈尔大学团队：从交互中回溯学习AgentOccam：基于 LLM 的网络智能体MLLM 能否理解中文图像背后的深意？可高效私密推理的纯 Softmax 大语言模型想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看“2024必读大模型论文”ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～Meta 提出思维偏好优化 TPO大语言模型（LLM）通常经过训练，能够回答用户问题或遵循指令，与人类专家的回答方式类似。然而，在标准对齐框架中，它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要，但也可用于任何任务。在这项工作中，来自 Meta 的研究团队及其合作者提出了思维偏好优化（TPO）方法，让现有的 LLM 具备这种思维能力，从而在不使用额外人类数据的情况下，进行一般指导。为此，他们采用迭代搜索和优化程序，探索可能的思维生成空间，让模型在没有直接监督的情况下学习如何思考。对于每条指令，候选思维都会使用一个法官模型进行评分，从而评估它们的反应，然后通过偏好优化进行优化。研究结果表明，这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩，而且除了更传统的推理和问题解决任务外，还能在市场营销、健康和常识等非推理类别的思考中发挥作用。论文链接：https://arxiv.org/abs/2410.10630

标签：

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

相似文章

资讯分类

相关品牌

热门资讯

热门标签

热门产品