搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按相关度排序
按时间排序
1 天
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。
来自MSN
5 天
清华、智谱团队:探索 RLHF 的 scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而,目前关于 RLHF 的 ...
腾讯网
6 天
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct ...
36氪
4 天
清华、智谱团队:探索 RLHF 的 scaling laws
RLHF 的 scaling 效率要低于预训练。 基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求 ...
腾讯网
3 天
科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10% ...
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from ...
19 小时
如何解决“国外一开源,国内就创新” AI治理与安全挑战?|钛媒体AGI
“网上有个说法,‘国外一开源,国内就创新’,自主创新基础不牢。大量国产模型采用国外的开源架构进行训练,由于国外的原生创新是用国外的语料进行训练,导致国内与国际的顶尖水平还有一定的差距。”潘锋谈到,AI行业“百模大战”之下,真正有竞争力的模型并不多,不 ...
虎嗅网
26 天
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞
本文来自微信公众号:量子位,作者:梦晨、西风,原文标题:《翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看》,题图来自:AI生成 之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。 当然是发~博~客。
头部财经
19 小时
如何解决“国外一开源,国内就创新” AI治理与安全挑战?
“网上有个说法,‘国外一开源,国内就创新’,自主创新基础不牢。大量国产模型采用国外的开源架构进行训练,由于国外的原生创新是用国外的语料进行训练,导致国内与国际的顶尖水平还有一定的差距。”潘锋谈到,AI行业“百模大战”之下,真正有竞争力的模型并不多,不 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈