搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按相关度排序
按时间排序
14 小时
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。
来自MSN
3 天
清华、智谱团队:探索 RLHF 的 scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而,目前关于 RLHF 的 ...
腾讯网
2 天
科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10% ...
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from ...
腾讯网
5 天
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct ...
36氪
3 天
清华、智谱团队:探索 RLHF 的 scaling laws
RLHF 的 scaling 效率要低于预训练。 基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求 ...
虎嗅网
24 天
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞
本文来自微信公众号:量子位,作者:梦晨、西风,原文标题:《翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看》,题图来自:AI生成 之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。 当然是发~博~客。
头部财经
1 天
OpenAI新安全对齐法:深思熟虑对齐,让AI更安全可控?
近期,OpenAI的研究团队宣布了一项名为“深思熟虑的对齐”的创新技术,旨在提升人工智能模型的安全性,特别是在大型语言模型(LLMs)领域。这项技术已经在o系列模型中得到了成功应用,并显示出显著的成效。
来自MSN
25 天
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
她强调奖励黑客行为在大模型的RLHF训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。 在我看来,这是现实世界部署更多自主AI模型应用 ...
16 小时
15大机构十年研究证明:无约束AI必然超越人类,创造能力也更强!
最近,来自东南大学、哈佛医学院、新加坡国立大学、新加坡南洋理工大学、新加坡国立脑科学研究院、清华大学、中山大学等多达15个顶尖机构的研究人员联合发表了一篇论文,在理论上证明了AI超越人类的可能性,即通过结合神经科学中的新型AI技术,可以创建出一个新的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈