搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 7 天
时间不限
过去 1 小时
过去 24 小时
过去 30 天
按相关度排序
按时间排序
14 小时
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。
来自MSN
3 天
清华、智谱团队:探索 RLHF 的 scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而,目前关于 RLHF 的 ...
腾讯网
2 天
科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10% ...
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from ...
腾讯网
5 天
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct ...
36氪
3 天
清华、智谱团队:探索 RLHF 的 scaling laws
RLHF 的 scaling 效率要低于预训练。 基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求 ...
头部财经
1 天
OpenAI新安全对齐法:深思熟虑对齐,让AI更安全可控?
近期,OpenAI的研究团队宣布了一项名为“深思熟虑的对齐”的创新技术,旨在提升人工智能模型的安全性,特别是在大型语言模型(LLMs)领域。这项技术已经在o系列模型中得到了成功应用,并显示出显著的成效。
来自MSN
2 天
OpenAI被曝自研人形机器人,4年前因缺数据解散团队,如今要用机器人 ...
梦晨 发自 凹非寺量子位 | 公众号 QbitAI o3之后,OpenAI下一个项目曝光了: 人形机器人 这次不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司,也不只是算法团队搞机器人强化学习。
2 天
on MSN
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。 项目背景 ...
1 天
Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速
【新智元导读】 Anthropic联创发文表示,谁要是说Scaling Law撞墙了,那他绝对错了!在25年,AI靠测试时计算还会继续加速。不过,随之而来的推理成本也是天价,o3的每个任务成本高达20美元,怎么办?
腾讯网
17 小时
码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望
在硅谷101号公路旁,谷歌总部以南不到十分钟车程的地方,坐落着一座不太起眼的博物馆。从这里向北眺望,能看到Meta的蓝色标志,向南远眺,是苹果的太空环。在科技巨头的包围中,像一位沉默的长者,注视着周围新旧交替的浪潮,记录人类文明最壮丽的生长。这里是计算机历史博物馆,在幽静的展厅里,一个古老的算盘和一段打着 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈