Rlhf - 搜索 News

14 小时

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

近年来，视觉-语言-动作模型（Vision-Language-Action, VLA）在诸多机器人任务上取得了显著的进展，但它们仍面临一些关键问题，例如由于仅依赖从成功的执行轨迹中进行行为克隆，导致对新任务的泛化能力较差。

来自MSN3 天

清华、智谱团队：探索 RLHF 的 scaling laws

基于人类反馈的强化学习（RLHF）是优化大语言模型（LLM）行为的关键技术，能够让模型更符合人类偏好和需求，提升生成质量。然而，目前关于 RLHF 的 ...

腾讯网2 天

科学家打造“变分偏好学习”技术，将AI偏好辨识准确率提高10% ...

娜塔莎·雅克（Natasha Jaques）是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间，她曾开发一种语言模型微调技术，后被用于 OpenAI 使用基于人类反馈强化学习（RLHF，Reinforcement Learning from ...

腾讯网5 天

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 !基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节，并持续获得研究界的广泛关注。本文将探讨RLHF技术，特别聚焦于直接偏好优化(Direct ...

36氪3 天

清华、智谱团队：探索 RLHF 的 scaling laws

RLHF 的 scaling 效率要低于预训练。基于人类反馈的强化学习（RLHF）是优化大语言模型（LLM）行为的关键技术，能够让模型更符合人类偏好和需求 ...

头部财经1 天

OpenAI新安全对齐法：深思熟虑对齐，让AI更安全可控？

近期，OpenAI的研究团队宣布了一项名为“深思熟虑的对齐”的创新技术，旨在提升人工智能模型的安全性，特别是在大型语言模型（LLMs）领域。这项技术已经在o系列模型中得到了成功应用，并显示出显著的成效。

来自MSN2 天

OpenAI被曝自研人形机器人，4年前因缺数据解散团队，如今要用机器人 ...

梦晨发自凹非寺量子位 | 公众号 QbitAI o3之后，OpenAI下一个项目曝光了：人形机器人这次不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司，也不只是算法团队搞机器人强化学习。

2 天on MSN

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。项目背景 ...

1 天

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

【新智元导读】 Anthropic联创发文表示，谁要是说Scaling Law撞墙了，那他绝对错了！在25年，AI靠测试时计算还会继续加速。不过，随之而来的推理成本也是天价，o3的每个任务成本高达20美元，怎么办？

腾讯网17 小时

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

在硅谷101号公路旁，谷歌总部以南不到十分钟车程的地方，坐落着一座不太起眼的博物馆。从这里向北眺望，能看到Meta的蓝色标志，向南远眺，是苹果的太空环。在科技巨头的包围中，像一位沉默的长者，注视着周围新旧交替的浪潮，记录人类文明最壮丽的生长。这里是计算机历史博物馆，在幽静的展厅里，一个古老的算盘和一段打着 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果