Rlhf - 搜索 News

1 天

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

近年来，视觉-语言-动作模型（Vision-Language-Action, VLA）在诸多机器人任务上取得了显著的进展，但它们仍面临一些关键问题，例如由于仅依赖从成功的执行轨迹中进行行为克隆，导致对新任务的泛化能力较差。

头部财经2 天

OpenAI新安全对齐法：深思熟虑对齐，让AI更安全可控？

近期，OpenAI的研究团队宣布了一项名为“深思熟虑的对齐”的创新技术，旨在提升人工智能模型的安全性，特别是在大型语言模型（LLMs）领域。这项技术已经在o系列模型中得到了成功应用，并显示出显著的成效。

腾讯网3 天

科学家打造“变分偏好学习”技术，将AI偏好辨识准确率提高10% ...

娜塔莎·雅克（Natasha Jaques）是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间，她曾开发一种语言模型微调技术，后被用于 OpenAI 使用基于人类反馈强化学习（RLHF，Reinforcement Learning from ...

头部财经3 天

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。项目背景 ...

来自MSN3 天

OpenAI被曝自研人形机器人，4年前因缺数据解散团队，如今要用机器人 ...

梦晨发自凹非寺量子位 | 公众号 QbitAI o3之后，OpenAI下一个项目曝光了：人形机器人这次不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司，也不只是算法团队搞机器人强化学习。

腾讯网6 天

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 !基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节，并持续获得研究界的广泛关注。本文将探讨RLHF技术，特别聚焦于直接偏好优化(Direct ...

第一财经14 天

分享到微信

江旭曾在OpenAI担任资深算法负责人，是ChatGPT最重要训练算法RLHF的发明人之一，曾参与开发理解和执行人类指令的模型InstructGPT，以及强化学习方法 ...

51CTO19 天

突破！自然语言强化学习(NLRL)：一个可处理语言反馈的强化学习框架

在人工智能发展史上，强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题，从围棋、国际象棋到机器人控制等领域都取得了突破性进展。本论文由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者合作 ...

IT之家20 天

Meta 今年压轴开源 AI 模型 Llama 3.3 登场：700 亿参数，性能比肩 4050 亿

在架构方面，Llama 3.3 是一款自回归（auto-regressive）语言模型，使用优化的 transformer 架构，其微调版本使用了监督式微调（SFT）和基于人类反馈的强化学习（RLHF），让其与人类对有用性和安全性的偏好保持一致。 Llama 3.3 上下文长度为 128K，支持多种工具使用格式 ...

来自MSN21 天

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。在我看来，这是现实世界部署更多自主AI模型应用的主要障碍。尝试定义Reward Hacking 传统概念强化学习中，Agent利用奖励函数中的缺陷或模糊性来获得高额奖励 ...

51CTO22 天

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

Lilian Weng离职OpenAI后首篇博客发布！文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升，以及RLHF逐渐成为对齐训练的默认方法，奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。上个月刚刚离开 ...

电子工程专辑22 天

【光电智造】一文读懂「RLHF」：基于人类反馈的强化学习

因此，基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）应运而生，为模型的训练提供了一种新的思路。什么是RLHF？ RLHF是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果