DPO V.S. RLHF 模型微调

Подписаться 727

Просмотров 1,4 тыс.

50% 1

DPO 微调与 RLHF 比较，arxiv.org/abs/2305.18290，目前，DPO 在 Huggingface 排行榜上作为微调方法取得了很大的成功。从这个 DPO 树中已经衍生出现一些改进版本，如 IPO 和 cDPO，感觉一个 DPO 变种可能很快就会取代 RLHF。😊
DPO 微调方法允许在人类偏好数据上进行端到端学习，无需训练奖励模型，相比 RLHF（PPO）更简单、稳定、高性能且计算成本更低。
IPO - A General Theoretical Paradigm to Understand learning from Human Preferences. (arxiv.org/abs/2310.12036. 11/22/2023)
cDPO - Eric Mitchell, A note on DPO with noisy preferences & relationship to IPO(ericmitchell.ai/cdpo.pdf 11/25/2023)
0:00 介绍
00:44 Andrew NG
01:52 摘要
04:04 RLHF
07:22 RLHF reward model
09:13 RLHF reward model公式
13:30 RL Fine-tuning phase
15:31 DPO
21:03 DPO Objective
22:44 Theoretical Analysis of DPO
29:29 Experiments
32:50 Results
38:42 Discussion

Наука

Опубликовано:

16 июл 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 7

@fungpangfan8825 29 дней назад

❤🎉

@iwisher666 3 месяца назад

加油加油

@neurite001 5 месяцев назад

激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了

@AliceInAILand 5 месяцев назад

😄 我也是看到这么漂亮的证明满心欢喜；今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020

@theodoruszhou2692 4 месяца назад

Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work～

@AliceInAILand 4 месяца назад

Glad it was helpful :)

@user-bz5be9bj4k 2 месяца назад

能给数学并不好的人（我）解答一下吗？ RLHF和DPO的共同点都是preference对子，DPO不依赖于reward model和RL，那是不是说DPO的训练数据会少很多？因为preference也是人来评判的，没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用，或者bootstrapping的感觉。也很想知道，怎么把调整模型输出某个句子出现的概率转换成梯度的，最近看到一篇叫做KTO，说是不依赖preference对子，只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。如果可以，能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗？也希望节目时间能短一点。。。谢谢你！🤗