当前位置:首页|资讯|LLaMA|GPT-4|Claude

使用 DPO 微调 Llama 2

作者:HuggingFace发布时间:2023-08-22

简介 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback,RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1