-
QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据
2026年1月22日 30 125 37
数据集概述 本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...
-
人工智能强化学习模型训练问答数据集
2025年8月18日 30 72 65
人工智能强化学习模型训练问答数据集_Artificial_Intelligence_Reinforcement_Learning_Model_Training_QA_Dataset 数据来源:互联网公开数据 标签:强化学习, 自然语言处理, 问答系统, 模型训练, 文本生成, 数据集, 对抗训练, 奖励模型 数据概述:...
-
大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator
2025年5月31日 30 35 22
大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator 数据来源:互联网公开数据 标签:大规模数据集,偏好数据,语言模型,人工智能,奖励模型,评论模型,机器学习,训练数据,教育,研究 数据概述:...



