数据集 - 海数据

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

2026年1月22日 30 125 37

数据集概述本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...

ZIP

人工智能强化学习模型训练问答数据集

2025年8月18日 30 72 65

人工智能强化学习模型训练问答数据集_Artificial_Intelligence_Reinforcement_Learning_Model_Training_QA_Dataset 数据来源：互联网公开数据标签：强化学习, 自然语言处理, 问答系统, 模型训练, 文本生成, 数据集, 对抗训练, 奖励模型数据概述：...