阿拉伯语故事生成数据集
数据来源:互联网公开数据
标签:MSA,叙事生成,阿拉伯语故事,故事生成,文本数据,自然语言处理,机器学习,故事创作
数据来源:
本数据集由不列颠哥伦比亚大学自然语言处理小组(UBC-NLP)整理发布,详细信息可参考其GitHub仓库:https://github.com/UBC-NLP/arastories.git。作者包括 Ahmed Oumar El-Shangiti、Fakhraddin Alwajih 与 Muhammad Abdul-Mageed,数据集已在相关学术研究中使用并被引用。
数据内容:
AraStories 是一个专为现代标准阿拉伯语(Modern Standard Arabic, MSA)故事生成任务而设计的文本数据集。每条数据包含一个文本生成“提示”(Prompt)和其对应的完整“故事”(Story)。故事涵盖多种题材,来源多样,旨在为自然语言生成(NLG)、故事生成、语言建模等任务提供高质量语料支持。
字段定义:
Prompt:用于触发故事生成的阿拉伯语提示语句或问题,通常为简短的一句话。
Story:基于Prompt生成的完整阿拉伯语故事,文体各异,包含多个句子,体现了较高的语言丰富性与表达能力。
时间范围:
该数据集为静态文本集合,不涉及时间戳信息;适用于跨时期泛化的语言建模与文本生成研究。
数据格式:
结构化文本格式,通常为JSON或CSV文件,每行一条记录,包含Prompt与Story字段。可直接用于NLP模型的训练与评估。
更新频率:
本数据集为一次性整理发布的数据,不定期更新。如需最新版本可关注项目GitHub页面。
适用场景:
阿拉伯语故事生成任务建模
自然语言生成(NLG)与预训练模型微调
跨语言文本生成与迁移学习研究
文本连贯性、情节推进等语言能力评估
阿拉伯语教育与语言文化分析
标签:阿拉伯语,文本生成,自然语言处理,故事生成,语言建模,MSA,跨语言学习,结构化文本,NLP数据集,教育与文化分析