数据集

阿拉伯语故事生成数据集

阿拉伯语故事生成数据集数据来源：互联网公开数据标签：MSA,叙事生成,阿拉伯语故事,故事生成,文本数据,自然语言处理,机器学习,故事创作数据来源：本数据集由不列颠哥伦比亚大学自然语言处理小组（UBC-NLP）整理发布，详细信息可参考其GitHub仓库：https://github.com/UBC-NLP/arastories.git。作者包括 Ahmed Oumar El-Shangiti、Fakhraddin Alwajih 与 Muhammad Abdul-Mageed，数据集已在相关学术研究中使用并被引用。

数据内容： AraStories 是一个专为现代标准阿拉伯语（Modern Standard Arabic, MSA）故事生成任务而设计的文本数据集。每条数据包含一个文本生成“提示”（Prompt）和其对应的完整“故事”（Story）。故事涵盖多种题材，来源多样，旨在为自然语言生成（NLG）、故事生成、语言建模等任务提供高质量语料支持。

字段定义：

Prompt：用于触发故事生成的阿拉伯语提示语句或问题，通常为简短的一句话。

Story：基于Prompt生成的完整阿拉伯语故事，文体各异，包含多个句子，体现了较高的语言丰富性与表达能力。

时间范围：该数据集为静态文本集合，不涉及时间戳信息；适用于跨时期泛化的语言建模与文本生成研究。

数据格式：结构化文本格式，通常为JSON或CSV文件，每行一条记录，包含Prompt与Story字段。可直接用于NLP模型的训练与评估。

更新频率：本数据集为一次性整理发布的数据，不定期更新。如需最新版本可关注项目GitHub页面。

适用场景：

阿拉伯语故事生成任务建模

自然语言生成（NLG）与预训练模型微调

跨语言文本生成与迁移学习研究

文本连贯性、情节推进等语言能力评估

阿拉伯语教育与语言文化分析

标签：阿拉伯语,文本生成,自然语言处理,故事生成,语言建模,MSA,跨语言学习,结构化文本,NLP数据集,教育与文化分析

数据与资源

阿拉伯语故事生成数据集.zipZIP
0.80 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.8 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

阿拉伯语故事生成数据集

数据与资源

附加信息

注册成功！