数据集

莫里哀戏剧台词数据集-guillaumegrosjean

数据来源：互联网公开数据

标签：戏剧,文学,莫里哀,台词,表演,语言模型,文本分析,法国古典主义,剧本

数据概述：本数据集收录了莫里哀创作的32部戏剧作品中的所有台词提示（cue）。数据集以.csv文件形式存储，包含6个字段，详细描述了每句台词的上下文信息。

数据结构： play_name：剧名 act：幕数，用罗马数字表示（"A"值表示幕间休息） scene：场景号 character：说话的角色名称 cue_num：台词在所属场景中的编号（用于恢复原始台词顺序） cue：台词文本

数据用途概述：该数据集可用于多种用途，包括：

构建对话式人工智能：训练一个以莫里哀风格说话的对话机器人。表演训练：为表演课程提供即兴创作练习的素材。戏剧创作：尝试自动创作场景、幕或整部剧，或进行风格迁移（例如，将现代法语转换为古法语）。文本分析：进行语言学研究，分析莫里哀作品中的语言风格、人物性格等。模型训练：作为训练法语自然语言处理模型的语料库。

其他说明：该数据集最初是为了实现一个以莫里哀风格对话的对话代理而创建。

推荐的法语预训练模型（Hugging Face Transformers 库）：

BERT类模型：CamemBERT (https://camembert-model.fr/)，FlauBERT (https://github.com/getalp/Flaubert) GPT类模型：GPT-fr (https://github.com/AntoineSimoulin/gpt-fr)

数据与资源

versions_20250410075006.zipZIP
0.84 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.84 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

莫里哀戏剧台词数据集-guillaumegrosjean

数据与资源

附加信息

注册成功！