莫里哀戏剧台词数据集-guillaumegrosjean
数据来源:互联网公开数据
标签:戏剧,文学,莫里哀,台词,表演,语言模型,文本分析,法国古典主义,剧本
数据概述:
本数据集收录了莫里哀创作的32部戏剧作品中的所有台词提示(cue)。数据集以.csv文件形式存储,包含6个字段,详细描述了每句台词的上下文信息。
数据结构:
play_name:剧名
act:幕数,用罗马数字表示("A"值表示幕间休息)
scene:场景号
character:说话的角色名称
cue_num:台词在所属场景中的编号(用于恢复原始台词顺序)
cue:台词文本
数据用途概述:
该数据集可用于多种用途,包括:
构建对话式人工智能:训练一个以莫里哀风格说话的对话机器人。
表演训练:为表演课程提供即兴创作练习的素材。
戏剧创作:尝试自动创作场景、幕或整部剧,或进行风格迁移(例如,将现代法语转换为古法语)。
文本分析:进行语言学研究,分析莫里哀作品中的语言风格、人物性格等。
模型训练:作为训练法语自然语言处理模型的语料库。
其他说明:
该数据集最初是为了实现一个以莫里哀风格对话的对话代理而创建。
推荐的法语预训练模型(Hugging Face Transformers 库):
BERT类模型:CamemBERT (https://camembert-model.fr/),FlauBERT (https://github.com/getalp/Flaubert)
GPT类模型:GPT-fr (https://github.com/AntoineSimoulin/gpt-fr)