西班牙国会发言标点检测数据集

西班牙国会发言标点检测数据集 数据来源:互联网公开数据
标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类

数据概述:
本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类:
1. 单词是否由疑问句或感叹句的开头符号“¿”或“¡”引导;
2. 单词是否由疑问句或感叹句的结尾符号“?”或“!”结束;
3. 单词是否属于疑问句或感叹句;
4. 单词是否由逗号(,)、分号(;)、句号(.)、省略号(...)或冒号(:)结尾;
5. 单词是否为大写。
数据集包含约百万级的标注样本,全部为西班牙语文本,适用于多种语言处理任务。

数据用途概述:
该数据集适用于自然语言处理领域的标点符号检测、文本分类、语法分析及语言模型训练等场景。研究人员可利用此数据集开发标点预测模型,优化文本处理算法;教育机构可将其用于语言学研究和教学,帮助学生理解西班牙语的语法结构和标点使用规则;企业可基于此数据集开发智能文本处理工具,提升西班牙语内容的自动化处理能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 38.29 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。