-
北萨米语广播字幕语料库_2021_2024
2026年2月1日 30 138 121
数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
-
FrankensteinVariorum_기반_메리_셸리_프랑켄슈타인_텍스트_변이_교육용_데이터
2026年1月3日 30 174 58
数据集概述 本数据集是《数字人文学的引路人》第1章的教育用示例文件,包含玛丽·雪莱小说《弗兰肯斯坦》1818年初版与1831年修订版之间的文本变异,以多种数据格式结构化呈现。数据集分为“基础示例”和“深化示例”两类,共8个文件,旨在帮助学习者掌握人文学文本向计算机可分析数据的转换过程,理解数字版本基础并比较不同数据格式的特征。 文件详解...
-
俄语词义消歧语料库_RuSemCor
2025年12月23日 30 118 11
数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
-
NewsUnravel媒体偏见检测数据集2023
2025年12月21日 30 208 32
数据集概述 该数据集通过NewsUnravel网站的用户反馈机制收集,包含新闻文章中机器生成偏见高亮句的读者反馈数据,含偏见句子二元标签、文章元数据及用户反馈记录,用于提升媒体偏见检测模型性能,是首个媒体偏见领域人在回路数据收集应用的成果。 文件详解 该数据集包含6个文件,具体说明如下: - NUDAdataset.csv:...



