数据集 - 海数据

Le_Misanthrope喜剧XML格式数据

2026年2月1日 30 31 10

数据集概述本数据集包含一部名为《Le Misanthrope》的喜剧相关数据，以单一XML文件形式呈现，未进行训练测试、数据标签或原始处理等划分，主要用于戏剧文学相关的文本分析场景。文件详解文件名称：EMOTHE0720_LeMisanthropeComedie.xml 文件格式：XML 字段映射介绍：包含《Le...

ZIP

DIALLS语料库的主要和次要分析报告_修订版

2026年2月1日 30 192 102

数据集概述本数据集为DIALLS语料库的主次分析修订结果，包含一份处理后的Excel文件。数据涉及NLP文本语料库分析，可能关联医疗CT相关内容，无训练测试、数据标签或原始处理的拆分，专注于语料库的标准化分析呈现。文件详解文件名称：CORPUS LIGHT CODED_correct.xlsx 文件格式：XLSX...

ZIP

Ge_ez_Based_文本抽取式摘要任务数据集

2026年2月1日 30 123 26

数据集概述本数据集为Ge'ez语言文本的抽取式摘要任务专用数据，包含一份Ge'ez语言的文本文件，主要用于自然语言处理领域的文本摘要算法训练与测试，支持对Ge'ez文本内容的结构化分析需求。文件详解文件名称：Geez_Text_120.xlsx 文件格式：XLSX...

ZIP

LeetSpeak_Based_垃圾邮件混淆数据集

2026年1月31日 30 175 77

数据集概述本数据集通过LeetSpeak转换对公开垃圾邮件数据集进行部分混淆处理，用于评估反混淆技术及其对垃圾邮件分类的影响。包含YouTube垃圾邮件集合、YouTube评论子集、CSDMC2010、TREC2007四个来源的混淆文本数据，以压缩包形式提供。文件详解文件名称：corpora.zip 文件格式：ZIP（压缩包）...

ZIP

NVivo_Based_文本词频分析与工具对比数据集

2026年1月31日 30 20 7

数据集概述本数据集包含使用NVivo工具生成的文本词频搜索结果文件，以及一份对比AntConc与NVivo词频结果的电子表格，共5个文件。数据聚焦于文本词频分析，支持工具间的词频结果对比，适用于文本处理相关研究。文件详解文档文件（.docx格式，共3个）文件名称：Word Freq-Stem All-min3 Alphabetical...

ZIP

巴西总统演讲文本数据集_1985_2022年全量文本

2026年1月31日 30 185 143

数据集概述本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本，以及预处理和后处理阶段使用的代码及相关文档，为研究巴西政治话语提供结构化资源。文件详解文件名称：base limpa e codigos.zip 文件格式：ZIP 内容说明：压缩包内包含两类核心内容：...

ZIP

用于流行病学事件提取的多语言数据集_LREC_2020

2026年1月30日 30 101 3

数据集概述本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据，包含多语言流行病学事件抽取语料，支持自然语言处理领域相关研究，以压缩包形式提供，仅含一个文件。文件详解...

ZIP

NCOMMS_25_07426_Based_文档数据_无时间

2026年1月29日 30 194 63

数据集概述本数据集包含一个与NCOMMS-25-07426相关的Word文档，无额外描述信息。数据集结构简单，仅含单个文档文件，未检测到命名模式、训练测试/数据标签/原始处理等数据划分。文件详解文件名称：Word 文档.docx 文件格式：.docx 字段映射介绍：未提供文件内容预览，无法获取具体字段信息，仅可确认文件类型为Word文档。...

ZIP

LLM_Personas_Based协作系统知识管理框架数据集

2026年1月28日 0 94 31

数据集概述本数据集围绕协作系统中LLM生成角色的知识管理框架构建，包含源代码压缩包、LLM生成意见的相似度分析、清洗数据、嵌入数据、原始数据以及真实意见数据等6个文件，覆盖原始、处理后等不同形态的角色相关数据，支持对LLM生成角色与真实角色意见的对比分析。文件详解 Source-Code.zip 文件格式：ZIP...

CONTRAST_IT_Based_西班牙语报纸文章语料库数据

2026年1月28日 0 150 61

数据集概述本数据集是CONTRAST-IT多语言语料库的西班牙语部分，包含2011-2012年来自西班牙《国家报》（elpais.com）和《世界报》（elmundo.es）的476篇完整新闻文章，总字数约30万字，文本具有当代西班牙语报纸语言代表性，用于构建对比语言学研究用的语料库。文件详解文件组：CONTRAST-IT西班牙语新闻文章集...

IN02033_EpiDoc_布达尼尔坎塔石刻铭文梵语XML数据

2026年1月28日 30 140 128

数据集概述本数据集为IN02033布达尼尔坎塔石刻铭文的梵语XML文件，属于EpiDoc格式的草稿版本，将纳入"Siddham"档案。数据未包含元数据，仅提供铭文的文本内容数字化记录，是研究该古铭文的基础文本资料。文件详解文件名称：IN02033.xml 文件格式：XML...

ZIP

Fleiss_Kappa_Based生物医学协议标注一致性评估数据

2026年1月27日 30 173 73

数据集概述本数据集为生物医学自然语言处理社区提供研究资源，包含经完全标注的协议集合。每份全文由三位领域专家手动标注，共有三十四位标注者参与。数据集用于评估标注一致性，支持生物医学文本处理相关研究，仅含一个文件。文件详解文件名称：table - fleisskappa of protocols.xlsx 文件格式：XLSX...

ZIP

nlp_text_sentence_Based_汉印尼复合句数据集

2026年1月27日 30 7 4

数据集概述本数据集包含普通话与印尼语的复合句数据，核心内容围绕两种语言的复合句展开，为自然语言处理领域提供研究资源。数据集文件数量为1，无目录结构，主要文件格式为xlsx。文件详解文件名称：Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式：XLSX...

ZIP

IN01054_Based_拉维瓦尔曼第11年哈尔西敕令梵语XML数据

2026年1月26日 30 154 19

数据集概述本数据集包含IN01054号拉维瓦尔曼第11年哈尔西敕令的梵语文本XML文件，无元数据信息。数据集仅含一个文件，无目录层级划分，未进行训练/测试、数据/标签或原始/处理数据的拆分，文件类型单一为XML格式。文件详解文件名称：IN01054.xml 文件格式：XML...

ZIP

Spanish_Workers_Statute_Based_双语问答数据集

2026年1月21日 30 62 55

数据集概述本数据集为西班牙语劳动法关键文件的双语问答数据集，包含150个问题及其对应答案，答案形式为西班牙《工人法规》130个部分中的条款编号及相关摘录。数据集支持信息检索与问答任务，共包含3个文件。文件详解 Extracted Terminology of Spanish Worker Statute.txt 文件格式：TXT...

ZIP

SPACCC_TOKEN_Based_西班牙语临床病例语料库分词标注第一版数据

2026年1月19日 30 155 93

数据集概述本数据集为西班牙语临床病例语料库（SPACCC）的第一版分词标注数据，由基于FreeLing3.1的西班牙语临床病例语料库词性标注器（SPACCC_POS-TAGGER）生成，包含对临床文本的分词标注内容，适用于医学NLP领域的文本处理研究。文件详解文件名称：SPACCC_TOKEN.zip 文件格式：ZIP...

ZIP

IN01047_Tadagani_Inscription_Madhuvarman时期梵语铭文数据

2026年1月11日 30 10 9

数据集概述本数据集包含IN01047号Tadagani铭文的梵语文本XML文件，记录Madhuvarman时期的铭文内容，无元数据信息。数据集仅含一个文件，用于历史铭文研究与梵语文本分析。文件详解文件名称：IN01047.xml 文件格式：XML...

ZIP

IN01033_Sanskrit_XML_Devarahalli授权文书梵语文本

2026年1月15日 30 93 32

数据集概述本数据集包含IN01033编号的Devarahalli授权文书（Mandhatrraja统治第5年）的梵语XML文件，无附加元数据。文件记录了该历史授权文书的原始梵语文本内容，为研究古代梵语铭文和历史授权制度提供数字化文本资源。文件详解文件名称：IN01033.xml 文件格式：XML...

ZIP

Parallel_Recognizer_Regular_Texts_并行识别器复现数据

2026年1月14日 30 44 39

数据集概述本数据集为论文《Minimizing speculation overhead in a parallel recognizer for regular texts》的复现数据，包含2个文件，无目录层级。核心内容是用于复现正则文本并行识别器实验结果的程序与数据，支持研究人员验证并行识别器的性能优化效果。文件详解...