-
数据集_100个中印尼商务词汇条目
2026年2月15日 30 203 163
数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
-
CuneiML_Based_楔形文字机器学习数据集
2026年2月9日 30 75 67
数据集概述 本数据集为楔形文字机器学习研究提供支持,包含38,947张楔形文字泥板照片的元数据、边界框信息,以及对应文本的音译和楔形文字Unicode编码。数据结构涵盖泥板正反两面的文字内容、地理来源、时间年代和文本类型等信息,适用于楔形文字的图像识别与文本分析任务。 文件详解 文件名称:CuneiMLv1.2.json 文件格式:JSON...
-
CONTRAST_IT_Based_西班牙语报纸文章语料库数据
2026年1月28日 30 64 53
数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
-
TextGrid_CC_BY_3_0授权_XML格式语料库数据
2026年1月28日 30 154 137
数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
-
WMT16_Based_Scielo生物医学翻译任务单语数据集
2026年2月8日 30 116 114
数据集概述 本数据集为第一届机器翻译会议(WMT'16)生物医学翻译任务提供的Scielo单语数据,包含英语、西班牙语、葡萄牙语、法语4种语言的生物医学相关文本,源自Scielo数据库,共7个XML文件,无目录层级划分。 文件详解 英文生物医学文件 文件名称:en-health.xml、en-biological.xml 文件格式:XML...
-
日琉方言_疑问文调查数据_2023_数据分卷
2026年2月1日 30 69 32
数据集概述 本数据集是日琉方言疑问文及疑问表现的调查工具与研究结果分卷,与同系列(1)共同构成完整数据集。内容包含方言疑问表现调查票、7个地区方言的调查结果(含部分音声数据)及相关研究论文,用于日琉方言疑问表现的描述与对照研究。 文件详解 文件名称:intr_20230323_2.zip 文件格式:ZIP...
-
dsfsi_Based非洲语言新闻语料库2022
2026年2月1日 30 27 4
数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
-
黑客马拉松_TF_TG_关系_注释_黄金标准语料库
2026年1月31日 30 171 5
数据集概述 本数据集为TF-TG关系标注黄金标准语料库,包含130个PMID对应的生物医学文献标注数据,以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究,提供原始摘要文本与BRAT格式的术语及关系标注文件,支持生物医学文本挖掘相关分析。 文件详解 压缩包文件 文件名称:TFTG_V3.zip 文件格式:ZIP...
-
Bangla_Based_孟加拉语信息检索测试集数据
2026年1月31日 30 209 161
数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
-
La_Pola_Siero_西班牙地图第三问方言语料数据
2026年1月30日 30 86 11
数据集概述 本数据集包含与“西班牙地图:第三问”相关的La Pola Siero方言语料,核心为1个docx格式文件,无目录结构及数据拆分,聚焦方言相关内容的记录与呈现。 文件详解 文件名称:Mapa de España.Pregunta3.docx 文件格式:docx 字段映射介绍:无明确字段划分,为单一文档文件,内容围绕“西班牙地图:第三问”的La...
-
DBNL_Based荷兰数字化图书OCR与校正文本数据集
2026年1月30日 30 36 5
数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
-
AED_TEI_Based_埃及长文本词汇排名位置值数据
2026年1月30日 30 16 8
数据集概述 本数据集包含埃及文本中词汇的排名位置值,仅覆盖超过100个词汇的文本。排名位置值通过词汇频率衡量其在文本内的相关性,为埃及学文本分析提供结构化词汇重要性参考。数据集含2个文件,以AED-TEI数据为基础。 文件详解 文件名称:readme.txt 文件格式:TXT...
-
La_Pola_Siero_西班牙地图_问题4_语料数据
2026年1月30日 30 21 4
数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
-
PaGA_12_Based_26类体裁德语文本分类语料库
2026年1月30日 30 74 54
数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
-
OWL_2_RL_Based_本体推理器基准测试语料库数据
2026年1月30日 30 107 69
数据集概述 本数据集是用于OWL 2 RL推理器基准测试的语料库,整合了Oxford Ontology、BioPortal、MOWLCorp三个来源的符合OWL 2 RL标准且TBox公理数≥100的本体数据,包含筛选后的本体及相关指标,支持语义网推理器性能评估。 文件详解 文件名称:owl2_rl_benchmark_corpus.zip...
-
XML_corpus_Based_文学文本XML语料库数据
2026年1月30日 30 20 18
数据集概述 本数据集为XML格式的文学文本语料库,包含席勒、莱辛、克莱斯特、歌德、蒂克等作家的作品,共56个XML文件,无目录层级结构,未划分训练/测试、数据/标签或原始/处理集,所有文件均为XML格式,其中5个含XML元数据。 文件详解 核心文件:...
-
SIMPITIKI_GITHUB_意大利语文本简化语料库数据
2026年1月29日 30 41 33
数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
-
詹姆斯_乔伊斯_尤利西斯_内部独白研究档案_相关文献补充材料
2026年1月29日 30 89 76
数据集概述 本数据集是提交给《Literature》期刊的论文《A Register-Based Study of Interior Monologue in James Joyce's Ulysses》的补充材料,包含1个压缩文件,为该文学研究提供额外支持资料。 文件详解 文件名称:SupMat.zip 文件格式:ZIP...
-
ERC_Cog_PROMENADE_Based_隐喻语料库数据集
2026年1月28日 30 17 5
数据集概述 本数据集是ERC_Cog PROMENADE项目WP1的隐喻语料库,由NEPLab收集整理,整合日常隐喻(464条)和文学隐喻(533条)两类实验研究数据,支持通过专用ShinyApp查询,共包含13个文件,可用于隐喻认知与神经语言学研究。 文件详解 文档文件(document_files) 文件名称:README archive.md...
-
金标准平行圣经_德语_英语新约文本_附带斯特朗编号注释及评估数据
2026年1月27日 30 179 170
数据集概述 本数据集为平行圣经文本提供黄金标准,包含20段新约经文的Strong编号标注数据,涉及三种德文文本(Luther 2017、Schlachter、Hoffnung für alle)和两种英文文本(New Revised Standard Version、World English Bible),用于评估圣经文本的Strong编号标注工作。...



