数据集 - 海数据

圣加仑修道院两份加洛林时期伊西多尔_词源_校订附录数据集

2025年12月15日 30 190 94

数据集概述本数据集为一份校勘表，包含伊西多尔《词源》中带有批判符号的一百四十五处段落，并提供了与中世纪早期圣加仑修道院相关的五份手稿的异文读本，用于复现九世纪下半叶圣加仑修道院对《词源》的批判性校订工作。文件详解文件名称: Steinova_TwoCarolingianRedactions_appendix.pdf 文件格式: PDF...

ZIP

IN02055提米铭文残片翻译数据集

2025年12月14日 30 83 81

数据集概述该数据集包含IN02055提米铭文残片的翻译文件，涵盖DOCX和PDF两种格式，提供铭文文本的翻译内容，为研究铭文内容提供数据支持。文件详解文件名称：IN02055 XCIV Thimi Inscription I.docx 文件格式：DOCX 内容说明：提米铭文残片翻译的Word文档，包含铭文文本的翻译内容文件名称：IN02055...

ZIP

多语言新闻文章相似度数据集

2025年12月9日 30 7 3

数据集概述该数据集是作者早期工作的扩展版本，包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度，为多语言新闻文本的相似度分析提供结构化标注数据。文件详解文档文件： Codebook for text similarity annotations -...

ZIP

Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

2025年12月9日 30 36 30

数据集概述该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本，其中4067条为接受的释义，3792条为拒绝的非释义，同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛，但此前未单独发布。文件详解文件名称: Webis-CPC-11.zip 文件格式: ZIP压缩包内部文件结构:...

ZIP

学术_小说与歌曲语言数据集

2025年12月5日 30 70 38

数据集概述该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划（DMP）。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开，对比不同体裁及文本内的动词多样性，分析各体裁高频动词特征。文件详解文件名称：DMP_Language in academics fiction and song.pdf 文件格式：PDF (.pdf)...

ZIP

欧洲宽带与电视观看行为文本相似度分析数据集EuropeanBroadbandandTVViewingBehaviorTextSimilarityAnaly...

2025年5月1日 30 210 137

欧洲宽带与电视观看行为文本相似度分析数据集EuropeanBroadbandandTVViewingBehaviorTextSimilarityAnalysisDataset-saneh29 数据来源：互联网公开数据标签：文本相似度, 宽带, 电视观看, 数据分析, 自然语言处理, 欧洲, 市场调研, 文本匹配数据概述：...

ZIP

新冠疫情相似句对判定数据集

2025年4月14日 30 201 122

新冠疫情相似句对判定数据集数据来源：互联网公开数据标签：新冠疫情,相似句对,文本分析,自然语言处理,疫情信息,语义分析数据概述：...

ZIP

找到7个数据集

注册成功！