-
IN02082_Draft_Epidoc_梵语铭文XML数据
2026年1月29日 30 120 82
数据集概述 本数据集为IN02082 Balambu Indramati铭文的梵语XML文件,是尚未纳入Siddham档案的Epidoc格式草稿版本。数据不含元数据,聚焦于铭文的梵语文本内容,为铭文研究提供结构化的数字化文本资源。 文件详解 文件名称:IN02082.xml 文件格式:XML...
-
PAN13_Text_Alignment_原创性检测_文本复用识别训练语料
2026年1月21日 30 123 49
数据集概述 本数据集为PAN13项目的文本对齐原创性检测训练语料,包含成对文档数据,其中一方可能复用另一方文本,且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究,仅含一个压缩文件。 文件详解 文件名称:pan13-text-alignment-test-and-training.zip 文件格式:ZIP...
-
多语言文本翻译对比数据集MultilingualTextTranslationComparison-shahules
2025年5月30日 30 149 30
多语言文本翻译对比数据集MultilingualTextTranslationComparison-shahules 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 多语言, 文本分析, 语言学, 文本比对, 英语, 西班牙语 数据概述:...
-
语音转录文本比对数据集SpeechTranscriptionTextComparison-praneeth6116
2025年5月18日 30 21 13
语音转录文本比对数据集SpeechTranscriptionTextComparison-praneeth6116 数据来源:互联网公开数据 标签:语音识别, 文本比对, 语音转录, 自然语言处理, 数据集构建, 语料库, 声音文件, 文本校对 数据概述:...
-
商品标题相似度匹配数据集ProductTitleSimilarityMatchingDataset-ridhomuhammad
2025年4月29日 30 56 17
商品标题相似度匹配数据集ProductTitleSimilarityMatchingDataset-ridhomuhammad 数据来源:互联网公开数据 标签:商品标题, 相似度匹配, 文本比对, 电商, 图像, 深度学习, 数据标注, 商品推荐 数据概述: 该数据集包含来自电商平台的数据,记录了商品标题对以及它们之间的相似度标签。主要特征如下:...



