-
加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版
2026年1月31日 30 124 67
数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
-
Compound_words_Based_阿拉伯语中文复合词样本数据
2026年1月27日 30 135 31
数据集概述 本数据集包含阿拉伯语与中文复合词相关的样本数据,聚焦两种语言复合词的对比研究场景,为语言学领域的复合词结构、构成规则等分析提供基础样本支持,数据集由单一文件构成。 文件详解 文件名称:Arabic & Chinese samples.xlsx 文件格式:XLSX...
-
Phenopackets_Based_多语言基因医学案例集_自动更新版
2026年1月26日 30 117 81
数据集概述 本数据集包含基于Phenopackets生成的多语言基因医学案例集,支持捷克语、中文、荷兰语、英语、德语、意大利语、日语、西班牙语和土耳其语共9种语言,用于LLM研究,会随Phenopacket Store更新自动同步最新HPO翻译和案例数据。 文件详解 压缩文件(ZIP)...
-
汉乌英三种语言中抽象名词的语义解读数据集
2025年12月9日 30 196 67
数据集概述 本数据集聚焦于中文、乌兹别克语和英语三种语言中抽象名词的语义解读研究,以单一PDF文档形式呈现相关研究内容,为跨语言词汇语义对比分析提供资料支持。 文件详解 文件名称: Jabborov Azamat Ashirkul oʽgʽli.pdf 文件格式: PDF (.pdf) 文件内容:...
-
文本分类新闻数据集
2025年10月11日 30 173 47
文本分类新闻数据集_Text_Classification_News_Dataset 数据来源:互联网公开数据 标签:文本分类, 新闻, 自然语言处理, 机器学习, 语料库, 分类, 深度学习, 中文 数据概述: 该数据集包含来自新闻网站的文本数据,记录了经过预处理的中文新闻文章,用于文本分类任务。主要特征如下:...
-
中文文本生成评估数据集
2025年8月26日 30 132 101
中文文本生成评估数据集_Chinese_Text_Generation_Evaluation_Dataset 数据来源:互联网公开数据 标签:文本生成, 中文, 自然语言处理, 评估, 语言模型, 数据集, 文本质量, 机器翻译 数据概述: 该数据集包含用于评估中文文本生成模型性能的数据,记录了生成的中文文本及其相应的评估指标。主要特征如下:...
-
中文维基百科2019年文本数据集
2025年8月25日 30 38 19
中文维基百科2019年文本数据集_Chinese_Wikipedia_2019_Text_Dataset 数据来源:互联网公开数据 标签:维基百科, 中文, 文本数据, 自然语言处理, 语料库, 文本分析, 语言模型, 知识图谱 数据概述: 该数据集包含来自2019年中文维基百科的文本数据,记录了维基百科上各种主题的中文文章内容。主要特征如下:...
-
中文新闻文本分类数据集_Chinese_News_Text_Classification_Dataset
2025年6月28日 30 20 10
中文新闻文本分类数据集_Chinese_News_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 新闻, 情感分析, 自然语言处理, 机器学习, 类别识别, 语料库, 中文 数据概述: 该数据集包含来自互联网的新闻文本,记录了不同类别的新闻文章内容,主要用于文本分类任务。主要特征如下:...
-
Digikala电商平台用户评论情感分析数据集DigikalaE-commercePlatformUserReviewsSentimentAnalysis...
2025年5月30日 30 45 22
Digikala电商平台用户评论情感分析数据集DigikalaE-commercePlatformUserReviewsSentimentAnalysisDataset-hangman1998 数据来源:互联网公开数据 标签:自然语言处理,情感分析,数据集,电商,用户评论,机器学习,文本挖掘,中文 数据概述:...
-
中文OCR识别数据集-jianse
2025年5月29日 30 167 77
中文OCR识别数据集-jianse 数据来源:互联网公开数据 标签:OCR,光学字符识别,数据集,图像处理,深度学习,文本识别,中文,自然语言处理 数据概述:该数据集包含用于中文OCR(光学字符识别)任务的图像和对应的文本标注数据。主要特征如下: 时间跨度:数据集涵盖了不同时间段的中文文本图像。...
-
歌词清洗与预处理数据集-kalyanitewari
2025年5月29日 30 23 16
歌词清洗与预处理数据集-kalyanitewari 数据来源:互联网公开数据 标签:歌词,文本分析,自然语言处理,数据集,情感分析,音乐,数据清洗,中文 数据概述: 该数据集包含了经过清洗和预处理的歌词数据,旨在为自然语言处理和文本分析任务提供高质量的文本资源。主要特征如下: 时间跨度:数据记录的时间范围不明确,但包含了不同年代的歌词。...
-
游戏翻译语料库-中文-越南语对照数据集GameTranslationCorpus-Chinese-Vietnamese-trninh
2025年5月29日 30 136 88
游戏翻译语料库-中文-越南语对照数据集GameTranslationCorpus-Chinese-Vietnamese-trninh 数据来源:互联网公开数据 标签:机器翻译, 游戏翻译, 语言对, 中文, 越南语, 文本数据, 语料库, 多语言 数据概述:...
-
文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal
2025年5月29日 30 151 125
文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal 数据来源:互联网公开数据 标签:拼写纠错,自然语言处理,数据集,文本校对,机器学习,语言模型,文本分析,中文 数据概述: 该数据集包含用于拼写纠错任务的文本数据,专注于中文文本的拼写错误及其对应的正确文本。主要特征如下:...
-
数据2020年Shopee代码联赛情感分析数据集-rareloto
2025年5月29日 30 145 48
2020年Shopee代码联赛情感分析数据集-rareloto 数据来源:互联网公开数据 标签:情感分析,自然语言处理,数据集,机器学习,文本分类,电商,Shopee,中文 数据概述: 该数据集来自2020年Shopee代码联赛,旨在用于情感分析任务,特别是针对电商平台上的用户评论。主要特征如下: 时间跨度:数据记录的时间范围为2020年。...
-
中文语言理解评测数据集CLUEAnswerDataset-prajeshrajbhandari
2025年5月29日 30 200 156
中文语言理解评测数据集CLUEAnswerDataset-prajeshrajbhandari 数据来源:互联网公开数据 标签:自然语言处理,文本分类,机器学习,数据集,中文,语言理解,文本分析,人工智能 数据概述: 该数据集是中文语言理解评测(CLUE)的一部分,主要包含中文文本的分类和标注数据,用于评估和训练自然语言处理模型。主要特征如下:...
-
维基文库标题草稿数据集ZhWikiSourceTitleDraftDataset-raynardj
2025年5月29日 30 49 6
维基文库标题草稿数据集ZhWikiSourceTitleDraftDataset-raynardj 数据来源:互联网公开数据 标签:维基文库,标题,草稿,文本分析,自然语言处理,数据集,中文,语料库 数据概述: 该数据集包含来自维基文库(ZhWikiSource)的标题草稿数据,记录了维基文库中标题草稿的详细信息。主要特征如下:...
-
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary
2025年5月28日 30 26 2
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary 数据来源:互联网公开数据 标签:词库,输入法,数据集,中文,自然语言处理,语言资源,文本处理,机器学习 数据概述: 该数据集包含通用拼音输入法(GPNU)的完整词库数据,记录了中文词语及其对应的拼音信息。主要特征如下:...
-
千言实体链接预处理数据集-kejiewang
2025年5月28日 30 179 175
千言实体链接预处理数据集-kejiewang 数据来源:互联网公开数据 标签:自然语言处理,实体链接,数据集,中文,文本处理,信息抽取,知识图谱,预处理 数据概述: 该数据集包含经过预处理的中文文本数据,旨在用于实体链接任务。数据的主要特征如下: 时间跨度:数据未明确标注时间范围,主要聚焦于文本内容本身。...
-
新闻文章情感分析数据集NewPreprocessedNewsArticlesSentimentAnalysisDataset-zeuss2k3
2025年5月28日 30 30 27
新闻文章情感分析数据集NewPreprocessedNewsArticlesSentimentAnalysisDataset-zeuss2k3 数据来源:互联网公开数据 标签:情感分析,新闻文章,数据集,自然语言处理,机器学习,文本分析,情感分类,中文 数据概述: 该数据集包含预处理过的新闻文章数据,旨在用于情感分析任务。主要特征如下:...
-
单热编码未翻译文本数据集-franciscomisa
2025年5月28日 30 92 77
单热编码未翻译文本数据集-franciscomisa 数据来源:互联网公开数据 标签:文本数据,单热编码,机器学习,自然语言处理,数据预处理,文本分类,数据分析,中文 数据概述: 该数据集包含经过单热编码处理的未翻译文本数据,主要用于机器学习模型的训练和评估。主要特征如下: 时间跨度:数据记录时间不限,为静态数据集。...



