找到81个数据集

标签: 文本语料

过滤结果
  • 文本情感分析训练测试数据集

    2025年8月8日 60 16 3

    文本情感分析训练测试数据集_Text_Sentiment_Analysis_Training_and_Testing_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 自然语言处理, 机器学习, 文本语料, 数据集, 训练集, 测试集 数据概述:...
    packageimg
  • 医学论文主题分析与词向量模型数据集

    2026年2月28日 30 191 37

    医学论文主题分析与词向量模型数据集_Medical_Paper_Topic_Analysis_and_Word_Embedding_Model_Dataset 数据来源:互联网公开数据 标签:医学论文, 主题分析, 词向量模型, 自然语言处理, 文本挖掘, 机器学习, 论文摘要, 文本语料 数据概述:...
    packageimg
  • TextGrid_CC_BY_3_0授权_XML格式语料库数据

    2026年1月28日 30 124 6

    数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
    packageimg
  • 德国联邦法院和联邦专利法院判例要旨数据集_2025年

    2026年1月31日 30 187 134

    数据集概述 本数据集收录了2000至2025年间德国联邦最高法院(BGH)第十及第十a审判庭与德国联邦专利法院(BPatG)的判例要旨,总计包含1839项判决的核心法律原则,支持法律研究与判例分析场景下的应用。 文件详解 文件名称:sammlung_bgh_bpatg.txt 文件格式:TXT...
    packageimg
  • AgeMascFeb2023_新亚述时期年龄与男性气质研究数据集

    2026年1月28日 30 109 82

    数据集概述 本数据集为论文《Age and Masculinities During the Neo-Assyrian Period》的配套文件,包含文本语料构建、PMI测量、Gephi可视化及分析相关的全部内容,支持对新亚述时期年龄与男性气质主题的研究,共含1个压缩文件。 文件详解 文件名称:AgeMascFeb2023.zip 文件格式:ZIP...
    packageimg
  • IRaMuteQ_Based_竞选活动算法研究与科学计量分析数据

    2026年1月28日 30 171 126

    数据集概述 本数据集是论文《竞选活动算法研究:基于IRaMuteQ的分析》的原始数据,包含2008至2018年Scopus数据库中“政治算法在竞选活动”主题的150篇学术文章文本语料,通过科学计量技术和IRaMuteQ内容分析开展探索性研究,涵盖数据挖掘、统计分析、分类等方法。 文件详解 文件名称:STUDY ON ALGORITHMS IN...
    packageimg
  • Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

    2026年1月23日 30 161 101

    数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
    packageimg
  • Base_datos_基于西班牙语国际媒体的COVID_19阅读习惯与教育研究数据库

    2026年1月18日 30 143 60

    数据集概述 本数据集来自Teknokultura期刊2022年发表的论文,聚焦西班牙语国际媒体报道中COVID-19疫情期间教育与阅读领域的挑战分析。包含2个文件,覆盖结构化数据与文本语料,为研究疫情对阅读习惯和教育的影响提供支持。 文件详解 文件名称:basededatoshabitoslecturaeducacioncovid.sav...
    packageimg
  • 乌兹别克语词汇与语境意义研究文档

    2025年12月22日 30 78 44

    数据集概述 该数据集包含一份关于乌兹别克语词汇及其语境意义的研究文档,聚焦词汇在不同语境下的语义表达,为乌兹别克语语言学研究提供文本资料支持。 文件详解 文件名称: Rahmatova Madina Shahobiddinovna.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX

    2025年12月14日 30 114 65

    数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
    packageimg
  • 哥廷根印度语言电子文本注册库_摩诃婆罗多节选

    2025年12月14日 30 141 56

    数据集概述 该数据集是哥廷根印度语言电子文本注册库(GRETIL)收录的《摩诃婆罗多》节选内容,包含十七个HTML格式文件,未进行训练测试、数据标签或原始/处理数据的拆分,所有文件均为网页格式,无额外说明文档或内容预览。 文件详解...
    packageimg
  • 基于主题的英文维基百科与推特用户数据集

    2025年11月27日 30 167 116

    数据集概述 本数据集收集自英文维基百科与推特平台,包含经预处理的维基百科文章文本及推特用户数据。预处理步骤包括词形还原、俚语转换为标准英语、去除停用词,以及维基百科标记语言处理,最终生成纯文本格式内容。 文件详解 文件名称: Wiki_En.rar 文件格式: RAR压缩包 (.rar) 内容说明:...
    packageimg
  • 有声小说文本音频数据集

    2025年11月1日 30 50 46

    有声小说文本音频数据集_Audiobook_Text_Audio_Dataset 数据来源:互联网公开数据 标签:语音识别, 自然语言处理, 有声书, 文本转语音, 语音合成, 声学模型, 文本语料, 语音数据 数据概述: 该数据集包含有声小说文本和对应的音频文件,旨在为语音处理和自然语言处理任务提供支持。主要特征如下:...
    packageimg
  • 维基百科文章段落文本数据集

    2025年10月17日 30 148 141

    维基百科文章段落文本数据集_Wikipedia_Article_Paragraphs_Text 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 语料库, 文本挖掘, 维基百科, 文本语料, 语义分析, 信息检索 数据概述:...
    packageimg
  • 新闻文章内容分析数据集

    2025年8月2日 60 32 17

    新闻文章内容分析数据集_News_Articles_Content_Analysis 数据来源:互联网公开数据 标签:新闻分析, 文本挖掘, 自然语言处理, 内容分类, 舆情分析, 情感分析, 文本语料, 数据集 数据概述: 该数据集包含来自新闻网站的文章内容,记录了各类新闻报道的文本信息。主要特征如下:...
    packageimg
  • 俄罗斯新闻文本情感分析数据集

    2025年8月23日 30 188 88

    俄罗斯新闻文本情感分析数据集_Russian_News_Text_Sentiment_Analysis 数据来源:互联网公开数据 标签:情感分析, 文本挖掘, 俄语, 新闻, 自然语言处理, 情感分类, 文本语料, 情绪识别 数据概述: 该数据集包含来自俄罗斯新闻网站的数据,记录了新闻文章的文本内容,用于情感分析任务。主要特征如下:...
    packageimg
  • 文本情感分析训练数据集TextSentimentAnalysisTrainingData-wu468ef

    2025年5月30日 30 173 28

    文本情感分析训练数据集TextSentimentAnalysisTrainingData-wu468ef 数据来源:互联网公开数据 标签:情感分析, 文本分类, 自然语言处理, 机器学习, 情感极性, 二分类, 文本语料, 舆情分析 数据概述: 该数据集包含来自不同来源的文本数据,记录了用于情感分析的文本样本及其对应的情感标签。主要特征如下:...
    packageimg
  • 多语言情感分析文本数据集MultilingualSentimentAnalysisTextDataset-aylinnaebzadeh

    2025年5月29日 30 27 21

    多语言情感分析文本数据集MultilingualSentimentAnalysisTextDataset-aylinnaebzadeh 数据来源:互联网公开数据 标签:情感分析, 自然语言处理, 多语言, 文本分类, 情绪识别, 机器学习, 文本语料, 情感标注 数据概述:...
    packageimg
  • 预处理后语料库数据集CorpusAfterPreprocessed18deDataset-ictworld

    2025年5月29日 30 187 157

    预处理后语料库数据集CorpusAfterPreprocessed18deDataset-ictworld 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,数据预处理,机器学习,文本分类,语言模型,深度学习 数据概述: 该数据集包含经过预处理的文本数据,记录了经过清洗、分词和标准化等处理的语料信息。主要特征如下:...
    packageimg
  • 文本分类实体识别DBpedia数据集TextClassificationEntityRecognitionDBpediaDataset-lotuswhl

    2025年5月29日 30 40 19

    文本分类实体识别DBpedia数据集TextClassificationEntityRecognitionDBpediaDataset-lotuswhl 数据来源:互联网公开数据 标签:文本分类, 实体识别, 自然语言处理, 知识图谱, 机器学习, 文本语料, 数据集, 信息抽取 数据概述:...
    packageimg