找到6,175个数据集

标签: 文本分析

过滤结果
  • OffensiveLang_Based攻击性语言数据集

    2026年1月31日   

    数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
    packageimg
  • Transcrição_访谈转录_半结构化访谈完整数据

    2026年1月30日   

    数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...
    packageimg
  • TuReV_Corpus_突尼斯革命在线新闻报道语料库

    2026年1月30日   

    数据集概述 本数据集为TuReV语料库,收录了关于突尼斯革命的在线新闻报道文本,是用于自然语言处理(NLP)研究的单文件语料库资源,可支持对突尼斯革命相关新闻内容的文本分析任务。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX...
    packageimg
  • DBNL_Based荷兰数字化图书OCR与校正文本数据集

    2026年1月30日   

    数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
    packageimg
  • forTEXT_Based_叙事学语篇标注集_可下载资源

    2026年1月30日   

    数据集概述 本数据集为叙事学语篇标注集,适用于标注文本中的叙事元素,包含分析语篇(即叙事呈现方式)的基础类别,主要基于结构主义导向的叙事学研究成果,提供一个XML格式文件供下载使用。 文件详解 文件名称:forTEXT_Tagset_Narratologie_discours.xml 文件格式:XML...
    packageimg
  • Colección_de_datos_数据集合_文档数据

    2026年1月30日   

    数据集概述 本数据集为单一文件的数据集合,包含一份名为UNIDAD 2 FICHAJE的文档文件,无其他子目录或文件分类,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:UNIDAD 2 FICHAJE.docx 文件格式:DOCX 字段映射介绍:未提供文件内容预览或字段信息 适用场景 文档内容分析:...
    packageimg
  • 情感分析协作Github开源软件项目协作关系情感分析数据集

    2026年1月30日   

    数据集概述 本数据集为开源软件项目协作关系情感分析研究提供配套数据及脚本,包含与开源项目协作关系情感分析相关的内容,可用于NLP领域中开源协作场景的情感分析研究,帮助理解开源社区协作中的情感倾向。 文件详解 压缩文件 文件名称:sentiment-analysis-collaboration-github.zip 文件格式:ZIP...
    packageimg
  • MT_SOA_Based_MT_SOA_CCN活性研究数据

    2026年1月30日   

    数据集概述 本数据集提供与MT-SOA CCN活性相关出版物的主要文本元数据,包含6个文件,均为Excel格式。数据用于支持MT-SOA CCN活性研究的相关分析。 文件详解 文件名称:FigS7.xlsx、Fig 3.xlsx、FigS8.xlsx、FigS4-6.xlsx、Fig 2.xlsx、Fig 1,s1,s2,s3.xlsx...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日   

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • WoS_Source_计算社会语言学研究关键词与文献数据集

    2026年1月30日   

    数据集概述 本数据集包含用于检索计算社会语言学领域学术文献的关键词及检索结果。通过Web of Science数据库的62次检索得到3,454篇独特文献,涵盖关键词文件及标准化的文献数据文件,支持该领域的文献计量分析与文本挖掘研究。 文件详解 Keywords_WoS.txt(TXT格式) 内容:收录Web of...
    packageimg
  • forTEXT_Based_叙事学历史文本标注集_可供下载

    2026年1月30日   

    数据集概述 本数据集为叙事学(历史文本方向)标注集,适用于标注文本中的叙事元素,包含历史文本内容分析的基础分类,具体用于人物与情节分析。数据集提供XML格式的标注集文件,可支持叙事文本的结构化标注工作。 文件详解 文件名称:forTEXT_Tagset_Narratologie_histoire.xml 文件格式:XML...
    packageimg
  • Evaluation_and_Prompt_评估与提示文档

    2026年1月29日   

    数据集概述 本数据集包含一份关于“Evaluation and Prompt”的文档文件,用于评估与提示相关的内容记录。数据集仅包含一个文件,无目录结构,文件类型为文档格式,未区分训练/测试、数据/标签、原始/处理数据等类别。 文件详解 文件名称:eval CFG.docx 文件格式:docx...
    packageimg
  • ATD_Based_教师群体焦点小组与初始问卷数据_教育研究

    2026年1月29日   

    数据集概述 本数据集包含教育研究中教师群体焦点小组与初始问卷的数据及方法论。通过ATD方法对21份教师初始问卷文本进行处理,包括单位化、分类和元文本撰写,旨在分析教师相关主题,为教育研究提供数据支持。 文件详解 文件名称:Dados da pesquisa - Questionário inicial e Metodologia da...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日   

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg
  • APOSCRIPTA_Based_教皇书信统一语料库研究数据

    2026年1月29日   

    数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
    packageimg
  • SentiTopicNet_Based_NLP数据与代码资源包

    2026年1月29日   

    数据集概述 本数据集为SentiTopicNet相关的自然语言处理资源集合,包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务,总计17个文件,覆盖数据、词典与代码三类资源,可用于自然语言处理相关的模型训练与分析。 文件详解 数据文件 文件名称:data.xlsx 文件格式:XLSX...
    packageimg
  • 辅助信息_Supporting_information文档数据

    2026年1月28日   

    数据集概述 本数据集为单一辅助信息文档,未包含训练/测试、数据/标签或原始/处理等数据拆分,文件类型统一为文档格式,无额外目录结构,可作为相关主题的补充说明资料使用。 文件详解 文件名称:Supporting information.docx 文件格式:DOCX 字段映射介绍:无公开预览内容,未检测到命名模式,具体字段信息需查看文档内部内容 适用场景...
    packageimg
  • Sandry_Cordoba_Based_医学扫描研究文档数据

    2026年1月28日   

    数据集概述 本数据集为Sandry Cordoba的研究研讨会相关文档,包含一份医学扫描类文档,未提供具体内容预览,核心围绕医学扫描及文本类文档展开,文件类型单一,无数据拆分或目录结构。 文件详解 文件名称:Documentos escaneados.docx 文件格式:DOCX...
    packageimg
  • CalDraCor_Based_戏剧语料库_2_0_0版本数据

    2026年1月28日   

    数据集概述 本数据集为CalDraCor v2.0.0版本,是Calderón戏剧语料库项目的更新版本。该项目由图宾根大学罗曼语研究研讨会与数字人文中心合作发起,2023年由图宾根和斯图加特研究人员在DFG资助项目支持下更新,主要优化了戏剧结构拆分、角色注释、性别标注、类型分类及拼写修正等内容。 文件详解...
    packageimg
  • Nanotate_Based生物开放实验协议词性标注分布统计数据

    2026年1月28日   

    数据集概述 本数据集包含通过Nanotate工具对生物学开放获取实验协议中的232个词性进行标注的结果,标注类别分为样本、设备、试剂、输入、输出、步骤六种。数据集以单一文件呈现,用于展示各类别标签的分布统计情况。 文件详解 文件名称:Tag distribution.xlsx 文件格式:XLSX...
    packageimg