找到44个数据集

标签: NLP研究

过滤结果
  • CARP_Based工具增强型计算密集型数学推理评估数据集

    2026年1月30日 30 146 118

    数据集概述 本数据集包含四千八百八十六个中学计算密集型代数问题,每个问题配有自然语言解答和带注释的EFG(显式推理图),EFG以简洁可读的格式展示解题步骤。数据集共九个文件,主要为JSON格式,用于评估和改进工具增强的数学推理能力。 文件详解 数据文件(JSON格式,共8个)...
    packageimg
  • UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

    2026年1月29日 30 86 64

    数据集概述 本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容,主要用于训练抽象式文本摘要模型。数据集仅含一个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,便于集中使用。 文件详解 文件名称:UCS-Dataset.xlsx 文件格式:XLSX...
    packageimg
  • Flexico_Source_自适应可持续机器翻译实验复现数据

    2026年1月29日 30 91 18

    数据集概述 本数据集用于复现论文“Flexico: Sustainable Machine Translation via Self-Adaptation”的研究结果,包含6个文件,涉及香港新闻和opus_eng_fra数据集的实验数据,涵盖聚类距离、时间统计等机器翻译自适应相关指标,支持可持续翻译模型的实验验证。 文件详解 香港新闻数据集相关文件...
    packageimg
  • LLM_Personas_Based协作系统知识管理框架数据集

    2026年1月28日 0 45 22

    数据集概述 本数据集围绕协作系统中LLM生成角色的知识管理框架构建,包含源代码压缩包、LLM生成意见的相似度分析、清洗数据、嵌入数据、原始数据以及真实意见数据等6个文件,覆盖原始、处理后等不同形态的角色相关数据,支持对LLM生成角色与真实角色意见的对比分析。 文件详解 Source-Code.zip 文件格式:ZIP...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日 30 89 37

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • SemEval_2024_Task3_对话多模态情感原因分析数据集

    2026年1月27日 0 207 197

    数据集概述 本数据集为SemEval-2024 Task 3的竞赛数据,聚焦对话场景下的多模态情感原因分析,包含文本单模态(TECPE)和多模态(MECPE)两个子任务的训练与测试数据,用于提取对话中的情感-原因对,支持情感计算与自然语言处理相关研究。 文件详解 说明文档 文件名称:README.md 文件格式:MD...
    packageimg
  • Deep_learning_Based_孟加拉语深度学习问答系统数据集

    2026年1月26日 30 116 5

    数据集概述 本数据集是论文《Deep learning based question answering system in Bengali》的配套数据,为SQuAD 2.0数据集的孟加拉语翻译版本,包含训练、验证及预处理翻译结果三类文件,共3个JSON格式文件,可用于孟加拉语问答系统的深度学习研究。 文件详解...
    packageimg
  • XYZ_Food_Reviews_Based_食品评论数据集编码与测试结果数据

    2026年1月19日 30 101 47

    数据集概述 本数据集包含XYZ食品评论的原始数据、处理后数据及相关实验代码,涵盖数据处理、模型训练与实验测试三部分内容,支持食品评论相关的自然语言处理研究,共含5个文件。 文件详解 数据文件 文件名称:Full Raw Dataset.csv 文件格式:CSV...
    packageimg
  • Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集

    2026年1月18日 30 45 25

    数据集概述 本数据集包含12490行社交媒体内容样本,按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页,无帖子元数据,可用于网络骚扰类型识别相关研究。 文件详解 文件名称:Dataset_to_upload.xlsx 文件格式:XLSX...
    packageimg
  • Webis_Clickbait_Based_2016年Twitter推文标注数据集

    2026年1月15日 30 200 135

    数据集概述 本数据集为Webis Clickbait Corpus 2016,包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文,由三位独立标注者手动标注是否为clickbait,其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值,是该领域首个数据集。 文件详解...
    packageimg
  • DBpedia_Conversation_Question_Answering_Dataset

    2026年1月12日 30 116 74

    数据集概述 本数据集基于DBpedia构建,包含一百一十五个问题及五十组对话内容,用于支持对话式问答相关研究。数据集以单一JSON文件形式存储,未划分训练/测试集、数据/标签集或原始/处理集,可直接用于对话式问答模型的训练或评估。 文件详解 文件名称:context_questions_benchmark.json 文件格式:JSON...
    packageimg
  • LLM逆向工程序列图泛化能力复现数据包

    2025年12月13日 30 197 159

    数据集概述 本数据集是论文《On the Generalization Capabilities of LLMs for Reverse Engineering Sequence Diagrams》的复现数据包,包含实验所需的源代码、模型生成的序列图数据等,支持复现论文中的研究结果。 文件详解 RE-LLMs-...
    packageimg
  • NERdME_Based_命名实体识别任务完整数据集

    2025年12月20日 30 206 81

    数据集概述 本数据集包含NERdME相关的压缩文件和标注指南文档,为命名实体识别任务提供数据及操作参考,支持相关算法训练或研究分析。 文件详解 文件名称: NERdME.zip 文件格式: ZIP压缩包 内容说明: 包含NERdME相关的原始或处理后的数据文件,具体内容需解压后查看 文件名称:...
    packageimg
  • 大型语言模型预防性引导与SCAB协议整合数据集

    2025年12月23日 30 54 48

    数据集概述 本数据集聚焦于通过角色向量对大型语言模型进行预防性引导的研究,旨在将行为对齐与SCAB协议整合,以实现伦理AI部署。核心内容为一份学术文档,提供相关理论框架与协议设计的详细说明。 文件详解 文件名称: Academic preventative steering .pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 德国政治演讲语料库

    2025年12月22日 30 155 10

    数据集概述 该数据集是一个文本档案库,聚焦于1990年以来德国高层官员的政治演讲,按政治相关性筛选。数据包含带有元数据的XML格式文本文件,是自然语言处理和语料库语言学研究的资源。 文件详解 文件名称: German-political-speeches-2019-release.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 业务流程描述中歧义检测的标注数据集

    2025年12月21日 30 115 10

    数据集概述 本数据集包含七十一条业务流程描述的歧义标注数据,采用Franceschetti等人提出的业务流程管理(BPM)歧义分类体系进行标注,涵盖声明式和命令式两种流程描述类型,为研究业务流程文本中的歧义识别提供标注资源。 文件详解 综合标注数据文件: Ambiguity Annotations - All...
    packageimg
  • 达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

    2025年12月21日 30 119 111

    数据集概述 该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。 文件详解 文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • ChatGPT_Outputs_Based_自然语言处理应用研究完整数据

    2025年12月21日 30 128 20

    数据集概述 本数据集包含与ChatGPT输出相关的内容,以单一PDF文档形式呈现,为了解ChatGPT生成内容的特点或应用场景提供基础资料。 文件详解 文件名称:Supplementary materials.pdf 文件格式:PDF(.pdf) 内容说明:该文件为文档类文件,具体内容未提供详细字段或内容描述,需通过打开文件查看补充材料的具体信息。...
    packageimg
  • ChatGPT生成结构化摘要与作者原始摘要对比数据集

    2025年12月19日 30 197 62

    数据集概述 该数据集围绕信息科学领域研究论文,对比ChatGPT生成的结构化摘要与作者原始摘要。研究选取2022-2023年发表于《Zagadnienia Informacji Naukowej – Studia Informacyjne》期刊的10篇论文(含5篇波兰语、5篇英语),以单篇PDF文档呈现对比内容。 文件详解...
    packageimg
  • LLM生成代码片段可读性对比数据集

    2025年12月19日 30 144 18

    数据集概述 本数据集聚焦LLM生成代码片段的可读性研究,包含ChatGPT、DeepSeek、Gemini三款模型生成代码的对比分析相关文件,以压缩包形式提供,为探究不同大语言模型代码生成质量差异提供数据支持。 文件详解 文件名称:Replication Package.zip 文件格式:ZIP(压缩包格式)...
    packageimg