找到309个数据集

标签: 文本处理

过滤结果
  • Le_Misanthrope喜剧XML格式数据

    2026年2月1日 30 31 10

    数据集概述 本数据集包含一部名为《Le Misanthrope》的喜剧相关数据,以单一XML文件形式呈现,未进行训练测试、数据标签或原始处理等划分,主要用于戏剧文学相关的文本分析场景。 文件详解 文件名称:EMOTHE0720_LeMisanthropeComedie.xml 文件格式:XML 字段映射介绍:包含《Le...
    packageimg
  • DIALLS语料库的主要和次要分析报告_修订版

    2026年2月1日 30 192 102

    数据集概述 本数据集为DIALLS语料库的主次分析修订结果,包含一份处理后的Excel文件。数据涉及NLP文本语料库分析,可能关联医疗CT相关内容,无训练测试、数据标签或原始处理的拆分,专注于语料库的标准化分析呈现。 文件详解 文件名称:CORPUS LIGHT CODED_correct.xlsx 文件格式:XLSX...
    packageimg
  • Ge_ez_Based_文本抽取式摘要任务数据集

    2026年2月1日 30 123 26

    数据集概述 本数据集为Ge'ez语言文本的抽取式摘要任务专用数据,包含一份Ge'ez语言的文本文件,主要用于自然语言处理领域的文本摘要算法训练与测试,支持对Ge'ez文本内容的结构化分析需求。 文件详解 文件名称:Geez_Text_120.xlsx 文件格式:XLSX...
    packageimg
  • LeetSpeak_Based_垃圾邮件混淆数据集

    2026年1月31日 30 175 77

    数据集概述 本数据集通过LeetSpeak转换对公开垃圾邮件数据集进行部分混淆处理,用于评估反混淆技术及其对垃圾邮件分类的影响。包含YouTube垃圾邮件集合、YouTube评论子集、CSDMC2010、TREC2007四个来源的混淆文本数据,以压缩包形式提供。 文件详解 文件名称:corpora.zip 文件格式:ZIP(压缩包)...
    packageimg
  • NVivo_Based_文本词频分析与工具对比数据集

    2026年1月31日 30 20 7

    数据集概述 本数据集包含使用NVivo工具生成的文本词频搜索结果文件,以及一份对比AntConc与NVivo词频结果的电子表格,共5个文件。数据聚焦于文本词频分析,支持工具间的词频结果对比,适用于文本处理相关研究。 文件详解 文档文件(.docx格式,共3个) 文件名称:Word Freq-Stem All-min3 Alphabetical...
    packageimg
  • 巴西总统演讲文本数据集_1985_2022年全量文本

    2026年1月31日 30 185 143

    数据集概述 本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本,以及预处理和后处理阶段使用的代码及相关文档,为研究巴西政治话语提供结构化资源。 文件详解 文件名称:base limpa e codigos.zip 文件格式:ZIP 内容说明:压缩包内包含两类核心内容:...
    packageimg
  • 用于流行病学事件提取的多语言数据集_LREC_2020

    2026年1月30日 30 101 3

    数据集概述 本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据,包含多语言流行病学事件抽取语料,支持自然语言处理领域相关研究,以压缩包形式提供,仅含一个文件。 文件详解...
    packageimg
  • NCOMMS_25_07426_Based_文档数据_无时间

    2026年1月29日 30 194 63

    数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
    packageimg
  • LLM_Personas_Based协作系统知识管理框架数据集

    2026年1月28日 0 94 31

    数据集概述 本数据集围绕协作系统中LLM生成角色的知识管理框架构建,包含源代码压缩包、LLM生成意见的相似度分析、清洗数据、嵌入数据、原始数据以及真实意见数据等6个文件,覆盖原始、处理后等不同形态的角色相关数据,支持对LLM生成角色与真实角色意见的对比分析。 文件详解 Source-Code.zip 文件格式:ZIP...
    packageimg
  • CONTRAST_IT_Based_西班牙语报纸文章语料库数据

    2026年1月28日 0 150 61

    数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
    packageimg
  • IN02033_EpiDoc_布达尼尔坎塔石刻铭文梵语XML数据

    2026年1月28日 30 140 128

    数据集概述 本数据集为IN02033布达尼尔坎塔石刻铭文的梵语XML文件,属于EpiDoc格式的草稿版本,将纳入"Siddham"档案。数据未包含元数据,仅提供铭文的文本内容数字化记录,是研究该古铭文的基础文本资料。 文件详解 文件名称:IN02033.xml 文件格式:XML...
    packageimg
  • Fleiss_Kappa_Based生物医学协议标注一致性评估数据

    2026年1月27日 30 173 73

    数据集概述 本数据集为生物医学自然语言处理社区提供研究资源,包含经完全标注的协议集合。每份全文由三位领域专家手动标注,共有三十四位标注者参与。数据集用于评估标注一致性,支持生物医学文本处理相关研究,仅含一个文件。 文件详解 文件名称:table - fleisskappa of protocols.xlsx 文件格式:XLSX...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日 30 7 4

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • IN01054_Based_拉维瓦尔曼第11年哈尔西敕令梵语XML数据

    2026年1月26日 30 154 19

    数据集概述 本数据集包含IN01054号拉维瓦尔曼第11年哈尔西敕令的梵语文本XML文件,无元数据信息。数据集仅含一个文件,无目录层级划分,未进行训练/测试、数据/标签或原始/处理数据的拆分,文件类型单一为XML格式。 文件详解 文件名称:IN01054.xml 文件格式:XML...
    packageimg
  • Spanish_Workers_Statute_Based_双语问答数据集

    2026年1月21日 30 62 55

    数据集概述 本数据集为西班牙语劳动法关键文件的双语问答数据集,包含150个问题及其对应答案,答案形式为西班牙《工人法规》130个部分中的条款编号及相关摘录。数据集支持信息检索与问答任务,共包含3个文件。 文件详解 Extracted Terminology of Spanish Worker Statute.txt 文件格式:TXT...
    packageimg
  • SPACCC_TOKEN_Based_西班牙语临床病例语料库分词标注第一版数据

    2026年1月19日 30 155 93

    数据集概述 本数据集为西班牙语临床病例语料库(SPACCC)的第一版分词标注数据,由基于FreeLing3.1的西班牙语临床病例语料库词性标注器(SPACCC_POS-TAGGER)生成,包含对临床文本的分词标注内容,适用于医学NLP领域的文本处理研究。 文件详解 文件名称:SPACCC_TOKEN.zip 文件格式:ZIP...
    packageimg
  • IN01047_Tadagani_Inscription_Madhuvarman时期梵语铭文数据

    2026年1月11日 30 10 9

    数据集概述 本数据集包含IN01047号Tadagani铭文的梵语文本XML文件,记录Madhuvarman时期的铭文内容,无元数据信息。数据集仅含一个文件,用于历史铭文研究与梵语文本分析。 文件详解 文件名称:IN01047.xml 文件格式:XML...
    packageimg
  • IN01033_Sanskrit_XML_Devarahalli授权文书梵语文本

    2026年1月15日 30 93 32

    数据集概述 本数据集包含IN01033编号的Devarahalli授权文书(Mandhatrraja统治第5年)的梵语XML文件,无附加元数据。文件记录了该历史授权文书的原始梵语文本内容,为研究古代梵语铭文和历史授权制度提供数字化文本资源。 文件详解 文件名称:IN01033.xml 文件格式:XML...
    packageimg
  • Parallel_Recognizer_Regular_Texts_并行识别器复现数据

    2026年1月14日 30 44 39

    数据集概述 本数据集为论文《Minimizing speculation overhead in a parallel recognizer for regular texts》的复现数据,包含2个文件,无目录层级。核心内容是用于复现正则文本并行识别器实验结果的程序与数据,支持研究人员验证并行识别器的性能优化效果。 文件详解...
    packageimg
  • Func_Non_Func_words_separated_功能词与非功能词分离数据集

    2026年1月14日 30 128 84

    数据集概述 本数据集包含100个文件,主题为功能词与非功能词分离的文本内容数据,覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主,各占50个,无目录层级结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件类型及分布...
    packageimg