找到5个数据集

格式: ZIP 标签: 文本挖掘分析

过滤结果
  • 洪堡数字版第十一版11_0_1版TEI_XML数据集

    2025年12月8日 30 128 80

    数据集概述 该数据集是2025年6月4日发布的洪堡数字版第十一版11.0.1版的TEI-XML格式数据,包含日记、信件、文献、研究论文、年表条目、索引等编辑文本及副文本,对HTML版本进行了技术错误修正。 文件详解 文件名称: edition_humboldt_digital_v11.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 数据16至19世纪印刷旅行报告数据集

    2025年12月7日 30 20 5

    数据集概述 本数据集包含170篇16至19世纪印刷旅行报告的数字化全文及对应元数据,为研究该时期旅行文学与历史提供基础资料。 文件详解 Gedruckte Reiseberichte_README_en.md:Markdown格式文档,包含数据集摘要、项目背景及历史背景说明...
    packageimg
  • 企业气候变化影响报告文本挖掘分析数据集

    2025年12月7日 30 66 0

    数据集概述 该数据集为研究2010年美国SEC气候变化报告指引对企业10-K filings影响的文本挖掘分析数据,涵盖2000-2019年21.8万份SEC文件,通过语义关联文本挖掘方法,分析企业气候相关报告变化及内容差异,支持环境政策与企业行为研究。 文件详解 README.txt:文本格式,说明数据集为论文《What Do Firms Say...
    packageimg
  • REWIND_Corpus_Based_拉丁美洲女性作家文本数字化完整数据

    2025年12月7日 30 99 35

    数据集概述 该数据集为REWIND语料库,收录了20世纪二战前拉丁美洲女性作者以西班牙语出版的书籍文本。作者均曾赴欧洲多国旅行,认同女权主义并支持混血文化,包括Clorinda Matto等五位作家,旨在从去殖民性别理论框架研究其跨文化解读。 文件详解 索引文件(XML格式): rewind_object_index.xml:对象索引文件...
    packageimg
  • 苏黎世州政府决议TEI_XML数据集1903_1995

    2025年12月5日 30 158 73

    数据集概述 本数据集包含瑞士苏黎世州1903至1995年已过法定保护期的州政府决议,以TEI-XML格式存储。决议覆盖政治决策及日常事务等广泛主题,共约27.7万份独立XML文件,按卷宗形成层级文件夹结构,反映苏黎世州政府核心行政记录。 文件详解 核心文件: TKR_RRB_1903_1995_OCR_XML_V5_NER.zip:...
    packageimg