找到3,203个数据集

格式: ZIP 标签: 文本挖掘

过滤结果
  • 曼布里诺数字图书馆_意大利骑士文学系列第13卷第5册_希腊的斯法拉蒙迪_第五部分数字学术版数据资料

    2026年1月7日 30 85 23

    数据集概述 本数据集是意大利骑士文学作品《13/5 Sferamundi di Grecia. Quinta parte》的数字学术版本,包含转录及评注的XML-TEI文件、多格式电子书和用于计算分析的纯文本文件,属于Mambrino数字图书馆项目,由维罗纳大学开发,支持古典文学的数字化研究。 文件详解 转录及评注文件...
    packageimg
  • telota_lebenswelten_东普鲁士庄园档案社会生活世界XML_TEI数据集v1_0_0

    2026年1月4日 30 192 17

    数据集概述 本数据集包含两个数字版本的XML/TEI文件(文档、索引和模式),联合名称为“东普鲁士庄园档案中的贵族与农民生活世界”。具体涵盖18至20世纪东普鲁士Lehndorff贵族家庭的生活世界、经验空间及政治视野,以及近代农民生活世界在东普鲁士庄园档案中的反映,为研究东普鲁士社会历史提供结构化文献资源。 文件详解 文件名称:telota-...
    packageimg
  • NER_Tutorial_Maschinelles_Lernen_数字文学机器学习NER教程训练数据

    2026年1月4日 30 46 32

    数据集概述 本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。 文件详解 数据文件 文件名称:ner_kernkorpus.txt 文件格式:TXT...
    packageimg
  • ENP_China_Timeline_Glossary_现代中国历史事件时间线与术语表数据集1_0_0

    2026年1月3日 30 87 84

    数据集概述 本数据集为1939-1949年现代中国历史事件的时间线与术语表,收录历史文献及网络等来源中事件的常用命名表达,含中英双语内容,存在同一事件多种命名的重复记录,同时提供事件日期,可作为中国现代史时间线工具,用于数据挖掘与NLP处理。 文件详解 文件名称:Timeline_Glossary_Events_1.0.0.xlsx 文件格式:XLSX...
    packageimg
  • Gemein_Nachrichten_Based_利夫兰兄弟会报告转录与元数据文件_1805_1806

    2026年1月3日 30 10 3

    数据集概述 本数据集为Unitätsarchiv Herrnhut提供的“Gemein-Nachrichten”系列中编号00406的内容转录,对应1805-1806年利夫兰地区(现拉脱维亚)兄弟会社群的报告。包含基于XML-TEI标准的多版本转录文件、元数据增强文件、标准化文本文件等4份文件,支持宗教历史研究与文本分析。 文件详解...
    packageimg
  • Chronicling_America_Based_1810_1861美国报纸孤立主义语言AI分析数据集

    2025年12月31日 30 178 14

    数据集概述 本数据集包含基于Chronicling America数据集的AI驱动搜索与分析方法及结果,聚焦1810-1861年美国报纸中与外交事务相关的“isolation”“isolated”词汇使用情况,含2个文件,支持美国历史孤立主义语言模式研究。 文件详解 方法论文档 文件名称:Methodology for Chronicling...
    packageimg
  • Algorithmization_Representation_Based_监管沙盒探索性实验试点研究数据

    2025年12月30日 30 101 41

    数据集概述 本数据集是论文“No Algorithmization without Representation: Pilot Study on Regulatory Experiments in an Exploratory Sandbox”的配套数据及脚本,包含7个文件,涉及监管沙盒探索性实验的相关数据与分析脚本,可用于支持监管实验相关研究与分析。...
    packageimg
  • COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023

    2025年12月30日 30 162 37

    数据集概述 本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果,通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称,包含8个数据文件,支持对临床试验生物医学实体的追踪与分析,数据将定期更新。 文件详解 protein_whitelist.json 文件格式:JSON...
    packageimg
  • Sara_Gil_La_otra_competencia_巴黎2024奥运会性别叙事媒体报道分析数据2025

    2025年12月29日 30 150 101

    数据集概述 本数据集为安蒂奥基亚大学传播与语言学系新闻学本科毕业论文《另一场竞赛:拆解巴黎2024奥运会报道中的性别叙事》的配套数据库,包含通过Python进行文本与声音挖掘的转录内容,以及可视化控制面板,用于分析奥运会媒体报道中的性别叙事框架,仅含一个文件。 文件详解 文件名称:La otra competencia _ Sara Gil.xlsx...
    packageimg
  • IN00618_Based_YUVARAJA_SRYASRAYA_SILADITYA的NAUSARI碑铭数据

    2025年12月29日 30 66 48

    数据集概述 本数据集包含YUVARAJA SRYASRAYA SILADITYA的NAUSARI碑铭相关文献数据,以XML格式存储,共1个文件。数据记录了该历史碑铭的文献信息,为研究古代印度历史、铭文内容提供结构化资料。 文件详解 文件名称:IN00618 TEI.xml 文件格式:XML...
    packageimg
  • FWP_Life_History_Project_美国南部联邦作家项目生活史文本与元数据_1936_1940

    2025年12月29日 30 10 6

    数据集概述 本数据集源自1936-1940年美国联邦作家项目(FWP)文件,包含美国南部生活史的机器可读文本及元数据。文本由PDF转换为TXT格式,元数据(CSV文件)记录作家、受访者、修订者的姓名及种族性别、访谈地点和年份等信息。数据用于历史研究,需注意种族性别标签的复杂性,仅含北卡罗来纳大学教堂山分校收藏的部分内容。 文件详解 压缩包文件...
    packageimg
  • Gemein_Nachrichten_Based_00884号莱里斯演讲公共城堡集会文本_Transkript

    2025年12月28日 30 158 1

    数据集概述 本数据集为Unitätsarchiv Herrnhut提供的弟兄会《Gemein-Nachrichten》文献转录数据,包含1765年起延续的弟兄会通讯中,莱里斯于12月25日在公共城堡集会的演讲内容。数据以XML-TEI格式转录并附标准化文本,含原始转录、元数据增强版及标注版文件,共4个文件。 文件详解 [ID]_01.xml...
    packageimg
  • 古拉格回忆录数据集

    2025年12月21日 30 209 41

    数据集概述 本数据集是古拉格回声团队(Gulag Echoes Team)使用和分析的古拉格主题回忆录资料,包含15个文件,涵盖多种格式,为研究古拉格相关历史记忆提供基础文本与结构化数据支持。 文件详解 结构化数据文件: Sakharov Center Gulag Memoirs Data (Authors with bios, table,...
    packageimg
  • 克罗斯特维茨药房历史档案数据集

    2025年12月21日 30 69 31

    数据集概述 该数据集包含德国克罗斯特维茨药房的历史档案,主要为1924年和1948年的历史问卷、索引卡及部分附随材料,通过Kalliope门户编目,记录药房历史相关信息。 文件详解 文件名称:08780.tiff 文件格式:TIFF(.tiff) 内容说明:药房历史档案的栅格图像文件 文件名称:08780.pdf 文件格式:PDF(.pdf)...
    packageimg
  • 希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集

    2025年12月18日 30 18 1

    数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
    packageimg
  • 德国哈斯福特艾因霍恩药房历史档案集

    2025年12月18日 30 160 102

    数据集概述 本数据集包含德国哈斯福特艾因霍恩药房的历史档案,核心为1924至1948年间的问卷、索引卡及部分相关附件,记录药房历史信息,通过Kalliope门户网站编目,为研究德国药房历史提供一手资料。 文件详解 文件名称: 18902.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 政府企业安全指南研究开放科学工件

    2025年12月23日 30 63 30

    数据集概述 该数据集是论文《A First Look at Governments' Enterprise Security Guidance》的开放科学工件,包含政府安全建议结构分析的工具、数据与文档,支持对不同政府实体安全推荐内容的处理、比较及可视化研究。 文件详解 文档类文件: A First Look at Governments'...
    packageimg
  • 哈尔伯施塔特凯撒药房历史档案数据集1924_1947

    2025年12月23日 30 99 21

    数据集概述 该数据集包含德国哈尔伯施塔特凯撒药房的历史档案,核心为1924至1948年间的问卷、索引卡及部分相关附件,通过Kalliope门户网站编目,记录药房历史相关信息。 文件详解 文件名称:18771.pdf 文件格式:PDF 内容说明:历史档案文档类文件,可能包含问卷或档案文本内容 文件名称:18771.tiff 文件格式:TIFF...
    packageimg
  • 德国Köben药房历史档案集1924_1948

    2025年12月23日 30 106 60

    数据集概述 该数据集包含1924年至1948年期间德国Köben药房的历史档案,主要为历史问卷、索引卡片及部分相关附件,通过Kalliope门户网站进行编目,记录了该药房的历史发展相关信息。 文件详解 文件名称: 19276.pdf 文件格式: PDF 内容说明: 德国Köben药房历史档案的文档类文件 文件名称: 19276.tiff 文件格式:...
    packageimg
  • Kalliope_German_Pharmacy_History_Based_德国药房历史档案完整数据集_1924_1948

    2025年12月23日 30 133 93

    数据集概述 该数据集包含与德国药房历史相关的历史问卷(1924-1948年)、索引卡片及部分公开附录材料,通过Kalliope门户编目,记录特定药房的历史背景与相关文献信息。 文件详解 文件名称:18780.pdf 文件格式:PDF 内容:包含历史问卷、索引卡片等与德国药房历史相关的文献资料 文件名称:18780.tiff 文件格式:TIFF...
    packageimg