找到185个数据集

标签: 信息提取

过滤结果
  • Open_Archeology_Special_Issue_考古学结构化数字数据文本注释数据集_最终版

    2026年1月1日 30 161 60

    数据集概述 本数据集是论文《论考古学中结构化数字数据的新兴主导地位:对遗留信息、知识与智慧的初步评估》的文本注释结果,包含4个XML格式文件,采用CIDOC CRM标准进行注释,用于支撑考古学中结构化数字数据价值的研究分析。 文件详解 XML注释文件(共4个)...
    packageimg
  • Moritz_etal_2016_Representation_control_交互信息图表表征控制实验数据

    2025年12月29日 0 161 46

    数据集概述 本数据集围绕交互信息图表中的表征控制展开研究,对比了具有交互功能(可调整信息显示方式)和无交互功能的实验条件下,用户完成信息提取任务的响应时间与准确性差异,包含实验数据文件及相关代码、元数据等资源。 文件详解 文件名称:Moritz_etal_2016_Representation_control.zip 文件格式:ZIP...
    packageimg
  • DevScholar_Based_医疗CT半结构化数据文档分析完整数据

    2025年12月25日 30 162 49

    数据集概述 该数据集包含1个半结构化PDF文档和1个压缩包文件,核心围绕医疗CT相关的半结构化内容展开,文件类型涵盖文档与压缩包,为相关研究或应用提供基础数据支持。 文件详解 文件名称:semi-structured.pdf 文件格式:PDF(.pdf) 内容说明:含医疗CT相关的半结构化信息 文件名称:DevScholar.zip...
    packageimg
  • 萨洛马特利克尼阿斯雷迪甘塔利米尤穆希特尼雅拉提什文档

    2025年12月23日 30 14 3

    数据集概述 本数据集包含一份PDF文档,内容围绕“萨洛马特利克尼阿斯雷迪甘塔利米尤穆希特尼雅拉提什”主题展开,为相关研究或实践提供基础资料支持。 文件详解 文件名称: T.Ummatqulov.pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕“萨洛马特利克尼阿斯雷迪甘塔利米尤穆希特尼雅拉提什”主题撰写,具体内容需查看文档原文获取。...
    packageimg
  • 德国Cranz_Adler药房历史档案数据集1924_1948

    2025年12月23日 30 129 48

    数据集概述 该数据集包含与德国Cranz Adler药房历史相关的档案资料,主要为1924至1948年间的历史问卷、索引卡片及部分公开附录材料,通过Kalliope门户网站编目,记录药房历史相关信息。 文件详解 文件名称:74525.tiff:TIFF格式的栅格文件,可能为档案的图像扫描件...
    packageimg
  • 十年诉讼中的部分合同描述

    2025年12月22日 30 168 70

    数据集概述 该数据集包含一份关于十年诉讼中部分合同的描述文档,以PDF格式存储,为了解相关合同内容与诉讼背景提供基础资料。 文件详解 文件名称: Mashrabjonov Ulug‘bek Azamjon o‘g‘li.pdf 文件格式: PDF (.pdf) 文件内容: 文档类型文件,具体字段及内容未提供详细映射信息 适用场景 法律研究:...
    packageimg
  • 特伦托1936年642号楼建筑数据集

    2025年12月20日 30 35 25

    数据集概述 本数据集包含1936年意大利特伦托市642号楼的建筑信息,涵盖尺寸参数(长、宽、高)、三维模型文件、元数据文件及多视角缩略图,为建筑数字化存档与研究提供全面资料。 文件详解 三维模型文件: building_642.obj:OBJ格式三维模型文件 building_642.glb:GLB格式三维模型文件 元数据文件:...
    packageimg
  • 真菌新物种描述信息分析Python代码补充材料

    2025年12月20日 30 15 9

    数据集概述 本数据集是论文《When mycologists describe new species, not all relevant information is provided (clearly enough)》的补充材料,包含用于解析PDF文件的Python代码,为分析真菌新物种描述信息的完整性提供技术支持。 文件详解 文件名称:...
    packageimg
  • SurveySet_OCR与OMR问卷数字化数据集

    2025年12月20日 30 88 59

    数据集概述 该数据集为SurveySet,是基于真实客户体验问卷构建的数据集,用于支持统一OCR-OMR模型的开发与评估。包含手写数字、勾选标记、叉号、部分填充气泡等文本与视觉输入类型,反映实体问卷的多样性与结构变异性。 文件详解 文件名称: SurveySet.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 会议摘要基准数据集MeetingBank

    2025年12月19日 30 67 63

    数据集概述 该数据集是用于会议摘要任务的基准数据集,基于美国6个主要城市议会会议构建,包含1,366场会议的视频、转录文本、会议记录PDF、议程及元数据,提供6,892个段落级摘要实例,为会议摘要模型训练与评估提供支持。 文件详解 文件名称: MeetingBank.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 无人机结果数据集

    2025年12月18日 30 75 68

    数据集概述 本数据集包含一份无人机相关的结果文档,以PDF格式呈现,内容未提供详细描述,为无人机相关研究或应用提供基础数据支持。 文件详解 文件名称: Presentasi.pdf 文件格式: PDF (.pdf) 内容说明: 该文件为无人机结果相关的文档,具体内容需通过PDF文件查看,未提供字段映射信息。 适用场景 无人机技术研究:...
    packageimg
  • BigGrams半监督HTML信息提取系统数据集

    2025年12月15日 30 49 25

    数据集概述 该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集,包含从真实网站抓取的网页数据,以及对应网站的人工标注参考实例数据,用于支持半监督信息提取方法的研究与验证。 文件详解 数据集包含一个ZIP压缩文件,解压后包含两个主要文件夹,具体说明如下: - 压缩文件: bigrams-reference-data-...
    packageimg
  • MarkupMnA_并购协议标注数据集

    2025年12月15日 30 62 12

    数据集概述 该数据集包含151份美国上市公司并购协议的标注语料,基于SEC EDGAR数据库的HTML filings,添加了章节标题、章节号、页码等标注,采用BEIOS标签方案。旨在支持法律合同长文档的层级表示研究,可与MAUD数据集结合用于法律NLP研究。 文件详解 压缩包文件:...
    packageimg
  • 自动化摘要分类与信息提取多模型框架研究数据与代码

    2025年12月15日 30 179 39

    数据集概述 本数据集为研究论文配套的公开资源,包含自动化摘要分类与信息提取多模型框架的相关数据与代码。核心内容围绕摘要干预分类、参与者数量提取两大任务展开,提供LLM推理结果、分析代码及评估标准数据,支持论文研究结果的复现与扩展。 文件详解 该数据集以ZIP压缩包形式存储,包含以下核心目录和文件: - 主目录文件: -...
    packageimg
  • 基于香农熵最小化的噪声数据最大信息提取研究数据集

    2025年12月14日 30 186 107

    数据集概述 本数据集为支持“通过聚类和香农熵最小化实现最大信息提取”研究的数据,包含冰/水共存轨迹文件、分析代码及对应图表(Fig1-Fig4、FigS1-FigS2)相关文件,为该研究提供数据支撑。 文件详解 文件名称: zenodo_v2.zip 文件格式: .zip(压缩包) 压缩包内包含以下目录及文件: datasets/:...
    packageimg
  • 多语言临床病例报告摘要数据集2025

    2025年12月13日 30 11 9

    数据集概述 该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。 文件详解 该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下: - 黄金标准训练集(各语言592对全文与摘要): -...
    packageimg
  • Webis_Revenue_10_德国新闻营收声明标注数据集

    2025年12月11日 30 182 104

    数据集概述 该数据集包含2003至2009年德国29家新闻网站的1128篇新闻文章,由领域专家手动标注了2075条企业或市场营收声明,每条声明包含7个核心属性,为研究新闻文本中的营收信息提取提供标注数据支持。 文件详解 压缩数据文件:...
    packageimg
  • 火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016

    2025年12月11日 30 119 107

    数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
    packageimg
  • Objaverse_Elanvow_Under_story_Based_航拍模型数据完整数据集

    2025年12月6日 30 20 0

    数据集概述 该数据集为Elanvow Under story的无人机航拍模型局部数据,因密集模型过密基于高度场生成,包含被遮挡区域信息,可作为临时信息内容使用。 文件详解 缩略图文件(thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg):JPEG格式,共4个,占比80%,可能为航拍模型的预览图像...
    packageimg
  • 专家特征数据集

    2025年12月6日 30 77 25

    数据集概述 本数据集包含一份关于专家特征的PDF文档,未提供具体描述信息,整体结构简洁,仅含单个文档文件。 文件详解 文件名称: Expert_Features.pdf 文件格式: PDF (.pdf) 文件内容: 文档类型文件,具体内容未提供详细描述,推测与专家特征相关 适用场景 专家特征研究: 可用于分析专家相关特征的内容梳理与总结 文档内容挖掘:...
    packageimg