找到185个数据集

标签: 信息提取

过滤结果
  • 哈根_恩格尔药房历史档案数据集1924_1948

    2025年12月6日   

    数据集概述 该数据集包含德国哈根·恩格尔药房的历史档案,主要为1924-1948年间的调查问卷、索引卡片及部分相关附件,通过Kalliope门户网站编目,记录药房历史相关信息。 文件详解 文件名称:18754.tiff,文件格式:TIFF,为光栅图像文件,可能包含药房历史档案的扫描影像...
    packageimg
  • 希腊议会二战后会议记录分析与识别数据集1946_1947

    2025年12月5日   

    数据集概述 该数据集通过文本识别与自然语言处理技术,解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像,以及通过语言模型优化、信息提取技术分析的演讲数据,首次量化了获得掌声的议题。 文件详解 文件名称: README.md,文件格式: Markdown,内容:...
    packageimg
  • ЗООФРАЗЕМАЛАРНИНГ_Based_语义结构分析完整数据

    2025年12月5日   

    数据集概述 该数据集包含一份与"ЗООФРАЗЕМАЛАРНИНГ СЕМАНТИК СТРУКТУРАСИГА ДОИР"主题相关的文档,以PDF格式存储,为研究该主题的语义结构提供数据支持。 文件详解 文件名称: Азамов Омаджон Бурхонович.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 欧洲上市航空公司2023年度及可持续发展报告数据集

    2025年12月5日   

    数据集概述 本数据集包含欧洲十六家上市航空公司集团2023年度报告及可持续发展报告,主要来自各航空公司投资者关系网站。可持续发展报告多包含于年度报告中,少数为单独文档,共二十一份PDF文件。 文件详解 文件类型:均为PDF格式,共二十一份 具体文件示例:...
    packageimg
  • 戈赫狮药店历史档案数据集

    2025年12月5日   

    数据集概述 该数据集包含德国戈赫狮药店的历史档案,主要为1924年和1948年的历史问卷、索引卡片及部分公开附录材料,通过Kalliope门户编目,记录了药店的历史信息。 文件详解 数据集包含2个文件,具体说明如下: - 文件名称:18618.tiff - 文件格式:TIFF(.tiff) -...
    packageimg
  • LOTUS开放天然产物研究计划自定义词典

    2025年12月5日   

    数据集概述 该数据集包含LOTUS开放天然产物研究计划框架下创建的自定义词典,以压缩文件形式存储,为天然产物研究领域提供标准化术语参考,支持相关学术分析与数据处理。 文件详解 文件名称: dictionarySource.zip 文件格式: ZIP压缩包(.zip) 文件内容: 包含LOTUS计划框架下构建的自定义词典数据,具体字段与结构需解压后查看...
    packageimg
  • 数字世界新视角数据集

    2025年12月4日   

    数据集概述 该数据集包含一份关于“数字世界新视角”主题的PDF文档,未提供具体描述内容,主要以文档形式呈现相关主题信息。 文件详解 文件名称: Combined_Document.pdf 文件格式: PDF 内容说明: 该文件为单一文档文件,未提供具体字段或内容结构描述,推测为与“数字世界新视角”主题相关的文本资料。 适用场景 数字领域主题内容分析...
    packageimg
  • 软件相似度数据集

    2025年12月4日   

    数据集概述 该数据集包含软件相似度学习的后处理数据,涉及软件功能的嵌入表示、软件信息提取结果及软件对的相似度评分数据,支持软件相似度相关研究与分析。 文件详解 数据压缩包: data.zip:ZIP格式压缩包,可能包含软件功能嵌入与信息提取的原始或处理后数据,如嵌入的软件图表示、函数名称及对应调用函数和函数令牌的信息。 相似度评分文件:...
    packageimg
  • 俄语简历信息文本数据集

    2025年10月9日   

    俄语简历信息文本数据集_Russian_Resume_Information_Text_Dataset 数据来源:互联网公开数据 标签:简历数据, 俄语文本, 职业信息, 文本挖掘, 自然语言处理, 简历分析, 职位描述, 信息提取 数据概述: 该数据集包含从俄语简历中提取的结构化文本信息,旨在为职业分析、简历解析等任务提供数据支持。主要特征如下:...
    packageimg
  • 邮件文本内容分析数据集

    2025年9月26日   

    邮件文本内容分析数据集_Email_Text_Content_Analysis 数据来源:互联网公开数据 标签:邮件内容, 文本分析, 自然语言处理, 文本挖掘, 数据清洗, 信息提取, 邮件安全, 语料库 数据概述: 该数据集包含来自邮件文本的数据,记录了邮件的原始内容。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态文本语料库。...
    packageimg
  • 越南新闻文章内容分类数据集

    2025年9月24日   

    越南新闻文章内容分类数据集_Vietnam_News_Articles_Content_Classification 数据来源:互联网公开数据 标签:新闻文章, 内容分类, 文本分析, 越南语, 自然语言处理, 机器学习, 时事新闻, 数据集 数据概述:...
    packageimg
  • COVID-19实体识别数据集

    2025年6月1日   

    COVID-19实体识别数据集 数据来源:互联网公开数据 标签:COVID-19,实体识别,自然语言处理,公共卫生,文本挖掘,知识图谱,信息提取 数据概述:...
    packageimg
  • 巴西新闻文章文本数据集-新闻内容分析-2024

    2025年5月31日   

    巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。...
    packageimg
  • COVID-19开放研究数据集-2021-sshikamaru

    2025年5月31日   

    COVID-19开放研究数据集-2021-sshikamaru 数据来源:互联网公开数据 标签:COVID-19,开放研究,自然语言处理,医学研究,数据科学,科研数据,科学数据,疫情研究 数据概述:...
    packageimg
  • CORD-19文本清洗数据集

    2025年5月31日   

    CORD-19文本清洗数据集 数据来源:互联网公开数据 标签:文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取 数据概述: 本数据集是对CORD-19(COVID-19 Open Research...
    packageimg
  • 医疗文档社保号码提取数据集MedicalDocumentSocialSecurityNumberExtractionDataset-chaosmvptr

    2025年5月30日   

    医疗文档社保号码提取数据集MedicalDocumentSocialSecurityNumberExtractionDataset-chaosmvptr 数据来源:互联网公开数据 标签:光学字符识别, OCR, 图像处理, 社保号码, 文本识别, 数据标注, 医疗影像, 信息提取 数据概述:...
    packageimg
  • 孟加拉语文本摘要数据集BengaliTextSummarizationDataset-hasanmoni

    2025年5月30日   

    孟加拉语文本摘要数据集BengaliTextSummarizationDataset-hasanmoni 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,语言技术,孟加拉语,文本分析,信息提取 数据概述:该数据集包含来自互联网公开资源的孟加拉语文本及其对应的摘要,适用于文本摘要生成和自然语言处理研究。主要特征如下:...
    packageimg
  • 文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie

    2025年5月30日   

    文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,机器学习,情感分析,文本分类,语言模型,信息提取 数据概述: 该数据集包含来自多个来源的文本数据,记录了各类文本内容及其相关属性。主要特征如下:...
    packageimg
  • 金融文章处理数据集FinancialArticlesProcessedDataset-danielstegeman

    2025年5月30日   

    金融文章处理数据集FinancialArticlesProcessedDataset-danielstegeman 数据来源:互联网公开数据 标签:金融,文章,数据处理,自然语言处理,数据集,文本分析,机器学习,信息提取 数据概述: 该数据集包含经过处理的金融文章数据,记录了金融领域的相关文章信息。主要特征如下:...
    packageimg
  • 新闻摘要生成数据集XLSumCSVDataset-phoenixdev

    2025年5月30日   

    新闻摘要生成数据集XLSumCSVDataset-phoenixdev 数据来源:互联网公开数据 标签:新闻摘要,数据集,自然语言处理,文本生成,机器学习,信息提取,人工智能,语言模型 数据概述: 该数据集包含来自多个新闻来源的新闻摘要数据,记录了新闻文章及其对应的摘要信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2021年。...
    packageimg