找到600个数据集

标签: 信息检索

过滤结果
  • 文本预处理语料库TextPreprocessingCorpus-dinhnhattruong

    2025年5月30日   

    文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:...
    packageimg
  • 文件检索增强生成数据集RAGFilesDataset-anrenk

    2025年5月30日   

    文件检索增强生成数据集RAGFilesDataset-anrenk 数据来源:互联网公开数据 标签:数据集,信息检索,自然语言处理,生成式AI,文件处理,知识管理,AI应用,文本分析 数据概述:该数据集包含用于检索增强生成(RAG)任务的多格式文件数据,记录了各类文档、文本和文件的检索与生成数据。主要特征如下:...
    packageimg
  • 标题:文本标题提取数据集(Hasninasri Title Extraction Dataset)

    2025年5月30日   

    标题:文本标题提取数据集(Hasninasri Title Extraction Dataset) 数据来源:互联网公开数据 标签:文本分析,标题提取,自然语言处理,机器学习,文本挖掘,NLP,数据集,信息检索 数据概述: 该数据集由Hasninasri提供,旨在用于文本标题的提取和生成任务,包含大量的文本内容及其对应的标题。主要特征如下:...
    packageimg
  • 博客分类数据集BlogsClassificationDataset-atharvpatawar

    2025年5月30日   

    博客分类数据集BlogsClassificationDataset-atharvpatawar 数据来源:互联网公开数据 标签:博客,分类,数据集,自然语言处理,文本分析,机器学习,信息检索,文本挖掘 数据概述:该数据集包含来自多个来源的博客文章数据,记录了各类博客的内容及其对应的分类标签。主要特征如下:...
    packageimg
  • BM25文档检索与信息提取数据集BM25DocumentRetrievalandInformationExtractionDataset-dinhnhattruong

    2025年5月30日   

    BM25文档检索与信息提取数据集BM25DocumentRetrievalandInformationExtractionDataset-dinhnhattruong 数据来源:互联网公开数据 标签:文档检索,信息提取,数据集,信息检索,自然语言处理,机器学习,文本挖掘,数据科学 数据概述:...
    packageimg
  • Windows系统注释数据集-luckyrxy

    2025年5月30日   

    Windows系统注释数据集-luckyrxy 数据来源:互联网公开数据 标签:Windows,操作系统,数据集,注释,软件工程,文本分析,自然语言处理,信息检索 数据概述: 该数据集包含Windows操作系统相关的注释信息,旨在提供关于Windows系统功能、代码、API等的详细描述。主要特征如下:...
    packageimg
  • LSH算法输出数据集LSHAlgorithmOutputDataset-aniladepu

    2025年5月30日   

    LSH算法输出数据集LSHAlgorithmOutputDataset-aniladepu 数据来源:互联网公开数据 标签:算法输出,局部敏感哈希,数据集,数据处理,机器学习,数据挖掘,计算机科学,信息检索 数据概述: 该数据集包含来自局部敏感哈希(LSH)算法的输出结果,记录了LSH算法在处理大规模数据时的哈希结果。主要特征如下:...
    packageimg
  • 信息检索与机器阅读理解数据集MSMARCODataset-parthplc

    2025年5月30日   

    信息检索与机器阅读理解数据集MSMARCODataset-parthplc 数据来源:互联网公开数据 标签:信息检索,机器阅读理解,数据集,自然语言处理,搜索技术,人工智能,深度学习,文本分类 数据概述: 该数据集由微软(Microsoft)发布,主要记录了面向大规模信息检索和机器阅读理解任务的数据。主要特征如下:...
    packageimg
  • 数据10万条数据与600万FAISS索引上下文数据集-hozaifazaki99

    2025年5月30日   

    10万条数据与600万FAISS索引上下文数据集-hozaifazaki99 数据来源:互联网公开数据 标签:文本数据,向量检索,FAISS,上下文学习,自然语言处理,信息检索,数据集,机器学习 数据概述: 该数据集包含10万条文本数据及其对应的FAISS索引上下文,用于评估和训练向量检索模型。主要特征如下:...
    packageimg
  • 法律问答数据集LegalQuestionAnsweringDataset-quangnm144

    2025年5月30日   

    法律问答数据集LegalQuestionAnsweringDataset-quangnm144 数据来源:互联网公开数据 标签:法律问答, 信息检索, 自然语言处理, 问答系统, 法律文本, 文本匹配, 数据集, 知识图谱 数据概述:...
    packageimg
  • 查询扩展技术数据集QueryExpansionDataset-fallzqm

    2025年5月30日   

    查询扩展技术数据集QueryExpansionDataset-fallzqm 数据来源:互联网公开数据 标签:信息检索,查询扩展,数据集,自然语言处理,机器学习,搜索引擎,文本分析,人工智能 数据概述: 该数据集专注于查询扩展技术,记录了用户查询及其扩展后的相关查询信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 虚假新闻预处理数据集-gongjunmin

    2025年5月30日   

    虚假新闻预处理数据集-gongjunmin 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,数据集,机器学习,新闻分类,信息检索,舆情分析 数据概述: 该数据集包含了经过预处理的虚假新闻数据,旨在用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间范围涵盖近年来新闻报道。...
    packageimg
  • arXiv论文集增强版包含文体特征数据集arXivDatasetEnhancedwithStylometricFeatures-desaraxhura

    2025年5月30日   

    arXiv论文集增强版包含文体特征数据集arXivDatasetEnhancedwithStylometricFeatures-desaraxhura 数据来源:互联网公开数据 标签:学术研究,文体分析,数据集,机器学习,文本挖掘,自然语言处理,信息检索,数据科学 数据概述:...
    packageimg
  • 维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami

    2025年5月30日   

    维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami 数据来源:互联网公开数据 标签:电影,维基百科,IMDb,数据集,文本分析,信息检索,数据挖掘,关联分析 数据概述: 该数据集整合了维基百科电影条目信息和互联网电影数据库(IMDb)数据,记录了电影的详细信息及其关联。主要特征如下: 时间跨度:...
    packageimg
  • 哈萨克斯坦公共服务问答数据集KazakhstanPublicServiceQuestionAnsweringDataset-dianastam

    2025年5月29日   

    哈萨克斯坦公共服务问答数据集KazakhstanPublicServiceQuestionAnsweringDataset-dianastam 数据来源:互联网公开数据 标签:问答系统, 公共服务, 自然语言处理, 文本匹配, 机器阅读理解, 信息检索, 哈萨克斯坦, Egov 数据概述:...
    packageimg
  • 维基百科标识符数据集Wiki-IDSDataset-useruser98

    2025年5月29日   

    维基百科标识符数据集Wiki-IDSDataset-useruser98 数据来源:互联网公开数据 标签:维基百科,标识符,数据集,文本分析,自然语言处理,信息检索,学术研究,网络科学 数据概述:该数据集包含了来自维基百科的页面标识符数据,记录了维基百科页面的唯一标识符及其相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。...
    packageimg
  • 维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze

    2025年5月29日   

    维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze 数据来源:互联网公开数据 标签:维基百科,日语,自然语言处理,数据集,文本分析,语言学,信息检索,文本解析 数据概述: 该数据集包含来自维基百科日语版的数据,记录了维基百科日语条目的初始解析结果。主要特征如下:...
    packageimg
  • 新冠疫情政策问答数据集COVID-19PolicyQuestionAnsweringDataset-guojinxu

    2025年5月29日   

    新冠疫情政策问答数据集COVID-19PolicyQuestionAnsweringDataset-guojinxu 数据来源:互联网公开数据 标签:新冠疫情, 政策问答, 信息检索, 自然语言处理, 文本匹配, 问答系统, 数据集, 疫情政策 数据概述:...
    packageimg
  • 哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0

    2025年5月29日   

    哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0 数据来源:互联网公开数据 标签:电子政务, 问答系统, 自然语言处理, 信息检索, 文本分析, 机器学习, 语言识别, 哈萨克斯坦 数据概述:...
    packageimg
  • 药物名称数据集UCIDrugNameDataset-ahmedalghali

    2025年5月29日   

    药物名称数据集UCIDrugNameDataset-ahmedalghali 数据来源:互联网公开数据 标签:药物名称,数据集,药理学,医学,数据清洗,信息检索,自然语言处理,健康科学 数据概述:该数据集来源于UCI机器学习库,记录了多种药物的相关信息,包括药物名称、品牌名称、药物类别、活性成分等。主要特征如下:...
    packageimg