找到600个数据集

标签: 信息检索

过滤结果
  • 生物医学问答数据集QNA-Bio-1024-donutkashvi

    2025年4月24日   

    生物医学问答数据集QNA-Bio-1024-donutkashvi 数据来源:互联网公开数据 标签:生物医学,问答系统,数据集,自然语言处理,机器学习,医疗健康,医学知识,信息检索 数据概述: 该数据集包含来自多个生物医学领域的问答数据,旨在用于构建和评估生物医学问答系统。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。...
    packageimg
  • 维基百科文章向量文件数据集WikipediaArticlesVectorFileDataset-sachinsk

    2025年4月24日   

    维基百科文章向量文件数据集WikipediaArticlesVectorFileDataset-sachinsk 数据来源:互联网公开数据 标签:维基百科,文章向量,自然语言处理,数据集,机器学习,文本分析,词嵌入,信息检索 数据概述: 该数据集包含来自维基百科的文章向量数据,记录了维基百科文章的词嵌入向量。主要特征如下: 时间跨度:...
    packageimg
  • 文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser

    2025年4月24日   

    文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser 数据来源:互联网公开数据 标签:文本分析,TF-IDF,数据集,自然语言处理,机器学习,信息检索,文本挖掘,文本特征 数据概述: 该数据集包含来自公开提交的文本特征提取数据,记录了通过TF-IDF方法提取的文本特征。主要特征如下:...
    packageimg
  • 垃圾邮件检测语料库数据集SpamAssassinCorpusDataset-shobhab

    2025年4月24日   

    垃圾邮件检测语料库数据集SpamAssassinCorpusDataset-shobhab 数据来源:互联网公开数据 标签:垃圾邮件,文本分类,自然语言处理,数据集,机器学习,邮件过滤,文本分析,信息检索 数据概述:该数据集包含来自SpamAssassin项目的邮件数据,用于训练和测试垃圾邮件过滤系统。主要特征如下:...
    packageimg
  • 泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss

    2025年4月24日   

    泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:...
    packageimg
  • 多分类电子邮件数据集-amalverma27

    2025年4月24日   

    多分类电子邮件数据集-amalverma27 数据来源:互联网公开数据 标签:电子邮件,文本分类,垃圾邮件检测,自然语言处理,机器学习,数据集,邮件安全,信息检索 数据概述: 该数据集包含电子邮件数据,旨在用于文本分类和垃圾邮件检测任务。主要特征如下: 时间跨度:数据记录的时间跨度不明确,但包含历史邮件数据。...
    packageimg
  • 维基百科法语数据集WikipediaFrenchDataset-manueldesiretaira

    2025年4月24日   

    维基百科法语数据集WikipediaFrenchDataset-manueldesiretaira 数据来源:互联网公开数据 标签:维基百科,法语,数据集,自然语言处理,文本分析,语言学,机器学习,信息检索 数据概述: 该数据集包含来自维基百科的法语语言内容,记录了多个领域的百科全书条目。主要特征如下:...
    packageimg
  • 新闻分类数据集NewsCategoryDataset-aishwaryamathala

    2025年4月24日   

    新闻分类数据集NewsCategoryDataset-aishwaryamathala 数据来源:互联网公开数据 标签:新闻分类,数据集,机器学习,自然语言处理,文本分析,信息检索,媒体研究,文本挖掘 数据概述:该数据集包含来自多个新闻来源的新闻文章,记录了不同类别的新闻内容。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 假新闻识别数据集FNC-1-FakeNewsChallenge-hnganhtrn

    2025年4月24日   

    假新闻识别数据集FNC-1-FakeNewsChallenge-hnganhtrn 数据来源:互联网公开数据 标签:假新闻,新闻,文本分析,自然语言处理,机器学习,情感分析,信息检索,文本分类 数据概述: 该数据集来自假新闻挑战赛(Fake News Challenge,FNC-1),旨在促进假新闻的自动检测和识别。主要特征如下:...
    packageimg
  • 词性标注英文语料库数据集TaggedWordsDataset-ramakrushnamohapatra

    2025年4月24日   

    词性标注英文语料库数据集TaggedWordsDataset-ramakrushnamohapatra 数据来源:互联网公开数据 标签:词性标注,数据集,自然语言处理,机器学习,语言学,文本分析,学术研究,信息检索 数据概述:该数据集包含来自Penn Treebank的词性标注数据,记录了英文文本中每个单词的词性和上下文信息。主要特征如下:...
    packageimg
  • 新冠疫情问答数据集CovidSQUAD-lachonman2

    2025年4月24日   

    新冠疫情问答数据集CovidSQUAD-lachonman2 数据来源:互联网公开数据 标签:新冠疫情,问答数据,自然语言处理,信息检索,机器学习,健康科学,公众健康,数据集 数据概述:该数据集包含来自多个来源的新冠疫情相关问答数据,记录了与新冠疫情相关的常见问题及其详细解答。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。...
    packageimg
  • 自然语言处理与开放域问答数据集NLPOpen-DomainQuestionAnsweringDataset-zepedaerik

    2025年4月24日   

    自然语言处理与开放域问答数据集NLPOpen-DomainQuestionAnsweringDataset-zepedaerik 数据来源:互联网公开数据 标签:自然语言处理,开放域问答,数据集,文本理解,机器学习,信息检索,人工智能,语言模型 数据概述: 该数据集包含来自开放域问答任务的数据,记录了用户提出的问题及对应的答案。主要特征如下:...
    packageimg
  • 电影推荐系统数据集MovieRecommendationSystemDataset-hemangbairwa

    2025年4月24日   

    电影推荐系统数据集MovieRecommendationSystemDataset-hemangbairwa 数据来源:互联网公开数据 标签:电影推荐,数据集,用户行为,机器学习,推荐系统,数据挖掘,商业智能,信息检索 数据概述: 该数据集包含来自在线电影推荐平台的数据,记录了用户对电影的评价和互动行为。主要特征如下:...
    packageimg
  • 邮件分类数据集EmailCategoriesDataset-tobniislam

    2025年4月24日   

    邮件分类数据集EmailCategoriesDataset-tobniislam 数据来源:互联网公开数据 标签:邮件分类,文本分析,自然语言处理,数据集,机器学习,情感分析,文本挖掘,信息检索 数据概述: 该数据集包含来自不同来源的电子邮件数据,旨在用于邮件分类和文本分析任务。主要特征如下: 时间跨度:数据记录的时间范围跨度不明确,取决于具体来源。...
    packageimg
  • 新闻分类数据集AgNewsClassificationDataset-jatinsareen

    2025年4月24日   

    新闻分类数据集AgNewsClassificationDataset-jatinsareen 数据来源:互联网公开数据 标签:新闻分类,数据集,自然语言处理,文本分析,机器学习,深度学习,文本挖掘,信息检索 数据概述:该数据集包含来自Ag News的数据,记录了各类新闻文章的标题和内容,适用于新闻分类和文本分析任务。主要特征如下:...
    packageimg
  • 英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608

    2025年4月24日   

    英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,机器学习,文本分类,信息检索,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本,涵盖多个新闻类别。主要特征如下:...
    packageimg
  • 样本索引数据集SampleIndexDataset-edmundng200

    2025年4月24日   

    样本索引数据集SampleIndexDataset-edmundng200 数据来源:互联网公开数据 标签:索引,数据集,文本分析,自然语言处理,信息检索,机器学习,数据挖掘,样本 数据概述: 该数据集包含样本索引数据,记录了文本样本与索引之间的对应关系。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于样本数据的更新频率。...
    packageimg
  • 美国专利商标局专利词汇数据集USPTOWordsDataset-durrivedfunktor

    2025年4月24日   

    美国专利商标局专利词汇数据集USPTOWordsDataset-durrivedfunktor 数据来源:互联网公开数据 标签:专利,词汇,数据集,文本分析,自然语言处理,知识产权,机器学习,信息检索 数据概述: 该数据集包含来自美国专利商标局(USPTO)的专利文本数据,记录了专利文件中的关键词汇和术语。主要特征如下:...
    packageimg
  • 歧义数据分析数据集AmbiguousDataAnalysisDataset-aryatrivedi

    2025年4月24日   

    歧义数据分析数据集AmbiguousDataAnalysisDataset-aryatrivedi 数据来源:互联网公开数据 标签:数据分析,歧义数据,文本挖掘,自然语言处理,数据集,信息检索,机器学习,语义分析 数据概述: 该数据集包含用于研究和分析歧义数据的数据,旨在探索和处理文本数据中存在的歧义性。主要特征如下:...
    packageimg
  • 国家别名对照数据集-andreneedsambulance

    2025年4月24日   

    国家别名对照数据集-andreneedsambulance 数据来源:互联网公开数据 标签:国家,别名,地理,数据,信息检索,自然语言处理,地图绘制,数据清洗 数据概述: 该数据集包含了国家及其常用别名的数据,旨在提供国家名称和常用替代称呼之间的映射关系。主要特征如下: 时间跨度:数据持续更新,涵盖了不同时期和语境下的国家别名。...
    packageimg