-
数据10万条数据与600万FAISS索引上下文数据集-hozaifazaki99
10万条数据与600万FAISS索引上下文数据集-hozaifazaki99 数据来源:互联网公开数据 标签:文本数据,向量检索,FAISS,上下文学习,自然语言处理,信息检索,数据集,机器学习 数据概述: 该数据集包含10万条文本数据及其对应的FAISS索引上下文,用于评估和训练向量检索模型。主要特征如下:... -
法律问答数据集LegalQuestionAnsweringDataset-quangnm144
法律问答数据集LegalQuestionAnsweringDataset-quangnm144 数据来源:互联网公开数据 标签:法律问答, 信息检索, 自然语言处理, 问答系统, 法律文本, 文本匹配, 数据集, 知识图谱 数据概述:... -
查询扩展技术数据集QueryExpansionDataset-fallzqm
查询扩展技术数据集QueryExpansionDataset-fallzqm 数据来源:互联网公开数据 标签:信息检索,查询扩展,数据集,自然语言处理,机器学习,搜索引擎,文本分析,人工智能 数据概述: 该数据集专注于查询扩展技术,记录了用户查询及其扩展后的相关查询信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
虚假新闻预处理数据集-gongjunmin
虚假新闻预处理数据集-gongjunmin 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,数据集,机器学习,新闻分类,信息检索,舆情分析 数据概述: 该数据集包含了经过预处理的虚假新闻数据,旨在用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间范围涵盖近年来新闻报道。... -
arXiv论文集增强版包含文体特征数据集arXivDatasetEnhancedwithStylometricFeatures-desaraxhura
arXiv论文集增强版包含文体特征数据集arXivDatasetEnhancedwithStylometricFeatures-desaraxhura 数据来源:互联网公开数据 标签:学术研究,文体分析,数据集,机器学习,文本挖掘,自然语言处理,信息检索,数据科学 数据概述:... -
维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami
维基百科电影数据与互联网电影数据库IMDb信息关联数据集-takanami 数据来源:互联网公开数据 标签:电影,维基百科,IMDb,数据集,文本分析,信息检索,数据挖掘,关联分析 数据概述: 该数据集整合了维基百科电影条目信息和互联网电影数据库(IMDb)数据,记录了电影的详细信息及其关联。主要特征如下: 时间跨度:... -
哈萨克斯坦公共服务问答数据集KazakhstanPublicServiceQuestionAnsweringDataset-dianastam
哈萨克斯坦公共服务问答数据集KazakhstanPublicServiceQuestionAnsweringDataset-dianastam 数据来源:互联网公开数据 标签:问答系统, 公共服务, 自然语言处理, 文本匹配, 机器阅读理解, 信息检索, 哈萨克斯坦, Egov 数据概述:... -
维基百科标识符数据集Wiki-IDSDataset-useruser98
维基百科标识符数据集Wiki-IDSDataset-useruser98 数据来源:互联网公开数据 标签:维基百科,标识符,数据集,文本分析,自然语言处理,信息检索,学术研究,网络科学 数据概述:该数据集包含了来自维基百科的页面标识符数据,记录了维基百科页面的唯一标识符及其相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze
维基百科日语初始解析数据集KawikiInitialParsedDataset-zvikinozadze 数据来源:互联网公开数据 标签:维基百科,日语,自然语言处理,数据集,文本分析,语言学,信息检索,文本解析 数据概述: 该数据集包含来自维基百科日语版的数据,记录了维基百科日语条目的初始解析结果。主要特征如下:... -
新冠疫情政策问答数据集COVID-19PolicyQuestionAnsweringDataset-guojinxu
新冠疫情政策问答数据集COVID-19PolicyQuestionAnsweringDataset-guojinxu 数据来源:互联网公开数据 标签:新冠疫情, 政策问答, 信息检索, 自然语言处理, 文本匹配, 问答系统, 数据集, 疫情政策 数据概述:... -
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0 数据来源:互联网公开数据 标签:电子政务, 问答系统, 自然语言处理, 信息检索, 文本分析, 机器学习, 语言识别, 哈萨克斯坦 数据概述:... -
药物名称数据集UCIDrugNameDataset-ahmedalghali
药物名称数据集UCIDrugNameDataset-ahmedalghali 数据来源:互联网公开数据 标签:药物名称,数据集,药理学,医学,数据清洗,信息检索,自然语言处理,健康科学 数据概述:该数据集来源于UCI机器学习库,记录了多种药物的相关信息,包括药物名称、品牌名称、药物类别、活性成分等。主要特征如下:... -
学术论文出版物信息数据集AcademicPaperPublicationInformation-hsnmsr
学术论文出版物信息数据集AcademicPaperPublicationInformation-hsnmsr 数据来源:互联网公开数据 标签:学术论文, 出版物, 期刊, 会议, 引文分析, 文本挖掘, 数据挖掘, 信息检索 数据概述: 该数据集包含来自学术出版物的元数据,记录了学术论文的详细信息,包括文章和会议论文。主要特征如下:... -
清洗后的电子邮件数据集-ashishgoraniya
清洗后的电子邮件数据集-ashishgoraniya 数据来源:互联网公开数据 标签:电子邮件,数据集,文本分析,自然语言处理,垃圾邮件检测,信息检索,情感分析,数据清洗 数据概述: 该数据集包含了经过清洗的电子邮件数据,主要用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间跨度不明确,取决于原始邮件的时间范围。... -
网站搜索相关性评估数据集WebsiteSearchRelevanceAssessmentDataset-karthickp6
网站搜索相关性评估数据集WebsiteSearchRelevanceAssessmentDataset-karthickp6 数据来源:互联网公开数据 标签:搜索优化,数据集,信息检索,机器学习,用户体验,自然语言处理,网站分析,技术评估... -
虚假新闻识别训练与测试数据集FakeNewsIdentificationTrainingandTestingDataset-alinasir1596
虚假新闻识别训练与测试数据集FakeNewsIdentificationTrainingandTestingDataset-alinasir1596 数据来源:互联网公开数据 标签:虚假新闻,数据集,自然语言处理,文本分类,机器学习,新闻分析,信息检索,舆情分析 数据概述:... -
学术论文文本数据集PaperTextDataset-divanshu22
学术论文文本数据集PaperTextDataset-divanshu22 数据来源:互联网公开数据 标签:学术论文,文本分析,数据集,自然语言处理,机器学习,文本挖掘,信息检索,教育研究 数据概述: 该数据集包含来自学术期刊和会议的论文文本数据,记录了多篇学术论文的全文内容。主要特征如下: 时间跨度:数据记录的时间范围从2000年到2023年。... -
文本特征提取与词向量融合数据集TF-IDFandW2VCombinedDataset-tohidul16182
文本特征提取与词向量融合数据集TF-IDFandW2VCombinedDataset-tohidul16182 数据来源:互联网公开数据 标签:文本分析,特征提取,词向量,机器学习,自然语言处理,数据挖掘,信息检索,深度学习 数据概述: 该数据集包含文本特征提取和词向量融合的数据,记录了通过TF-IDF(词频-... -
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,新闻,机器学习,信息检索,深度学习,语言模型 数据概述: 该数据集包含来自新闻网站的多个新闻报道及其对应的摘要,旨在用于文本摘要任务。主要特征如下:... -
奥利维亚搜索数据集OliviaFinderRepoFinalDataset-danielalonsob
奥利维亚搜索数据集OliviaFinderRepoFinalDataset-danielalonsob 数据来源:互联网公开数据 标签:社交媒体,用户画像,文本分析,情感分析,数据集,数据挖掘,自然语言处理,信息检索 数据概述: 该数据集来源于奥利维亚搜索项目,主要记录了社交媒体平台上用户发布的内容,旨在构建用户画像和进行情感分析。主要特征如下:...