-
安然公司邮件与财务报告数据集EnronEmailandFinancialReportsDataset-aaadag
安然公司邮件与财务报告数据集EnronEmailandFinancialReportsDataset-aaadag 数据来源:互联网公开数据 标签:安然公司, 邮件, 财务报告, 文本分析, 信息检索, 电子邮件, 商业, 数据挖掘 数据概述:...
-
维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson
维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 内容生成, 知识图谱, 文本分类, 机器翻译, 语料库, 维基百科 数据概述:...
-
学术论文文本摘要分析数据集AcademicPaperTextAbstractAnalysis-ukjadoon
学术论文文本摘要分析数据集AcademicPaperTextAbstractAnalysis-ukjadoon 数据来源:互联网公开数据 标签:学术论文, 文本分析, 自然语言处理, 摘要生成, 文本挖掘, 信息检索, 学术研究, 机器学习 数据概述: 该数据集包含来自学术论文的数据,记录了论文的标题、摘要和正文内容。主要特征如下:...
-
Lenta-Ru新闻数据集-2019至2023年
Lenta-Ru新闻数据集-2019至2023年 数据来源:互联网公开数据 标签:新闻数据,俄媒,Lenta.Ru,时政,社会新闻,数据集,新闻分析 数据概述:...
-
扎罗人工智能2021法律文本检索数据集ZaloAI2021LegalTextRetrievalDataset-hariwh0
扎罗人工智能2021法律文本检索数据集ZaloAI2021LegalTextRetrievalDataset-hariwh0 数据来源:互联网公开数据 标签:法律文本,检索,自然语言处理,数据集,信息检索,语义匹配,越南语,人工智能 数据概述: 该数据集由扎罗人工智能(Zalo...
-
芬兰文本语料库2010-2020数据集-haaldrin
芬兰文本语料库2010-2020数据集-haaldrin 数据来源:互联网公开数据 标签:文本语料库,自然语言处理,数据集,芬兰语,学术研究,语言学,机器学习,信息检索 数据概述:该数据集包含来自芬兰的文本数据,记录了2010年至2020年期间的多种类型的芬兰语文本。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
-
印度法院判决摘要对数据集-rishipjain
印度法院判决摘要对数据集-rishipjain 数据来源:互联网公开数据 标签:法律,司法,数据集,文本摘要,自然语言处理,机器学习,印度,判决 数据概述: 该数据集包含来自印度法院的判决摘要对数据,记录了印度法院的判决原文及其对应的摘要。主要特征如下: 时间跨度:数据记录的时间范围未知,但涵盖了印度法院的各类判决。...
-
维基百科计算机科学文章数据集-mohamedamgad2002
维基百科计算机科学文章数据集-mohamedamgad2002 数据来源:互联网公开数据 标签:计算机科学,维基百科,数据集,文本分析,自然语言处理,信息检索,学术研究,知识图谱 数据概述: 该数据集包含了维基百科上关于计算机科学领域的文章数据,旨在为计算机科学领域的研究和应用提供支持。主要特征如下:...
-
BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan
BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan 数据来源:互联网公开数据 标签:自然语言处理,文本匹配,数据集,机器学习,语义分析,索赔处理,信息检索,人工智能 数据概述:该数据集包含来自多个来源的索赔文本数据,记录了索赔文本及其相似性匹配对,适用于语义匹配和索赔处理任务。主要特征如下:...
-
法律领域摘要数据集-valleyy
法律领域摘要数据集-valleyy 数据来源:互联网公开数据 标签:法律,数据集,文本摘要,自然语言处理,机器学习,法律文书,信息检索,人工智能 数据概述: 该数据集包含了来自法律领域的文本数据,主要用于文本摘要任务。主要特征如下: 时间跨度: 数据记录的时间范围不限,涵盖了不同时期的法律文书。 地理范围:...
-
文本嵌入向量处理数据集-mrwynx
文本嵌入向量处理数据集-mrwynx 数据来源:互联网公开数据 标签:自然语言处理,文本分析,嵌入向量,数据集,机器学习,语义分析,信息检索,向量空间 数据概述: 该数据集包含了经过处理的文本嵌入向量,旨在用于各种自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间跨度不限,取决于原始文本数据的时间范围。...
-
社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer
社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer 数据来源:互联网公开数据 标签:社交媒体,虚假新闻,NLP,文本分类,机器学习,自然语言处理,信息检索,谣言检测 数据概述: 该数据集包含来自社交媒体平台的文本数据,用于虚假新闻的检测与分析。主要特征如下:...
-
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja 数据来源:互联网公开数据 标签:维基百科,泰卢固语,文本分析,自然语言处理,数据集,语言学,信息检索,文本挖掘 数据概述: 该数据集包含来自泰卢固语维基百科的文章数据,记录了泰卢固语维基百科中所有文章的详细信息。主要特征如下:...
-
印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon
印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon 数据来源:互联网公开数据 标签:新闻头条,数据集,自然语言处理,文本分析,情感分析,机器学习,信息检索,媒体研究 数据概述:该数据集包含来自印度主要新闻媒体的新闻头条数据,记录了不同时间段的新闻标题。主要特征如下: 时间跨度:数据记录的时间范围从2013年到2022年。...
-
arXiv论文数据集arXivDataset-abhishekydav
arXiv论文数据集arXivDataset-abhishekydav 数据来源:互联网公开数据 标签:arXiv, 论文数据, 机器学习, 数据挖掘, 学术研究, 自然语言处理, 科技文献, 信息检索 数据概述:该数据集包含来自arXiv的学术论文数据,记录了大量科学和技术领域的研究论文信息。主要特征如下:...
-
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell 数据来源:互联网公开数据 标签:新闻文本,自然语言处理,文本分析,情感分析,俄语,数据集,文本分类,信息检索 数据概述: 该数据集包含了来自Lenta.ru和Fontanka.ru两个俄罗斯新闻网站的文本数据,记录了新闻文章的详细信息。主要特征如下:...
-
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick 数据来源:互联网公开数据 标签:PDF文档,文本提取,数据挖掘,自然语言处理,信息检索,文档分析,机器学习,数据集 数据概述:...
-
网页抓取数据集CrawlData-fdfyaytkt
网页抓取数据集CrawlData-fdfyaytkt 数据来源:互联网公开数据 标签:网页抓取,数据集,文本分析,自然语言处理,网络数据,信息检索,数据挖掘,网络爬虫 数据概述: 该数据集包含了从互联网上抓取到的网页内容数据,涵盖了各种主题和来源。主要特征如下: 时间跨度: 数据记录的时间范围不定,取决于网页抓取的具体时间。 地理范围:...
-
新冠疫情常见问题解答数据集COVID-19FAQsDataset-mohankrishnan02
新冠疫情常见问题解答数据集COVID-19FAQsDataset-mohankrishnan02 数据来源:互联网公开数据 标签:新冠疫情,FAQ,问答,数据集,自然语言处理,文本分析,健康,公共卫生 数据概述: 该数据集包含了关于新冠疫情的常见问题与解答,旨在提供关于COVID-19的全面信息。主要特征如下:...
-
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary 数据来源:互联网公开数据 标签:问答系统,数据集,自然语言处理,机器学习,文本理解,信息检索,人工智能,数据挖掘 数据概述: 该数据集包含来自问答系统相关研究的数据,记录了问答系统的训练和评估数据。主要特征如下:...



