数据集 - 海数据

安然公司邮件与财务报告数据集EnronEmailandFinancialReportsDataset-aaadag

2025年5月30日

安然公司邮件与财务报告数据集EnronEmailandFinancialReportsDataset-aaadag 数据来源：互联网公开数据标签：安然公司, 邮件, 财务报告, 文本分析, 信息检索, 电子邮件, 商业, 数据挖掘数据概述：...

ZIP

维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson

2025年5月30日

维基How-To文章摘要与内容数据集WikiHowArticleSummarizationandContent-scottisaacson 数据来源：互联网公开数据标签：文本摘要, 自然语言处理, 内容生成, 知识图谱, 文本分类, 机器翻译, 语料库, 维基百科数据概述：...

ZIP

学术论文文本摘要分析数据集AcademicPaperTextAbstractAnalysis-ukjadoon

2025年5月30日

学术论文文本摘要分析数据集AcademicPaperTextAbstractAnalysis-ukjadoon 数据来源：互联网公开数据标签：学术论文, 文本分析, 自然语言处理, 摘要生成, 文本挖掘, 信息检索, 学术研究, 机器学习数据概述：该数据集包含来自学术论文的数据，记录了论文的标题、摘要和正文内容。主要特征如下：...

ZIP

Lenta-Ru新闻数据集-2019至2023年

2025年5月7日

Lenta-Ru新闻数据集-2019至2023年数据来源：互联网公开数据标签：新闻数据,俄媒,Lenta.Ru,时政,社会新闻,数据集,新闻分析数据概述：...

ZIP

扎罗人工智能2021法律文本检索数据集ZaloAI2021LegalTextRetrievalDataset-hariwh0

2025年5月30日

扎罗人工智能2021法律文本检索数据集ZaloAI2021LegalTextRetrievalDataset-hariwh0 数据来源：互联网公开数据标签：法律文本，检索，自然语言处理，数据集，信息检索，语义匹配，越南语，人工智能数据概述：该数据集由扎罗人工智能（Zalo...

ZIP

芬兰文本语料库2010-2020数据集-haaldrin

2025年5月30日

芬兰文本语料库2010-2020数据集-haaldrin 数据来源：互联网公开数据标签：文本语料库，自然语言处理，数据集，芬兰语，学术研究，语言学，机器学习，信息检索数据概述：该数据集包含来自芬兰的文本数据，记录了2010年至2020年期间的多种类型的芬兰语文本。主要特征如下：时间跨度：数据记录的时间范围从2010年到2020年。...

ZIP

印度法院判决摘要对数据集-rishipjain

2025年5月30日

印度法院判决摘要对数据集-rishipjain 数据来源：互联网公开数据标签：法律，司法，数据集，文本摘要，自然语言处理，机器学习，印度，判决数据概述：该数据集包含来自印度法院的判决摘要对数据，记录了印度法院的判决原文及其对应的摘要。主要特征如下：时间跨度：数据记录的时间范围未知，但涵盖了印度法院的各类判决。...

ZIP

维基百科计算机科学文章数据集-mohamedamgad2002

2025年5月30日

维基百科计算机科学文章数据集-mohamedamgad2002 数据来源：互联网公开数据标签：计算机科学，维基百科，数据集，文本分析，自然语言处理，信息检索，学术研究，知识图谱数据概述：该数据集包含了维基百科上关于计算机科学领域的文章数据，旨在为计算机科学领域的研究和应用提供支持。主要特征如下：...

ZIP

BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan

2025年5月30日

BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan 数据来源：互联网公开数据标签：自然语言处理，文本匹配，数据集，机器学习，语义分析，索赔处理，信息检索，人工智能数据概述：该数据集包含来自多个来源的索赔文本数据，记录了索赔文本及其相似性匹配对，适用于语义匹配和索赔处理任务。主要特征如下：...

ZIP

法律领域摘要数据集-valleyy

2025年5月30日

法律领域摘要数据集-valleyy 数据来源：互联网公开数据标签：法律，数据集，文本摘要，自然语言处理，机器学习，法律文书，信息检索，人工智能数据概述：该数据集包含了来自法律领域的文本数据，主要用于文本摘要任务。主要特征如下：时间跨度：数据记录的时间范围不限，涵盖了不同时期的法律文书。地理范围：...

ZIP

文本嵌入向量处理数据集-mrwynx

2025年5月30日

文本嵌入向量处理数据集-mrwynx 数据来源：互联网公开数据标签：自然语言处理，文本分析，嵌入向量，数据集，机器学习，语义分析，信息检索，向量空间数据概述：该数据集包含了经过处理的文本嵌入向量，旨在用于各种自然语言处理任务。主要特征如下：时间跨度：数据记录的时间跨度不限，取决于原始文本数据的时间范围。...

ZIP

社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer

2025年5月30日

社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer 数据来源：互联网公开数据标签：社交媒体，虚假新闻，NLP，文本分类，机器学习，自然语言处理，信息检索，谣言检测数据概述：该数据集包含来自社交媒体平台的文本数据，用于虚假新闻的检测与分析。主要特征如下：...

ZIP

泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja

2025年5月30日

泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja 数据来源：互联网公开数据标签：维基百科，泰卢固语，文本分析，自然语言处理，数据集，语言学，信息检索，文本挖掘数据概述：该数据集包含来自泰卢固语维基百科的文章数据，记录了泰卢固语维基百科中所有文章的详细信息。主要特征如下：...

ZIP

印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon

2025年5月30日

印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon 数据来源：互联网公开数据标签：新闻头条，数据集，自然语言处理，文本分析，情感分析，机器学习，信息检索，媒体研究数据概述：该数据集包含来自印度主要新闻媒体的新闻头条数据，记录了不同时间段的新闻标题。主要特征如下：时间跨度：数据记录的时间范围从2013年到2022年。...

ZIP

arXiv论文数据集arXivDataset-abhishekydav

2025年5月30日

arXiv论文数据集arXivDataset-abhishekydav 数据来源：互联网公开数据标签：arXiv, 论文数据, 机器学习, 数据挖掘, 学术研究, 自然语言处理, 科技文献, 信息检索数据概述：该数据集包含来自arXiv的学术论文数据，记录了大量科学和技术领域的研究论文信息。主要特征如下：...

ZIP

俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell

2025年5月30日

俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell 数据来源：互联网公开数据标签：新闻文本，自然语言处理，文本分析，情感分析，俄语，数据集，文本分类，信息检索数据概述：该数据集包含了来自Lenta.ru和Fontanka.ru两个俄罗斯新闻网站的文本数据，记录了新闻文章的详细信息。主要特征如下：...

ZIP

PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick

2025年5月30日

PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick 数据来源：互联网公开数据标签：PDF文档，文本提取，数据挖掘，自然语言处理，信息检索，文档分析，机器学习，数据集数据概述：...

ZIP

网页抓取数据集CrawlData-fdfyaytkt

2025年5月30日

网页抓取数据集CrawlData-fdfyaytkt 数据来源：互联网公开数据标签：网页抓取，数据集，文本分析，自然语言处理，网络数据，信息检索，数据挖掘，网络爬虫数据概述：该数据集包含了从互联网上抓取到的网页内容数据，涵盖了各种主题和来源。主要特征如下：时间跨度：数据记录的时间范围不定，取决于网页抓取的具体时间。地理范围：...

ZIP

新冠疫情常见问题解答数据集COVID-19FAQsDataset-mohankrishnan02

2025年5月30日

新冠疫情常见问题解答数据集COVID-19FAQsDataset-mohankrishnan02 数据来源：互联网公开数据标签：新冠疫情，FAQ，问答，数据集，自然语言处理，文本分析，健康，公共卫生数据概述：该数据集包含了关于新冠疫情的常见问题与解答，旨在提供关于COVID-19的全面信息。主要特征如下：...

ZIP

最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary

2025年5月30日

最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary 数据来源：互联网公开数据标签：问答系统，数据集，自然语言处理，机器学习，文本理解，信息检索，人工智能，数据挖掘数据概述：该数据集包含来自问答系统相关研究的数据，记录了问答系统的训练和评估数据。主要特征如下：...

ZIP

找到821个数据集

注册成功！