数据集 - 海数据

知识图谱嵌入数据集DRKGEmbeddingDataset-rawanmahmoudrm

2025年5月29日

知识图谱嵌入数据集DRKGEmbeddingDataset-rawanmahmoudrm 数据来源：互联网公开数据标签：知识图谱，图嵌入，数据集，生物医学，关系抽取，机器学习，自然语言处理，知识表示数据概述：该数据集包含了从多个生物医学知识图谱中提取的知识，用于知识图谱嵌入任务。主要特征如下：...

ZIP

歌曲歌词翻译数据集LyricTranslationDataset-xiehayan

2025年5月29日

歌曲歌词翻译数据集LyricTranslationDataset-xiehayan 数据来源：互联网公开数据标签：歌词，翻译，数据集，自然语言处理，机器翻译，文本分析，多语言，语言学数据概述：该数据集包含来自多个来源的歌曲歌词及其对应的翻译文本，旨在用于机器翻译、文本分析和多语言研究。主要特征如下：...

ZIP

COVID-19相关医学文献分析数据集COVID-19RelatedMedicalLiteratureAnalysis-saumya94

2025年5月29日

COVID-19相关医学文献分析数据集COVID-19RelatedMedicalLiteratureAnalysis-saumya94 数据来源：互联网公开数据标签：COVID-19, 医学文献, 文本分析, 传染病, 呼吸系统疾病, 自然语言处理, 疫情研究, 生物医学数据概述：该数据集包含来自PMC（Pubmed...

ZIP

大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDa...

2025年5月29日

大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDataset-takukawatani 数据来源：互联网公开数据标签：人工智能，自然语言处理，数据集，机器学习，语言模型，模型评估，深度学习，技术评估数据概述：...

ZIP

消费者行为分析用户评论数据集ConsumerBehaviorAnalysisUserReviews-saodem74

2025年5月29日

消费者行为分析用户评论数据集ConsumerBehaviorAnalysisUserReviews-saodem74 数据来源：互联网公开数据标签：用户评论, 消费者行为, 情感分析, 文本挖掘, 市场调研, 产品反馈, 自然语言处理, 数据分析数据概述：该数据集包含用户对特定产品或服务的评论数据，记录了消费者在体验后的评价信息。主要特征如下：...

ZIP

服务条款与可读性评分数据集TermsofServiceandReadabilityScoresDataset-caitvh14

2025年5月29日

服务条款与可读性评分数据集TermsofServiceandReadabilityScoresDataset-caitvh14 数据来源：互联网公开数据标签：法律文本，可读性分析，数据集，文本处理，自然语言处理，机器学习，语言学，数据分析数据概述：该数据集包含来自多个互联网平台的服务条款文本以及相应的可读性评分。主要特征如下：...

ZIP

印地语语料库数据集HindiCorpusDataset-flaming0

2025年5月29日

印地语语料库数据集HindiCorpusDataset-flaming0 数据来源：互联网公开数据标签：印地语，语料库，自然语言处理，文本分析，语言学，机器学习，数据集，印度数据概述：该数据集包含来自互联网和公开资源的印地语文本数据，记录了印地语的丰富文本信息。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。...

ZIP

Yelp用户评论负样本数据集-che011

2025年5月29日

Yelp用户评论负样本数据集-che011 数据来源：互联网公开数据标签：用户评论，负样本，情感分析，自然语言处理，数据集，机器学习，文本分类，Yelp 数据概述：该数据集包含来自Yelp平台的负样本用户评论数据，主要用于情感分析和文本分类任务。主要特征如下：时间跨度：数据记录的时间范围未知，但包含了Yelp平台上较早期的用户评论。...

ZIP

多领域语义匹配数据集MSMARCOModifiedDataset-n068968

2025年5月29日

多领域语义匹配数据集MSMARCOModifiedDataset-n068968 数据来源：互联网公开数据标签：自然语言处理，语义匹配，数据集，机器学习，信息检索，文本分类，深度学习，数据挖掘数据概述：该数据集是对MSMARCO数据集的改进版，包含来自多个领域的语义匹配数据，用于训练和评估文本匹配模型。主要特征如下：...

ZIP

问题文本语义相似度判别数据集QuestionTextSemanticSimilarityJudgement-ojasgolatkar

2025年5月29日

问题文本语义相似度判别数据集QuestionTextSemanticSimilarityJudgement-ojasgolatkar 数据来源：互联网公开数据标签：文本相似度, 自然语言处理, 问答系统, 语义分析, 文本分类, 机器学习, 深度学习, 数据标注数据概述：...

ZIP

虚假新闻检测数据集LiarFakeNewsDetectionDataset-mubarakdaha

2025年5月29日

虚假新闻检测数据集LiarFakeNewsDetectionDataset-mubarakdaha 数据来源：互联网公开数据标签：虚假新闻，事实核查，自然语言处理，文本分类，机器学习，新闻分析，舆情分析，社会科学数据概述：该数据集包含来自PolitiFact网站的虚假新闻和事实核查数据，用于训练和评估虚假新闻检测模型。主要特征如下：...

ZIP

土耳其新闻文章分类数据集TurkishNewsArticlesClassificationDataset-denizhanahin

2025年5月29日

土耳其新闻文章分类数据集TurkishNewsArticlesClassificationDataset-denizhanahin 数据来源：互联网公开数据标签：新闻文章, 文本分类, 土耳其语, 内容分析, 类别识别, 自然语言处理, 机器学习, 语料库数据概述：该数据集包含来自土耳其TRT...

ZIP

词嵌入情感分析数据集D2VSentimentDataset-magomago

2025年5月29日

词嵌入情感分析数据集D2VSentimentDataset-magomago 数据来源：互联网公开数据标签：自然语言处理，情感分析，数据集，词嵌入，深度学习，文本分类，机器学习，情感词典数据概述：该数据集包含用于情感分析任务的文本数据，结合了分布式词向量（Doc2Vec）技术，旨在研究和评估文本情感的表达和识别。主要特征如下：时间跨度：...

ZIP

邮件礼貌性文本情感分析数据集EmailPolitenessTextSentimentAnalysis-gouravawasthi

2025年5月29日

邮件礼貌性文本情感分析数据集EmailPolitenessTextSentimentAnalysis-gouravawasthi 数据来源：互联网公开数据标签：文本情感分析, 邮件数据, 礼貌性, 情感分类, 自然语言处理, 文本标注, 机器学习, 语料库数据概述：...

ZIP

数据20倍增强38k样本从270k语境数据集时间阈值0-820xEnhanced38kSamplesfrom270kContextDatasetwithT...

2025年5月29日

20倍增强38k样本从270k语境数据集时间阈值0-820xEnhanced38kSamplesfrom270kContextDatasetwithTimeThreshold0-8-enddl22 数据来源：互联网公开数据标签：文本数据集，增强学习，自然语言处理，机器学习，数据集，时间序列，上下文分析，文本挖掘...

ZIP

AI生成数据集AI-GeneratedDataset-emmydesign

2025年5月29日

AI生成数据集AI-GeneratedDataset-emmydesign 数据来源：互联网公开数据标签：人工智能，机器学习，数据集，自然语言处理，计算机视觉，数据生成，深度学习，自动化数据概述：该数据集包含由人工智能算法生成的各类数据，涵盖了自然语言处理、计算机视觉等多个领域。主要特征如下：...

ZIP

社交媒体博文文本情感分析数据集SocialMediaBlogTextSentimentAnalysis-endofnight17j03

2025年5月29日

社交媒体博文文本情感分析数据集SocialMediaBlogTextSentimentAnalysis-endofnight17j03 数据来源：互联网公开数据标签：情感分析, 文本挖掘, 社交媒体, 自然语言处理, 情感分类, 舆情分析, 数据标注, 文本语料数据概述：...

ZIP

自然语言处理与教育领域多层次问题嵌入数据集2-LevelQuestionEmbeddingsDatasetforNLPandEducation-hariwu1995

2025年5月29日

自然语言处理与教育领域多层次问题嵌入数据集2-LevelQuestionEmbeddingsDatasetforNLPandEducation-hariwu1995 数据来源：互联网公开数据标签：自然语言处理，教育技术，数据集，问题嵌入，文本分析，机器学习，语义理解，知识图谱数据概述：...

ZIP

歌词清洗与预处理数据集-kalyanitewari

2025年5月29日

歌词清洗与预处理数据集-kalyanitewari 数据来源：互联网公开数据标签：歌词，文本分析，自然语言处理，数据集，情感分析，音乐，数据清洗，中文数据概述：该数据集包含了经过清洗和预处理的歌词数据，旨在为自然语言处理和文本分析任务提供高质量的文本资源。主要特征如下：时间跨度：数据记录的时间范围不明确，但包含了不同年代的歌词。...