找到1,291个数据集

标签: 语料库

过滤结果
  • 科技论文摘要文本分类数据集

    2025年7月19日 30 28 3

    科技论文摘要文本分类数据集_Scientific_Paper_Abstract_Text_Classification 数据来源:互联网公开数据 标签:文本分类, 机器学习, 论文摘要, 自然语言处理, 科技, 语料库, 数据标注, 深度学习 数据概述: 该数据集包含科技论文的摘要文本,记录了用于文本分类任务的论文摘要信息。主要特征如下:...
    packageimg
  • 论文写作要素命名实体识别数据集

    2025年7月17日 30 20 5

    论文写作要素命名实体识别数据集_Essay_Writing_Element_Named_Entity_Recognition_Dataset 数据来源:互联网公开数据 标签:命名实体识别, 自然语言处理, 文本分析, 论文写作, 实体标注, 机器学习, 文本分类, 语料库 数据概述:...
    packageimg
  • 文本改写与生成数据集

    2025年7月16日 30 21 1

    文本改写与生成数据集_Text_Rewriting_and_Generation_Dataset 数据来源:互联网公开数据 标签:文本生成, 文本改写, 自然语言处理, 机器翻译, 语料库, 深度学习, 提示工程, 案例分析 数据概述: 该数据集包含文本改写和生成的数据,记录了原始文本、改写提示、改写后的文本以及相关信息。主要特征如下:...
    packageimg
  • 学术论文摘要分类数据集

    2025年7月12日 30 28 10

    学术论文摘要分类数据集_Academic_Paper_Abstract_Classification 数据来源:互联网公开数据 标签:论文摘要, 文本分类, 自然语言处理, 学术研究, 机器学习, 论文分类, 语料库, 科研 数据概述: 该数据集包含来自arXiv的学术论文摘要,记录了论文的摘要内容及其对应的类别信息。主要特征如下:...
    packageimg
  • 乌尔都语社交媒体评论毒性分析数据集

    2025年7月10日 30 12 2

    乌尔都语社交媒体评论毒性分析数据集_Urdu_Social_Media_Comments_Toxicity_Analysis 数据来源:互联网公开数据 标签:毒性分析, 文本分类, 乌尔都语, 社交媒体, 情感分析, 机器学习, 自然语言处理, 语料库 数据概述: 该数据集包含来自社交媒体平台的乌尔都语评论,记录了评论文本及其毒性标签。主要特征如下:...
    packageimg
  • 中文新闻文本分类数据集_Chinese_News_Text_Classification_Dataset

    2025年6月28日 30 11 2

    中文新闻文本分类数据集_Chinese_News_Text_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 新闻, 情感分析, 自然语言处理, 机器学习, 类别识别, 语料库, 中文 数据概述: 该数据集包含来自互联网的新闻文本,记录了不同类别的新闻文章内容,主要用于文本分类任务。主要特征如下:...
    packageimg
  • 中文新闻文本分类数据集_Chinese_News_Text_Classification

    2025年6月25日 30 25 4

    中文新闻文本分类数据集_Chinese_News_Text_Classification 数据来源:互联网公开数据 标签:文本分类, 新闻语料, 自然语言处理, 机器学习, 体育, 财经, 科技, 语料库 数据概述: 该数据集包含来自中文新闻的数据,记录了不同类别的新闻文本内容,主要用于文本分类任务。主要特征如下:...
    packageimg
  • 多语言蕴含关系推理数据集_Multilingual_Natural_Language_Inference_Dataset

    2025年6月24日 30 29 8

    多语言蕴含关系推理数据集_Multilingual_Natural_Language_Inference_Dataset 数据来源:互联网公开数据 标签:自然语言处理, 文本推理, 语义理解, 多语言, 情感分析, 机器学习, 语言模型, 语料库 数据概述:...
    packageimg
  • 新闻文本情感分析数据集_News_Text_Sentiment_Analysis

    2025年6月23日 30 16 6

    新闻文本情感分析数据集_News_Text_Sentiment_Analysis 数据来源:互联网公开数据 标签:情感分析, 文本分类, 新闻文本, 自然语言处理, 情感极性, 数据标注, 机器学习, 语料库 数据概述: 该数据集包含来自新闻媒体的文本数据,记录了新闻文章的文本内容以及对应的情感极性标签。主要特征如下:...
    packageimg
  • 越南语情感分析文本数据集_Vietnamese_Sentiment_Analysis_Text_Dataset

    2025年6月23日 30 15 10

    越南语情感分析文本数据集_Vietnamese_Sentiment_Analysis_Text_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 越南语, 自然语言处理, 机器学习, 情感极性, 语料库, 深度学习 数据概述: 该数据集包含来自越南社交媒体平台的用户评论文本,用于进行情感分析。主要特征如下:...
    packageimg
  • 语音记录数据集

    2025年6月4日 30 15 10

    语音记录数据集 数据来源:互联网公开数据 标签:语音记录,自我发展,软技能,时间序列,语料库,声音分析,区域分布 数据概述:...
    packageimg
  • 自然语言处理多领域对话数据集UltraChat-200K-thedevastator

    2025年6月4日 30 18 5

    自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:...
    packageimg
  • 阿拉伯语拼写错误平行语料库数据集

    2025年6月4日 30 12 2

    阿拉伯语拼写错误平行语料库数据集 数据来源:互联网公开数据 标签:阿拉伯语,拼写错误,语料库,语言研究,拼写检查,纠错系统 数据概述:...
    packageimg
  • 青空文庫日文文学语料库数据集

    2025年6月4日 30 21 8

    青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。...
    packageimg
  • STEM领域维基百科语料库数据集

    2025年6月4日 30 30 5

    STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...
    packageimg
  • TIMIT语音识别和发音学研究语料库数据集

    2025年6月4日 30 30 4

    TIMIT语音识别和发音学研究语料库数据集 数据来源:互联网公开数据 标签:语料库,语音识别,发音标注,语音处理,自然语言处理,美国英语,发音学研究 数据概述:...
    packageimg
  • 日语假名注释语料库-书刊标题数据集1963-2021

    2025年6月4日 30 15 10

    日语假名注释语料库-书刊标题数据集1963-2021 数据来源:互联网公开数据 标签:日语,假名,注释,语料库,书刊标题,NDL Lab,CC-BY-4.0,预处理 数据概述: 本数据集是NDL Lab发布的Shosi数据集的后处理版本,拥有CC-...
    packageimg
  • SFU观点与评论语料库

    2025年6月1日 30 27 8

    SFU观点与评论语料库 数据来源:互联网公开数据 标签:观点分析,在线评论,建设性评论,毒性评论,自然语言处理,意见挖掘,语料库,社交媒体分析 数据概述:...
    packageimg
  • 西班牙语文学作品数据集

    2025年6月1日 30 11 10

    西班牙语文学作品数据集 数据来源:互联网公开数据 标签:西班牙语文学,文本数据,书籍,短篇故事,语料库,语言学习,文学分析 数据概述: 本数据集包含9000多本西班牙语的书籍、短篇故事和文本,涵盖了丰富多样的文学作品。数据集旨在为西班牙语学习者、研究者和开发者提供一个高质量的文本资源,支持语言学习、文学研究和自然语言处理任务。 数据用途概述:...
    packageimg
  • 古腾堡诗歌项目诗歌文本数据集-terminate9298

    2025年6月1日 30 30 3

    古腾堡诗歌项目诗歌文本数据集-terminate9298 数据来源:互联网公开数据 标签:诗歌,文学,文本,古腾堡项目,语料库,自然语言处理,文本分析,诗歌创作,情感分析 数据概述: 本数据集收录了来自古腾堡项目(Gutenberg Project)的诗歌文本,包含2703086行句子。数据集由Allison...
    packageimg