找到312个数据集

标签: 文本处理

过滤结果
  • 拼写纠正数据集SpellCorrectionDataset-zerowith

    2025年4月24日   

    拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:...
    packageimg
  • 文本可读性分析数据集Readability-FoldsDataset-abhishek

    2025年4月24日   

    文本可读性分析数据集Readability-FoldsDataset-abhishek 数据来源:互联网公开数据 标签:自然语言处理,文本分析,可读性评估,机器学习,教育技术,数据集,文本处理,语言模型 数据概述: 该数据集专注于文本可读性分析,记录了不同文本样本的可读性特征和评分。主要特征如下:...
    packageimg
  • 泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss

    2025年4月24日   

    泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:...
    packageimg
  • 姓名性别数据集Name-GenderDataset-shivanshpandeys

    2025年4月24日   

    姓名性别数据集Name-GenderDataset-shivanshpandeys 数据来源:互联网公开数据 标签:姓名分析,性别识别,数据集,文本处理,机器学习,自然语言处理,人口统计,数据分析 数据概述: 该数据集包含来自公开来源的姓名和性别数据,记录了不同姓名对应的性别信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,涵盖历史和现代姓名。...
    packageimg
  • 技术人才招聘与正则表达式应用数据集TechTalentRecruitingwithRegexDataset-abdelazizsami

    2025年4月24日   

    技术人才招聘与正则表达式应用数据集TechTalentRecruitingwithRegexDataset-abdelazizsami 数据来源:互联网公开数据 标签:技术招聘,正则表达式,数据集,人才分析,文本处理,机器学习,人力资源,自然语言处理...
    packageimg
  • 未对齐的标记化数据集CenteredTokenized-2Dataset-enarior

    2025年4月24日   

    未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:...
    packageimg
  • 文本处理测试数据集-sandeep100joshi

    2025年4月24日   

    文本处理测试数据集-sandeep100joshi 数据来源:互联网公开数据 标签:文本处理,测试,数据集,自然语言处理,机器学习,文本分析,数据清洗,模型评估 数据概述: 该数据集包含用于文本处理任务的测试数据,记录了各种文本信息。主要特征如下: 时间跨度: 数据记录的时间范围不限,主要关注文本内容本身。 地理范围:...
    packageimg
  • Thread应用程序用户评价数据集ThreadAppReviewsDataset-isaidhs

    2025年4月23日   

    Thread应用程序用户评价数据集ThreadAppReviewsDataset-isaidhs 数据来源:互联网公开数据 标签:应用程序,用户评价,数据集,社交媒体,用户体验,数据挖掘,情感分析,文本处理 数据概述: 该数据集包含来自Thread应用程序的用户评价数据,记录了用户对该应用程序的使用体验和反馈。主要特征如下:...
    packageimg
  • 法语语法纠错数据集JFLEGFrenchGrammarCorrectionDataset-turiabu

    2025年4月23日   

    法语语法纠错数据集JFLEGFrenchGrammarCorrectionDataset-turiabu 数据来源:互联网公开数据 标签:语法纠错,自然语言处理,数据集,机器学习,语言模型,文本处理,法语,人工智能 数据概述: 该数据集包含来自JFLEG项目(JFLEG French Grammar...
    packageimg
  • 新闻标题拼写错误数据集100万条

    2025年4月23日   

    新闻标题拼写错误数据集100万条 数据来源:互联网公开数据 标签:拼写错误,新闻标题,自然语言处理,数据生成,拼写校正模型,机器学习,文本处理 数据概述: 本数据集包含通过nlpaug库生成的100万条新闻标题的拼写错误数据。这些标题原本应为正确拼写,但经过处理引入了不同类型的拼写错误,为构建和评估拼写校正模型提供了丰富的训练和测试材料。...
    packageimg
  • COVID19CDC指南推文上下文数据集-2020年至2021年-vesuvius13

    2025年4月23日   

    COVID19CDC指南推文上下文数据集-2020年至2021年-vesuvius13 数据来源:互联网公开数据 标签:COVID19, CDC, 推特, 数据抓取, 情感分析, 上下文检测, 文本处理 数据概述: 本数据集通过Python的Twint库从Twitter抓取了与COVID19...
    packageimg
  • CommonLit外部数据集-2021-sayantankirtaniya

    2025年4月22日   

    CommonLit外部数据集-2021-sayantankirtaniya 数据来源:互联网公开数据 标签:CommonLit,可读性分析,教育数据,儿童文学,文本处理,阅读水平评估 数据概述:...
    packageimg
  • 自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb

    2025年4月22日   

    自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb 数据来源:互联网公开数据 标签:自然语言处理,机器翻译,数据集,深度学习,神经网络,文本处理,语言模型,翻译模型 数据概述:...
    packageimg
  • 五十年间324首歌曲歌词文本挖掘数据集-chengjhj

    2025年4月22日   

    五十年间324首歌曲歌词文本挖掘数据集-chengjhj 数据来源:互联网公开数据 标签:歌词,文本挖掘,音乐,五十年代,歌曲,歌词分析,文本处理 数据概述:...
    packageimg
  • 文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai

    2025年4月22日   

    文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai 数据来源:互联网公开数据 标签:文本处理,TF-IDF,数据集,自然语言处理,特征提取,机器学习,信息检索,文本分析 数据概述: 该数据集专注于文本编码与TF-IDF(词频-逆文档频率)权重计算,记录了文本数据经过处理后的特征向量。主要特征如下:...
    packageimg
  • 预处理与正常聊天数据集PrevertedandNormalChatsDataset-namangarg110

    2025年4月22日   

    预处理与正常聊天数据集PrevertedandNormalChatsDataset-namangarg110 数据来源:互联网公开数据 标签:聊天记录,数据集,文本处理,自然语言处理,机器学习,情感分析,文本分类,心理健康 数据概述: 该数据集包含预处理过的异常聊天记录和正常聊天记录,适用于自然语言处理和机器学习任务。主要特征如下:...
    packageimg
  • 医疗文本PHI受保护健康信息标注数据集-vijayakashv03

    2025年4月22日   

    医疗文本PHI受保护健康信息标注数据集-vijayakashv03 数据来源:互联网公开数据 标签:PHI,医疗文本,数据标注,隐私保护,NLP,自然语言处理,文本处理,数据安全,敏感信息,信息脱敏 数据概述: 本数据集专为敏感信息脱敏设计,特别是受保护健康信息(PHI, Protected Health...
    packageimg
  • DAIGT-qwen生成文本数据集-2023-zheyushen

    2025年4月22日   

    DAIGT-qwen生成文本数据集-2023-zheyushen 数据来源:互联网公开数据 标签:DAIGT,qwen,文本生成,数据集,机器学习,深度学习,训练数据,文本处理 数据概述: 本数据集包含由DAIGT-...
    packageimg
  • 维基数据员工标签化数据集-2020年2月-toddcook

    2025年4月22日   

    维基数据员工标签化数据集-2020年2月-toddcook 数据来源:互联网公开数据 标签:维基数据,员工标签,职业分析,数据清理,机器学习,文本处理,自然语言处理,开源数据 数据概述:...
    packageimg
  • 网络语义解析数据集第一部分-2023-swaroopnath6

    2025年4月22日   

    网络语义解析数据集第一部分-2023-swaroopnath6 数据来源:互联网公开数据 标签:网络语义解析,数据集,网络爬虫,信息提取,文本处理,网站解析 数据概述: 本数据集旨在将网站上的相关信息解析为易于理解的文本格式,帮助用户从海量互联网信息中提取出重要数据。数据集包含了从多个信息网站中提取的各种HTML标签特征。...
    packageimg