数据集 - 海数据

孟加拉语语音转录数据集BengaliSpeechTranscriptionDataset-ibrahimkhalil09

2025年4月29日

孟加拉语语音转录数据集BengaliSpeechTranscriptionDataset-ibrahimkhalil09 数据来源：互联网公开数据标签：语音识别, 语音转录, 孟加拉语, 语言学, 国际音标, 文本处理, 自然语言处理, 声学模型数据概述：...

ZIP

情绪识别数据集EmotionRecognitionDataset-meenploy

2025年4月29日

情绪识别数据集EmotionRecognitionDataset-meenploy 数据来源：互联网公开数据标签：情绪识别, 情感分析, 机器学习, 二元分类, 数据标注, 文本处理, 情感分类, 情绪标签数据概述：该数据集包含由多个数值特征组成的数据记录，用于进行情绪识别。主要特征如下：时间跨度：数据未明确标注时间，可视为静态数据集。...

ZIP

商品信息零售价格分析数据集ProductInformationRetailPriceAnalysis-devidasmhatre

2025年4月29日

商品信息零售价格分析数据集ProductInformationRetailPriceAnalysis-devidasmhatre 数据来源：互联网公开数据标签：商品识别, 零售数据, 价格分析, 商品分类, 文本处理, 零售商分析, 市场对比, 商品推荐数据概述：...

ZIP

文本处理能力提升数据集

2025年4月27日

文本处理能力提升数据集数据来源：互联网公开数据标签：文本处理,自然语言处理,编码技能,学习资源,技术培训,数据清洗,特征提取,文本分析,机器学习数据概述：...

ZIP

全球语言翻译数据集WorldLanguageTranslationsDataset-cynthiawestcynths

2025年4月26日

全球语言翻译数据集WorldLanguageTranslationsDataset-cynthiawestcynths 数据来源：互联网公开数据标签：语言翻译，数据集，自然语言处理，多语言，机器学习，文本处理，人工智能，跨文化研究数据概述：该数据集包含来自全球多语言翻译项目的数据，记录了多种语言之间的文本翻译内容。主要特征如下：...

ZIP

常见拼写错误纠正数据集-therahasya00

2025年4月26日

常见拼写错误纠正数据集-therahasya00 数据来源：互联网公开数据标签：拼写纠错，自然语言处理，数据集，文本校正，语言学，机器学习，文本处理，中文数据概述：该数据集包含常见的中文拼写错误及其对应的正确词汇。主要特征如下：时间跨度：数据记录的时间范围无明确限定，持续更新和维护。地理范围：数据主要涵盖中国大陆地区常用的中文词汇和表达。...

ZIP

印地语验证标记数据集HindiValidationTokensDataset-pranav51286

2025年4月26日

印地语验证标记数据集HindiValidationTokensDataset-pranav51286 数据来源：互联网公开数据标签：自然语言处理，印地语，标记化，数据集，语言模型，机器学习，文本处理，多语言数据概述：该数据集包含来自印地语语料库的验证标记数据，主要用于语言模型训练和评估。主要特征如下：...

ZIP

无词干提取文本数据集DatasetTanpaStemming-skripsheet

2025年4月26日

无词干提取文本数据集DatasetTanpaStemming-skripsheet 数据来源：互联网公开数据标签：文本分析，数据集，自然语言处理，机器学习，文本处理，信息检索，语言技术，数据分析数据概述：该数据集包含未进行词干提取处理的文本数据，记录了原始文本的完整形态。主要特征如下：时间跨度：...

ZIP

新闻摘要生成数据集NewsSummaryGenerationDataset-diwakarshukla74

2025年4月26日

新闻摘要生成数据集NewsSummaryGenerationDataset-diwakarshukla74 数据来源：互联网公开数据标签：新闻摘要，自然语言处理，文本生成，数据集，机器学习，文本处理，信息提取，人工智能数据概述：该数据集包含来自多个新闻来源的新闻文章及其对应的摘要，记录了新闻内容与摘要之间的映射关系。主要特征如下：...

ZIP

书籍文本错误纠正数据集-shuaibing

2025年4月26日

书籍文本错误纠正数据集-shuaibing 数据来源：互联网公开数据标签：文本纠错，自然语言处理，数据集，机器学习，文本校对，语言模型，文本处理，错误检测数据概述：该数据集包含书籍文本及其对应的校正后文本，用于训练和评估文本错误纠正模型。主要特征如下：时间跨度：数据记录的时间跨度涵盖了不同时期出版的书籍。...

ZIP

英语-德语翻译数据集English-to-GermanTranslationDataset-shashanknecrothapa

2025年4月26日

英语-德语翻译数据集English-to-GermanTranslationDataset-shashanknecrothapa 数据来源：互联网公开数据标签：机器翻译，语言学习，数据集，自然语言处理，人工智能，双语对照，文本处理，教育应用数据概述：该数据集包含英语到德语的文本翻译对，记录了大量的英语句子及其对应的德语翻译。主要特征如下：...

ZIP

自然语言处理项目数据集DatasetforNLPProject-namang04

2025年4月26日

自然语言处理项目数据集DatasetforNLPProject-namang04 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，深度学习，语言模型，情感分析，文本分类数据概述：该数据集为自然语言处理项目设计，记录了多种文本数据，适用于文本分类，情感分析，语言模型训练等任务。主要特征如下：...

ZIP

自然语言处理作业二数据集NLPHomework2Dataset-andrewmilko

2025年4月26日

自然语言处理作业二数据集NLPHomework2Dataset-andrewmilko 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分类，情感分析，机器学习，文本处理，深度学习，作业数据概述：该数据集用于自然语言处理（NLP）的作业二，主要包含文本数据，用于训练和评估各种NLP模型。主要特征如下：时间跨度：...

ZIP

单词批处理与梯度提升决策树模型WordBatchLGBMSeed1Dataset-sihaodi

2025年4月26日

单词批处理与梯度提升决策树模型WordBatchLGBMSeed1Dataset-sihaodi 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，梯度提升决策树，文本处理，模型训练，数据挖掘，算法研究数据概述：...

ZIP

标记预处理脚本数据集MarkedPreprocessingScriptDataset-slx3zippy

2025年4月25日

标记预处理脚本数据集MarkedPreprocessingScriptDataset-slx3zippy 数据来源：互联网公开数据标签：文本处理，预处理，数据集，自然语言处理，脚本，Python，数据清洗，文本分析数据概述：该数据集包含用于文本预处理的Python脚本和相关数据，主要用于演示和评估文本处理流程。主要特征如下：...

ZIP

数据10kBPE分词器概率数据集10kBPETokenizerProbasDataset-kareem87

2025年4月25日

10kBPE分词器概率数据集10kBPETokenizerProbasDataset-kareem87 数据来源：互联网公开数据标签：分词器，BPE，概率分布，数据集，自然语言处理，机器学习，文本处理，算法研究数据概述：...

ZIP

自然语言处理项目数据集NLPProjectDataset-nikunjphutela

2025年4月25日

自然语言处理项目数据集NLPProjectDataset-nikunjphutela 数据来源：互联网公开数据标签：自然语言处理，文本分析，机器学习，深度学习，语言模型，数据集，文本分类，情感分析数据概述：该数据集为自然语言处理项目专用，记录了多种文本数据及相关标注信息。主要特征如下：时间跨度：数据记录的时间范围从2010年到2023年。...

ZIP

迷你日志文件分析数据集MiniLogFileAnalysisDataset-tanyasaraswat

2025年4月25日

迷你日志文件分析数据集MiniLogFileAnalysisDataset-tanyasaraswat 数据来源：互联网公开数据标签：日志分析，数据集，数据挖掘，文本处理，机器学习，异常检测，信息安全，系统管理数据概述：该数据集包含来自迷你日志文件的数据，记录了系统或应用程序的活动信息。主要特征如下：...

ZIP

摘要生成与格式化数据集SAMSUMSummaryFormattedasJSONwithQwen2-7bDataset-lcwsstg

2025年4月25日

摘要生成与格式化数据集SAMSUMSummaryFormattedasJSONwithQwen2-7bDataset-lcwsstg 数据来源：互联网公开数据标签：自然语言处理，摘要生成，数据集，机器学习，文本处理，数据格式化，人工智能，语言模型数据概述：...

ZIP

文本屏蔽基准数据集RedactionBenchmarkDataset-edithram23

2025年4月25日

文本屏蔽基准数据集RedactionBenchmarkDataset-edithram23 数据来源：互联网公开数据标签：文本处理，数据集，自然语言处理，机器学习，信息提取，文本分析，隐私保护，合规性数据概述：该数据集包含来自多个来源的文本数据，记录了文本中敏感信息的屏蔽和分类任务。主要特征如下：...

ZIP

找到312个数据集

注册成功！