找到268个数据集

标签: 文本处理

过滤结果
  • 数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun

    2025年4月25日   

    数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun 数据来源:互联网公开数据 标签:自然语言处理,数据集,分词器,文本处理,机器学习,语言模型,数据预处理,工具集 数据概述: 该数据集包含用于自然语言处理的多种工具和数据集,主要支持文本分词,数据预处理等任务。主要特征如下:...
    packageimg
  • HuggingFace文档数据集HuggingFaceDocumentationDataset-sanjay74

    2025年4月25日   

    HuggingFace文档数据集HuggingFaceDocumentationDataset-sanjay74 数据来源:互联网公开数据 标签:自然语言处理,数据集,文档分析,机器学习,文本处理,人工智能,语言模型,文本分类 数据概述:该数据集包含来自 Hugging Face...
    packageimg
  • 项目文件分析数据集FilestoUseforProjectDataset-justingrima

    2025年4月24日   

    项目文件分析数据集FilestoUseforProjectDataset-justingrima 数据来源:互联网公开数据 标签:项目管理,文件分析,数据集,文本处理,数据挖掘,信息检索,文档管理,软件工程 数据概述: 该数据集包含了用于项目的文件信息,旨在支持项目管理,文件分析和相关研究。主要特征如下:...
    packageimg
  • 预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisD...

    2025年4月24日   

    预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisDataset-solomonschwiger 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,停用词,机器学习,数据预处理,文本分析,信息检索 数据概述:...
    packageimg
  • 模糊匹配输出数据集FuzzyWuzzyOutputDataset-leed67

    2025年4月24日   

    模糊匹配输出数据集FuzzyWuzzyOutputDataset-leed67 数据来源:互联网公开数据 标签:模糊匹配,相似度分析,数据集,自然语言处理,文本匹配,文本处理,数据清洗,人工智能 数据概述: 该数据集包含使用FuzzyWuzzy库进行文本相似度匹配的输出结果,记录了不同文本字符串之间的相似度分数。主要特征如下:...
    packageimg
  • 小型英语文本转换数据集ETT-smallDataset-neptureillusion

    2025年4月24日   

    小型英语文本转换数据集ETT-smallDataset-neptureillusion 数据来源:互联网公开数据 标签:文本处理,时间序列,机器学习,自然语言处理,英语,数据集,文本分析,预测 数据概述: 该数据集包含小型英语文本数据,专注于文本转换和预测任务。主要特征如下: 时间跨度: 数据记录的时间范围为特定时间段,具体取决于数据集的构建方式。...
    packageimg
  • 单模型输入文本情感分析数据集-ocden22

    2025年4月24日   

    单模型输入文本情感分析数据集-ocden22 数据来源:互联网公开数据 标签:情感分析,数据集,文本处理,自然语言处理,机器学习,情感分类,文本情感,人工智能 数据概述: 该数据集包含用于单模型输入文本情感分析的文本数据,主要用于训练和评估情感分析模型。主要特征如下: 时间跨度:数据无特定时间范围,涵盖各类文本数据。...
    packageimg
  • BM25基础训练集数据集-danielphalen

    2025年4月24日   

    BM25基础训练集数据集-danielphalen 数据来源:互联网公开数据 标签:信息检索,文本处理,数据集,自然语言处理,BM25,搜索算法,文本相似度,机器学习 数据概述:该数据集包含用于训练和评估BM25(Best Match 25)模型的文本数据,主要用于信息检索任务。主要特征如下: 时间跨度:数据涵盖了从特定时间段内收集的文本数据。...
    packageimg
  • 英文文本序列长度验证数据集SequenceLength128-bamps53

    2025年4月24日   

    英文文本序列长度验证数据集SequenceLength128-bamps53 数据来源:互联网公开数据 标签:自然语言处理,文本处理,序列建模,数据集,机器学习,文本验证,文本分析,深度学习 数据概述: 该数据集包含经过处理的英文文本数据,主要用于验证和测试自然语言处理模型,特别是针对序列长度为128的文本序列。主要特征如下:...
    packageimg
  • 尼泊尔名字数据集含性别信息

    2025年4月24日   

    尼泊尔名字数据集含性别信息 数据来源:互联网公开数据 标签:尼泊尔,名字,性别,语言文化,数据清洗,文本处理,机器学习 数据概述: 本数据集包含尼泊尔语名字及其对应的性别信息,数据以德文那格里文字呈现。数据来源于尼泊尔选举委员会的公开信息,经过清洗和格式化处理,确保数据的准确性和可用性。 数据用途概述:...
    packageimg
  • 数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb

    2025年4月24日   

    数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb 数据来源:互联网公开数据 标签:数据增强,反向翻译,数据集,自然语言处理,机器学习,文本处理,语言模型,翻译技术 数据概述:...
    packageimg
  • 表情符号列表数据集ListofAllEmojisDataset-chroline

    2025年4月24日   

    表情符号列表数据集ListofAllEmojisDataset-chroline 数据来源:互联网公开数据 标签:表情符号,数据集,社交媒体,情感分析,机器学习,文本处理,数字文化,数据挖掘 数据概述: 该数据集包含来自互联网公开资源的表情符号列表,记录了各类表情符号的符号编码,名称,类别及使用场景等信息。主要特征如下:...
    packageimg
  • 索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary

    2025年4月24日   

    索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary 数据来源:互联网公开数据 标签:索赔数据,数据集,标准化,标签,保险行业,数据分析,机器学习,文本处理 数据概述: 该数据集包含对保险索赔数据的标准化标签信息,记录了各种索赔案例的详细信息及其标准化标签。主要特征如下: 时间跨度:...
    packageimg
  • 加密提示数据集CipheredPromptsDataset-noob456

    2025年4月24日   

    加密提示数据集CipheredPromptsDataset-noob456 数据来源:互联网公开数据 标签:数据集,密码学,文本处理,机器学习,自然语言处理,数据安全,提示工程,人工智能 数据概述:该数据集包含经过加密处理的文本提示数据,记录了多种加密算法下的提示信息。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。...
    packageimg
  • 大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl

    2025年4月24日   

    大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl 数据来源:互联网公开数据 标签:自然语言处理,文本分割,数据集,大规模语言模型,文本处理,机器学习,数据增强,语言模型训练 数据概述: 该数据集包含用于评估和改进大规模语言模型(LLM)生成文本分割能力的数据。主要特征如下:...
    packageimg
  • 替换逗号数据集ReplacingCommaDataset-rojaramani

    2025年4月24日   

    替换逗号数据集ReplacingCommaDataset-rojaramani 数据来源:互联网公开数据 标签:数据清理,文本处理,数据集,自然语言处理,数据预处理,文本分析,数据科学,编程 数据概述:该数据集包含来自互联网公开的数据,记录了需要进行逗号替换的文本片段。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2022年。...
    packageimg
  • 拼写纠正数据集SpellCorrectionDataset-zerowith

    2025年4月24日   

    拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:...
    packageimg
  • 文本可读性分析数据集Readability-FoldsDataset-abhishek

    2025年4月24日   

    文本可读性分析数据集Readability-FoldsDataset-abhishek 数据来源:互联网公开数据 标签:自然语言处理,文本分析,可读性评估,机器学习,教育技术,数据集,文本处理,语言模型 数据概述: 该数据集专注于文本可读性分析,记录了不同文本样本的可读性特征和评分。主要特征如下:...
    packageimg
  • 泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss

    2025年4月24日   

    泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:...
    packageimg
  • 姓名性别数据集Name-GenderDataset-shivanshpandeys

    2025年4月24日   

    姓名性别数据集Name-GenderDataset-shivanshpandeys 数据来源:互联网公开数据 标签:姓名分析,性别识别,数据集,文本处理,机器学习,自然语言处理,人口统计,数据分析 数据概述: 该数据集包含来自公开来源的姓名和性别数据,记录了不同姓名对应的性别信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,涵盖历史和现代姓名。...
    packageimg