-
Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集
2026年1月22日 30 181 74
数据集概述 本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。 文件详解 文件名称:dataset.zip 文件格式:ZIP...
-
Humanities_Retracted_Based_人文领域撤稿文章定量定性引用分析数据集
2026年1月17日 30 60 37
数据集概述 本数据集包含人文领域撤稿文章的引用分析数据,包括引用实体特征、引用上下文及摘要、排除的低相关性撤稿文章列表,以及基于摘要和引用上下文的主题建模结果,支持对人文领域撤稿文章引用模式的定量与定性研究。 文件详解 压缩包文件: 文件名称:data.zip 文件格式:ZIP 内容说明:包含所有数据集文件和目录的压缩包,需解压后访问内部内容...
-
德国法律语言停用词数据集_SW_DE_RS
2025年12月7日 30 157 78
数据集概述 该数据集是针对德国法律语言的专用停用词列表,基于1998-2020年德国联邦宪法法院等机构判决中的高频词开发,补充通用语言停用词列表,适用于法律文本的自然语言处理分析,需结合使用说明文档(Codebook)。 文件详解 文件名称:SW-DE-RS_v1-0-0_Datensatz.csv 文件格式:CSV...
-
新闻文章文本数据分析数据集NewsArticlesTextDataAnalysis-phidole
2025年5月30日 30 122 73
新闻文章文本数据分析数据集NewsArticlesTextDataAnalysis-phidole 数据来源:互联网公开数据 标签:新闻文章, 文本分析, 自然语言处理, 停用词, 词干提取, 文本分类, 情感分析, 数据挖掘 数据概述: 该数据集包含来自新闻文章的数据,记录了新闻标题和文章正文内容。主要特征如下:...
-
印尼语仇恨言论词汇与停用词数据集IndonesianHateSpeechLexiconandStopwordsDataset-tarishamazaya
2025年5月1日 30 170 169
印尼语仇恨言论词汇与停用词数据集IndonesianHateSpeechLexiconandStopwordsDataset-tarishamazaya 数据来源:互联网公开数据 标签:仇恨言论, 文本分析, 情感分析, 词汇表, 停用词, 自然语言处理, 语料库, 印尼语 数据概述:...
-
自然语言处理停用词与词汇列表数据集NaturalLanguageProcessingStopwordsandWordlists-nathanh4903
2025年5月1日 30 16 5
自然语言处理停用词与词汇列表数据集NaturalLanguageProcessingStopwordsandWordlists-nathanh4903 数据来源:互联网公开数据 标签:停用词, 词汇列表, 自然语言处理, 文本分析, 语料库, 文本预处理, 词汇统计, 语言模型 数据概述:...
-
印尼语文本辱骂词与停用词数据集IndonesianTextAbusiveWordsandStopwordsDataset-tarishamazaya
2025年4月29日 30 198 141
印尼语文本辱骂词与停用词数据集IndonesianTextAbusiveWordsandStopwordsDataset-tarishamazaya 数据来源:互联网公开数据 标签:文本分析, 情感分析, 自然语言处理, 停用词, 辱骂词, 印尼语, 文本预处理, 词汇表 数据概述:...
-
印尼语文本数据预处理数据集IndonesianTextPreprocessingDataset-fransiskusbenyamin
2025年4月29日 30 111 93
印尼语文本数据预处理数据集IndonesianTextPreprocessingDataset-fransiskusbenyamin 数据来源:互联网公开数据 标签:印尼语, 文本预处理, 停用词, 词库, 脏话, 文本分析, 自然语言处理, 数据清洗 数据概述:...
-
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisD...
2025年4月24日 30 107 30
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisDataset-solomonschwiger 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,停用词,机器学习,数据预处理,文本分析,信息检索 数据概述:...
-
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia
2025年4月22日 30 15 10
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia 数据来源:互联网公开数据 标签:自然语言处理,文本分析,停用词,越南语,数据集,语言学,文本挖掘,信息检索 数据概述: 该数据集包含了越南语的停用词列表,旨在帮助文本处理和自然语言处理任务。主要特征如下:...
-
维基百科电影剧情描述去名数据集-abbrivia
2025年4月22日 30 10 1
维基百科电影剧情描述去名数据集-abbrivia 数据来源:互联网公开数据 标签:电影,剧情,自然语言处理,主题建模,停用词,名字识别,维基百科 数据概述: 本数据集包含从维基百科抓取的35,000部电影的剧情描述,并移除了其中的所有名字。数据集通过内置的命名实体识别(NER)技术生成,并经过hunspell...
-
孟加拉语自然语言处理基础词汇数据集-saifsunny
2025年4月21日 30 123 94
孟加拉语自然语言处理基础词汇数据集-saifsunny 数据来源:互联网公开数据 标签:孟加拉语,NLP,自然语言处理,词汇,语法,停用词,代词,动词,词干提取,文本处理 数据概述:...
-
文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi
2025年4月21日 30 42 0
文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi 数据来源:互联网公开数据 标签:文本预处理,自然语言处理,NLP,大小写转换,过滤,分词,停用词,词干提取,文章数据集 数据概述:...
-
南非语情感词典与停用词数据集
2025年4月15日 30 91 5
南非语情感词典与停用词数据集 数据来源:互联网公开数据 标签:南非语,情感分析,情感词典,停用词,圣经,平行语料库,文本分析 数据概述:...
-
土耳其新闻文章数据集2017-2021
2025年4月15日 30 193 74
土耳其新闻文章数据集2017-2021 数据来源:互联网公开数据 标签:土耳其新闻,文章数据,自然语言处理,停用词,作者分析,时间序列,新闻研究 数据概述:...
-
西班牙语评论文本向量化分析数据集
2025年4月14日 30 26 24
西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-...



