-
泰米尔语歌词数据集TamilLyricsDataset-adibrao
泰米尔语歌词数据集TamilLyricsDataset-adibrao 数据来源:互联网公开数据 标签:泰米尔语,歌词,数据集,自然语言处理,文本分析,音乐研究,机器学习,语言学 数据概述: 该数据集包含泰米尔语歌曲的歌词数据,记录了多种泰米尔语歌曲的歌词内容。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。... -
BocchitheRock第一季剧本数据集BocchitheRockSeason1TranscriptDataset-nacissu
BocchitheRock第一季剧本数据集BocchitheRockSeason1TranscriptDataset-nacissu 数据来源:互联网公开数据 标签:动漫剧本,数据集,文本分析,文化研究,自然语言处理,机器学习,日语翻译,动画分析 数据概述:该数据集包含《Bocchi the Rock》第一季的剧本内容,记录了该动画 season 1... -
三星自然语言处理数据集SamsungNLPDataset-garvitgarg
三星自然语言处理数据集SamsungNLPDataset-garvitgarg 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,语言模型,人工智能,情感分析,机器翻译 数据概述: 该数据集由三星公司提供,专注于自然语言处理领域的文本数据,记录了多种自然语言处理任务的训练和测试数据。主要特征如下:... -
俄罗斯越南语言数据集RussianVietnameseDataset-flightstar
俄罗斯越南语言数据集RussianVietnameseDataset-flightstar 数据来源:互联网公开数据 标签:语言学,自然语言处理,数据集,机器翻译,跨语言分析,人工智能,语言研究,文本分析 数据概述: 该数据集包含来自互联网公开资源的俄语和越南语语言数据,记录了两种语言的文本句子对,适用于机器翻译,语言学研究等任务。主要特征如下:... -
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth 数据来源:互联网公开数据 标签:语言翻译,语料库,自然语言处理,多语言,机器翻译,文本分析,语言资源,人工智能 数据概述: 该数据集包含来自英语到豪萨语的平行语料,记录了双语文本对,适用于机器翻译和语言学研究。主要特征如下:... -
行业分类数据集-yuhua6379
行业分类数据集-yuhua6379 数据来源:互联网公开数据 标签:行业分类,数据集,文本分析,机器学习,自然语言处理,分类模型,数据挖掘,商业分析 数据概述:该数据集包含来自互联网上的行业文本数据,用于行业分类任务。主要特征如下: 时间跨度:数据记录的时间范围不定,涵盖了不同时期的行业描述和信息。... -
印地语假新闻检测数据集HindiFakeNewsDetectionDataset-sudhanshukumar344
印地语假新闻检测数据集HindiFakeNewsDetectionDataset-sudhanshukumar344 数据来源:互联网公开数据 标签:假新闻,数据集,文本分析,自然语言处理,机器学习,信息传播,社会研究,新闻学 数据概述: 该数据集包含来自互联网的印地语假新闻和真新闻的文章,适用于假新闻检测,文本分类等任务。主要特征如下:... -
印度Reddit社区内容主题分类数据集-2017至2020年
印度Reddit社区内容主题分类数据集-2017至2020年 数据来源:互联网公开数据 标签:Reddit,印度,社交媒体,文本分析,自然语言处理,内容分类,社区,标签,NLP 数据概述:... -
CommonLit阅读理解测评数据集-rohitsingh9990
CommonLit阅读理解测评数据集-rohitsingh9990 数据来源:互联网公开数据 标签:阅读理解,数据集,自然语言处理,文本分析,机器学习,教育,语言学,测评 数据概述:该数据集包含来自CommonLit平台的阅读理解测评数据,记录了学生在不同文本上的阅读理解表现。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了多个学年。... -
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,知识图谱,信息检索,数据挖掘,语义分析 数据概述: 该数据集包含来自维基百科的页面信息,记录了维基百科中各个页面的详细信息。主要特征如下:... -
词性标注数据集Part-of-SpeechDataset-safavieh
词性标注数据集Part-of-SpeechDataset-safavieh 数据来源:互联网公开数据 标签:自然语言处理,词性标注,数据集,文本分析,机器学习,语言学,数据挖掘,文本语料库 数据概述: 该数据集包含经过标注的文本数据,用于训练和评估词性标注模型。主要特征如下:... -
英语到阿拉伯语句子预处理清洗数据集EnglishtoArabicSentencesPreprocessedCleanedDataset-abdelrhmandemo
英语到阿拉伯语句子预处理清洗数据集EnglishtoArabicSentencesPreprocessedCleanedDataset-abdelrhmandemo 数据来源:互联网公开数据 标签:英语,阿拉伯语,数据集,自然语言处理,语言翻译,机器学习,文本分析,数据清洗... -
命名实体识别16标签数据集NamedEntityRecognitionDatasetwith16Tags-sumitv29
命名实体识别16标签数据集NamedEntityRecognitionDatasetwith16Tags-sumitv29 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,数据集,机器学习,文本分析,信息提取,语言技术,人工智能 数据概述: 该数据集包含用于命名实体识别任务的数据,记录了文本中的实体及其类别信息。主要特征如下:... -
-
唐纳德-特朗普推文数据集DonaldTrumpTweetDataset-geoclarity
唐纳德-特朗普推文数据集DonaldTrumpTweetDataset-geoclarity 数据来源:互联网公开数据 标签:社交媒体,推文,政治,数据集,文本分析,自然语言处理,舆情分析,机器学习 数据概述: 该数据集包含了唐纳德·特朗普在 Twitter 上的推文数据,记录了他在 Twitter 上的公开言论。主要特征如下:... -
CommonLit阅读理解竞赛数据集CommonLitReadabilityPrizeDataset-palajnc
CommonLit阅读理解竞赛数据集CommonLitReadabilityPrizeDataset-palajnc 数据来源:互联网公开数据 标签:阅读理解,数据集,自然语言处理,机器学习,文本分析,可读性,教育,NLP竞赛 数据概述:... -
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley 数据来源:互联网公开数据 标签:维基媒体,语言类别,名称数据,数据集,文本分析,自然语言处理,多语言支持,文化研究 数据概述: 该数据集包含来自维基媒体的数据,记录了不同语言类别下的名称信息。主要特征如下:... -
情感分析数据集SentimentData1-yojn710
情感分析数据集SentimentData1-yojn710 数据来源:互联网公开数据 标签:情感分析,文本分析,数据集,自然语言处理,机器学习,情感分类,评论,NLP 数据概述: 该数据集包含了用于情感分析的文本数据,记录了不同来源的文本内容及其对应的情感标签。主要特征如下: 时间跨度: 数据记录的时间范围不特定,数据可能来自不同时期。 地理范围:... -
伊斯兰圣训文本数据集LKHadithCorpusDataset-rasikhali12
伊斯兰圣训文本数据集LKHadithCorpusDataset-rasikhali12 数据来源:互联网公开数据 标签:伊斯兰教,圣训,数据集,文本分析,宗教研究,自然语言处理,文化研究,历史文献 数据概述: 该数据集包含来自伊斯兰教圣训(Hadith)的文本数据,记录了伊斯兰教先知穆罕默德言行录的相关内容。主要特征如下:... -
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1 数据来源:互联网公开数据 标签:数据集,提交记录,文本分析,机器学习,数据挖掘,自然语言处理,学术研究,信息检索 数据概述: 该数据集包含来自乔什·麦肯尼提交的记录数据,记录了特定提交内容的相关信息。主要特征如下:...