-
代码混合数据集CodeMixData-shankhad
代码混合数据集CodeMixData-shankhad 数据来源:互联网公开数据 标签:代码,编程,数据集,自然语言处理,机器学习,代码生成,多语言,软件工程 数据概述: 该数据集包含来自多种编程语言的代码片段和相关文本描述,旨在支持代码生成,代码理解和代码翻译等任务。主要特征如下: 时间跨度:数据记录的时间跨度不明确,主要基于公开的代码库和文档。... -
多语言词汇数据集WordswithLanguagesDataset-mansigarg18
多语言词汇数据集WordswithLanguagesDataset-mansigarg18 数据来源:互联网公开数据 标签:语言学习,词汇数据,数据集,自然语言处理,教育技术,多语言,语言学,数据挖掘 数据概述: 该数据集包含来自多种语言词汇的数据,记录了不同语言中的常见词汇及其相关信息。主要特征如下:... -
openHPI课程分类数据集-手把手项目与理论课程-johoetter
openHPI课程分类数据集-手把手项目与理论课程-johoetter 数据来源:互联网公开数据 标签:MOOC,openHPI,课程分类,教育,项目,理论,计算机科学,多语言 数据概述: 本数据集包含了Hasso Plattner... -
Contradictory-MyDearWatson英文翻译数据集-2023-anikok
Contradictory-MyDearWatson英文翻译数据集-2023-anikok 数据来源:互联网公开数据 标签:Contradictory,My Dear Watson,英语翻译,自然语言处理,数据集,翻译,多语言,不平衡数据 数据概述: 本数据集是Contradictory, My Dear... -
全球新冠疫情事实核查新闻数据集-多语言多国家-2020年7月-thedevastator
全球新冠疫情事实核查新闻数据集-多语言多国家-2020年7月-thedevastator 数据来源:互联网公开数据 标签:新冠疫情,事实核查,新闻,多语言,国际,虚假信息,内容分析,文本数据 数据概述:... -
多语言短信垃圾信息与情感分析检测数据集-2023-debapampal2002
多语言短信垃圾信息与情感分析检测数据集-2023-debapampal2002 数据来源:互联网公开数据 标签:垃圾短信,多语言,情感分析,文本分析,机器学习,语言检测,数据集 数据概述:... -
COVID-19疫情研究论文多语言标注数据集-rebeccaburwei
COVID-19疫情研究论文多语言标注数据集-rebeccaburwei 数据来源:互联网公开数据 标签:COVID-19,新冠病毒,疫情,研究,论文,语言,多语言,标注,语料库,自然语言处理 数据概述:... -
-
世界各国国歌歌词与旗帜数据集合集-wricheekadhikari
世界各国国歌歌词与旗帜数据集合集-wricheekadhikari 数据来源:互联网公开数据 标签:国歌,歌词,音乐,文化,国家,旗帜,YouTube,视听,多语言 数据概述:... -
Open-Assistant多轮对话波斯语翻译数据集
Open-Assistant多轮对话波斯语翻译数据集 数据来源:互联网公开数据 数据集简介: 本数据集为 Open-Assistant... -
英语-马拉雅拉姆语言翻译数据集-nihalthomas15
英语-马拉雅拉姆语言翻译数据集-nihalthomas15 数据来源:互联网公开数据 标签:英语,马拉雅拉姆,机器翻译,NLP,语料库,翻译,数据集,多语言 数据概述:... -
ChatGPT应用用户评价数据集-全球用户反馈-PlayStore-多国-2024-humairmunir
ChatGPT应用用户评价数据集-全球用户反馈-PlayStore-多国-2024-humairmunir 数据来源:互联网公开数据 标签:ChatGPT, 评论, 用户反馈, 情感分析, 自然语言处理, 应用评估, Play Store, 移动应用, 多语言, 市场调研 数据概述: 本数据集包含100,000条来自Google Play... -
林格万克斯多语言机器翻译测试参考数据集-2023-alexeirudak
林格万克斯多语言机器翻译测试参考数据集-2023-alexeirudak 数据来源:互联网公开数据 标签:机器翻译,测试参考,多语言,语言技术,评估,数据集,英语,翻译评估,CC BY-SA 4.0 数据概述:... -
RSS订阅内容主题分类数据集-brobear1995
RSS订阅内容主题分类数据集-brobear1995 数据来源:互联网公开数据 标签:RSS,订阅,内容分类,主题,自然语言处理,机器学习,文本分析,多语言,数据清洗,嵌入模型 数据概述:... -
Jigsaw毒性评论多语言分类数据集
Jigsaw毒性评论多语言分类数据集 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 自然语言处理, 多语言, 评论, 社交媒体, 文本分析, 机器学习 数据概述: 本数据集由Pavel Ostyakov创建,旨在支持多语言环境下的毒性评论分类任务。 数据集包含了多种语言的文本评论,并标注了毒性标签。... -
全球民间故事数据集1963-2021
全球民间故事数据集1963-2021 数据来源:互联网公开数据 标签:民间故事,全球,文化研究,文学分析,民族学,故事文本,多语言 数据概述: 本数据集包含了来自57个国家的2838个民间故事,涵盖了亚洲、欧洲、北美洲、南美洲、非洲等多个地区的丰富文化资源。数据集中的故事文本主要用于研究全球民间故事的文化背景、文学特征和民族学价值。 数据用途概述:... -
阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用
阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用 数据来源:互联网公开数据 标签:阿拉伯语,作文评分,自然语言处理,机器学习,数据集,文本分类,多语言,Open Orca, GPT-3.5, GPT-4, RAG, 翻译 数据概述:... -
艾尔登法环Steam游戏评价多语言月度更新数据集
艾尔登法环Steam游戏评价多语言月度更新数据集 数据来源:互联网公开数据 标签:艾尔登法环,Steam,游戏评价,玩家评论,多语言,意大利语,英语,法语,西班牙语,德语,游戏数据,用户反馈 数据概述: 本数据集包含艾尔登法环(Elden... -
Jigsaw多语言有毒评论分类预处理数据集
Jigsaw多语言有毒评论分类预处理数据集 数据来源:互联网公开数据 标签:自然语言处理,文本分类,有毒评论,多语言,预处理,机器学习,XLM-RoBERTa,Jigsaw 数据概述: 本数据集包含Jigsaw多语言有毒评论分类任务的预处理后的CSV文件。数据使用Hugging Face... -
多语言平行语料库数据集
多语言平行语料库数据集 数据来源:互联网公开数据 标签:多语言,平行语料库,翻译,机器翻译,自然语言处理,跨语言数据分析 数据概述: 本数据集是一个多语言平行语料库,包含英语与其他多种语言(如俄语、哈萨克语、西班牙语、意大利语和法语)之间的对照翻译数据。数据集来源于对原始的databricks-...