数据集 - 海数据

金融领域术语可读性评估数据集-FinRAD-2022

2025年4月14日

金融领域术语可读性评估数据集-FinRAD-2022 数据来源：互联网公开数据标签：金融,可读性,自然语言处理,文本分析,术语,数据集,金融科技,语言学数据概述：本数据集，即FinRAD（Financial Readability Assessment...

ZIP

垃圾邮件检测数据集

2025年4月14日

垃圾邮件检测数据集数据来源：互联网公开数据标签：垃圾邮件检测,电子邮件过滤,文本分析,机器学习,自然语言处理,数据挖掘数据概述：...

ZIP

电影评论NLTK数据集

2025年4月14日

电影评论NLTK数据集数据来源：互联网公开数据标签：电影评论,自然语言处理,情感分析,词性标注,观众影响,故事描述,电影电视系列数据概述：本数据集包含了电影评论的相关信息，数据来源于之前的movie.csv数据集。数据集涵盖了电影名称、句子、词性标注、单个单词以及评论对观众的影响等内容，为电影评论的情感分析和自然语言处理提供了基础。...

ZIP

西班牙诗歌数据集

2025年4月14日

西班牙诗歌数据集数据来源：互联网公开数据标签：西班牙诗歌,NLP,文学分析,自然语言处理,诗歌爬虫,文学结构,文本挖掘数据概述：本数据集收录了从1960年代至今的大量西班牙诗歌作品，数据来源于2020年7月从诗歌网站www.poemas-del-...

ZIP

基于语言工具的AI生成文本错误分析数据集

2025年4月14日

基于语言工具的AI生成文本错误分析数据集数据来源：互联网公开数据标签：AI检测,文本分析,语言工具,错误分析,生成文本,写作风格,自然语言处理,教育,评估数据概述：...

ZIP

在线赌博检测数据集

2025年4月14日

在线赌博检测数据集数据来源：互联网公开数据标签：在线赌博,社交媒体,内容检测,自然语言处理,公共事件,实时分析数据概述：本数据集包含来自“Yogyakarta夜 carnival 9”实时直播的评论数据，该活动是为了庆祝Yogyakarta市成立268周年。数据集收集了直播期间的用户评论，用于分析和检测在线赌博的推广行为。数据集包含以下字段：...

ZIP

电影评论与评分数据集

2025年4月14日

电影评论与评分数据集数据来源：互联网公开数据标签：电影评论,电影评分,自然语言处理,观众评价,电影分析,预测模型数据概述：本数据集来源于Rotten Tomatoes网站上观众（非专业评论家）的评论和评分。数据集包含了网站上各种电影的少量评论，旨在为自然语言处理分析提供基础，并构建一个能够根据观众评论预测评分的模型。所有数据的信用归Rotten...

ZIP

DatabricksDolly-15k指令数据集

2025年4月14日

DatabricksDolly-15k指令数据集数据来源：互联网公开数据标签：大型语言模型,指令微调,自然语言处理,数据集,开源,问答,文本生成,数据增强,Databricks 数据概述： Databricks Dolly-15k...

ZIP

复旦大学电影评论情感分析比赛数据集-电影评论-情感分析-文本数据

2025年4月14日

复旦大学电影评论情感分析比赛数据集-电影评论-情感分析-文本数据数据来源：互联网公开数据标签：情感分析,电影评论,文本数据,自然语言处理,复旦大学,机器学习,情感分类,Kaggle 数据概述：本数据集是复旦大学自然语言处理实验室（FDU-...

ZIP

推特评论情感分析数据集

2025年4月14日

推特评论情感分析数据集数据来源：互联网公开数据标签：情感分析,推特,社交媒体,文本数据,情绪分类,自然语言处理,机器学习数据概述：...

ZIP

圣经葡萄牙文版数据集

2025年4月14日

圣经葡萄牙文版数据集数据来源：互联网公开数据标签：圣经,葡萄牙文,文本挖掘,自然语言处理,聚类分析,分类分析,情感分析,神学研究数据概述：本数据集包含《圣经》的葡萄牙文版，主要源于Almeida Corrigida e Revisada...

ZIP

快乐原因文本分类数据集

2025年4月14日

快乐原因文本分类数据集数据来源：互联网公开数据标签：文本分类,情感分析,快乐原因,数据科学,机器学习,自然语言处理数据概述：本数据集来源于一次在HackerEarth上进行的数据科学家职位挑战赛，包含了一系列文本数据，每条文本表达了个体感到快乐的原因。数据集旨在通过文本分类技术，识别并归类出个体快乐的原因，从而为情感分析和用户行为研究提供支持。...

ZIP

句子完成度预测文本分类数据集

2025年4月14日

句子完成度预测文本分类数据集数据来源：互联网公开数据标签：自然语言处理,句子完成度,文本分类,弱监督学习,新闻头条,文本数据清理数据概述：...

ZIP

数据2019-2023印度尼西亚招聘信息推文数据集

2025年4月14日

数据2019-2023印度尼西亚招聘信息推文数据集数据来源：互联网公开数据标签：招聘信息,推文,自然语言处理,市场分析,公司需求,角色需求,社交媒体数据概述：本数据集包含2019年1月1日至2023年4月10日期间与职位空缺和招聘相关的50,000条推文。推文通过关键词“Job Vacancy”、“We are Hiring”和“We're...

ZIP

电影对话语料库第二部分

2025年4月14日

电影对话语料库第二部分数据来源：互联网公开数据标签：电影对话,语料库,自然语言处理,语音识别,时间标注,电影分析数据概述：...

ZIP

孟加拉语讽刺检测数据集2022

2025年4月14日

孟加拉语讽刺检测数据集2022 数据来源：互联网公开数据标签：讽刺检测,孟加拉语,自然语言处理,文本分析,深度学习,BERT,可解释AI 数据概述：...

ZIP

仇恨言论检测模型性能评估数据集

2025年4月14日

仇恨言论检测模型性能评估数据集数据来源：互联网公开数据标签：仇恨言论检测, 自然语言处理, 模型评估, 文本分类, 机器学习, 偏见检测, 功能测试数据概述：本数据集“HateCheck”是一套用于评估仇恨言论检测模型性能的功能测试集。数据集包含3728个经过验证的测试案例，涵盖了29种功能测试。...

ZIP

普丁与卡尔森访谈公众情感数据集

2025年4月14日

普丁与卡尔森访谈公众情感数据集数据来源：互联网公开数据标签：公众情感,普丁,卡尔森,访谈,意见分析,自然语言处理,机器学习,数据可视化数据概述：...

ZIP

Telegram消息垃圾信息与正常信息分类数据集

2025年4月14日

Telegram消息垃圾信息与正常信息分类数据集数据来源：互联网公开数据标签：Telegram,消息分类,垃圾信息,自然语言处理,文本分析,机器学习,数据,Spam,Ham 数据概述：...

ZIP

性别偏见分析数据集

2025年4月14日

性别偏见分析数据集数据来源：互联网公开数据标签：性别偏见,年龄偏见,澳大利亚,工作广告,自然语言处理,机器学习,数据偏见,公平性研究数据概述：本数据集与论文《Developing a Large-Scale Language Model to Unveil and Alleviate Gender and Age Biases in...

ZIP

找到12,075个数据集

注册成功！