-
企业邮件垃圾分类样本数据集
数据来源: 该数据集由美国能源公司 Enron 的内部通信记录构成,原始数据整理自 Enron Email Dataset,后经分类标注为“垃圾邮件”与“正常邮件”(Spam/Ham)两类,用于自然语言处理任务中的文本分类研究。 字段定义: Message ID:邮件编号,唯一标识每封邮件 Subject:邮件主题 Message:邮件正文内容... -
德克萨斯州石油和天然气行业废水泄漏数据集
数据概述: 本数据集收录了2013年至2022年间德克萨斯州石油和天然气公司向州政府报告的10,000多次废水泄漏记录。这些“泄漏日志”通过公共记录请求获取,并由记者清洗和标准化。数据涵盖了每次泄漏的日期、地点、设施、运营商、操作类型、泄漏废水体积、回收废水体积等关键信息,总计超过1.48亿加仑的“生产水”,即钻探和压裂过程中的副产品。 数据用途概述:... -
电信行业客户忠诚度分类数据集
数据概述: 本数据集包含电信公司客户的详细信息,可用于客户流失预测分析。数据集涵盖了客户的用户行为、服务使用情况、账户信息等关键特征。数据经过清洗,不包含任何缺失值,确保了数据的完整性和可用性。 数据用途概述:... -
世纪互联集团股份有限公司股票市场表现历史数据
数据概述: 本数据集提供了特定公司股票市场的历史表现数据。它包含了股票价格随时间推移的详细信息,使得用户能够分析和理解股票价格在过去一段时间内的趋势和波动情况。数据通常包括每日或更短时间间隔的开盘价、收盘价、最高价、最低价和交易量等关键指标。 数据用途概述:... -
银行客户行为与贷款意向预测数据集
数据概述: 本数据集包含了超过5000名客户的详细信息,这些客户是银行个人贷款业务的潜在申请人。数据集的核心在于记录了每位客户的个人资料和银行对他们的贷款邀约结果。数据涵盖了客户的年龄、工作经验、年收入、家庭规模、信用卡的月均消费额、教育程度、是否有房贷、是否接受了银行的个人贷款邀约等多个维度,旨在帮助分析客户特征与贷款决策之间的关系。 数据用途概述:... -
美食食谱评论与用户反馈数据集
数据概述: 本数据集是一个全面的资源库,包含了关于食谱评论和用户互动的各种数据。它包括食谱名称、在热门食谱榜单上的排名、唯一的食谱代码以及用户详细信息,如用户ID、用户名和内部用户声誉评分。每个评论都有一个唯一的评论ID,并附带其他属性,包括创建时间戳、回复计数以及收到的点赞和踩的数量。用户对食谱的情感通过1到5星的评分量化,0分表示未评分。... -
加拿大心理健康与物质滥用数据集
数据概述 本数据集涵盖加拿大心理健康与物质滥用(MHSU)领域相关的服务和项目信息,旨在为心理健康教育、早期干预、过渡性护理以及其他补充和辅助治疗服务提供全面数据支持。数据集包括心理健康和物质滥用服务的详细分类,覆盖社区和医院等多种服务场景,涉及预防、诊断和治疗等多个方面。数据分类依据加拿大HealthLink BC采用的Alliance of... -
模型训练加州房地产建模训练与测试数据集
数据简介: 该数据集包含加利福尼亚州多个区域的住房统计信息,数据源主要用于分析房价与住房相关因素之间的关系。数据被分为训练集和测试集两个部分,适用于机器学习建模、房地产市场分析及城市规划研究等场景。 字段定义: longitude:经度,表示每条记录所对应地块的地理经度 latitude:纬度,表示每条记录所对应地块的地理纬度... -
数据脱敏后某地区电信客户服务与流失记录数据集
数据来源 互联网公开数据 该数据集面向电信行业,记录了7042位客户的服务使用情况与是否流失的标签信息,用于分析客户流失行为,支持企业优化客户保留策略与预测模型构建。 数据字段 customerID(客户ID):每位客户的唯一标识符。 tenure(服务月数):客户自入网以来的服务使用时长(单位:月),可反映客户忠诚度。... -
保加利亚地区历年面向企业与求职者的保加利亚招聘数据
数据来源 互联网公开数据 数据字段 职位发布日期:职位上线的具体日期,用于跟踪招聘活动的时间动态。 职位名称:所招聘的岗位名称,有助于按行业或职能分类筛选。 公司名称:发布招聘信息的雇主单位。 工作地点:职位所在的保加利亚城市或地区。 职位描述:包括岗位职责、任职资格等详细信息。 应聘截止日期:该职位接受申请的最后日期。... -
基于壳体特征的鲍鱼生理测量与年龄预测数据集
数据来源 互联网公开数据 数据字段 Sex(性别):鲍鱼的性别,分类变量,取值为 M(雄性)、F(雌性)、I(幼体)。 Length(长度):鲍鱼壳体最长的部分,单位为毫米(mm)。 Diameter(直径):与长度垂直的测量值,单位为毫米(mm)。 Height(高度):包含肉体的壳体高度,单位为毫米(mm)。... -
汽车价格预测机器学习编码与回归示例数据集
数据概述: 本数据集是一个真实、完整的数据集,用于汽车价格的预测分析。数据集中不存在缺失值,保证了数据质量,便于后续的分析与建模工作。数据集包含了多种汽车的详细信息,如品牌、型号、配置、技术参数等,以及对应的市场价格。 数据用途概述:... -
珠宝交易分析用钻石价格与品质指标数据集
数据概述: 本数据集包含53,940条钻石的价格记录,每条记录包含10个属性,其中1个属性为目标变量,即钻石的价格。这些属性详细描述了每颗钻石的特征,包括: carat(克拉):钻石的重量,是决定钻石价格的关键因素之一。 cut(切工):钻石的切工等级,分为“Fair”(较差)、“Good”(良好)、“Very... -
烹饪平台用户评论与互动信息食谱评论与评分反馈数据集
数据来源 互联网公开数据 数据字段 Recipe_Name(食谱名称):用户评价所对应的食谱标题。 Recipe_Rank(食谱排名):食谱在平台前100名榜单中的排名情况。 Recipe_ID(食谱代码):每个食谱的唯一标识符。 User_ID(用户ID):用户的唯一身份标识。 User_Name(用户名):注册用户的显示名称。... -
机械齿轮振动数据集:测量六种齿轮在不同工作条件下的振动
可靠的机电一体化系统对于现代制造业和我们的日常生活都至关重要。它们可以帮助预测机器停机时间、查找错误原因或警告危险设置。然而,它们的主要部件(例如齿轮)最有可能损坏,而且几乎没有机会提前预测,每年给行业造成数百万美元的损失。 数据为时间序列类型 要进行数据采样,首先需要选择采样时长ts。例如,ts = 1(秒)表示每个样本都是 1/0.0002 =... -
-
全球电影科幻、冒险、动作类影片票房与评分数据集
数据集概述: 该数据集包含了2000至2025年间全球电影的票房数据、用户评分以及电影类型等信息。数据涵盖了不同类型的电影(如科幻片、冒险片、动作片等),并通过多个字段记录了电影的表现。该数据集旨在为研究电影行业、票房预测、用户偏好分析等提供支持。 字段定义: 电影ID(movie_id):唯一标识每部电影的编号。... -
NLp专用短信垃圾邮件分类数据集
数据概述: 本数据集是一个短信垃圾邮件收集数据集,包含超过10,000条SMS短信消息,并已被标记为“垃圾邮件”(spam)或“非垃圾邮件”(ham)。数据集中的每条短信以文本字符串的形式呈现。 数据包含以下字段: text:表示每条短信的内容。 target:指示每条短信是“垃圾邮件”还是“非垃圾邮件”。 数据用途概述:... -
Slovo:俄罗斯手语(RSL)识别的视频数据集
Slovo - 俄罗斯手语数据集 我们引入了一个用于俄罗斯手语任务的大规模视频数据集Slovo。Slovo数据集大小约为16 GB,包含来自 194 位歌手的1000 个手语手势的20400 个RGB 视频。每类有 20 个样本。数据集按主题分为训练集和测试集。训练集包括 15300 个视频,测试集包括 5100 个视频。总视频录制时间约为 9.2...