-
-
-
通过人工智能弥合沟通鸿沟:阿拉伯手语字母表 (ArSL) 数据集
该数据集包含 6,000 张手势图像,代表 30 个阿拉伯字母(ا 至 ي),以及一个经过训练的模型。该数据集专为手语识别研究而设计,可帮助开发人员为聋人和听力障碍者群体构建工具。 包含的文件 data/:30 个阿拉伯手语字母的原始图像(总共 6 000 张图像)。 class_mapping.csv:将类别... -
不同的情感文本数据集 2025
该数据集包含代表各种情绪状态的列,具体来说: 愤怒 无聊 平静 蔑视 厌恶 兴奋 恐惧 沮丧 快乐 中性 自豪 悲伤 惊讶 每一行可能代表记录这些情绪的实例或观察结果,可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态,从负面情绪(例如,愤怒、厌恶、悲伤)到正面情绪(例如,快乐、兴奋、自豪),以及中性或平衡状态(例如,平静、中性)。 -
BD 达卡证券交易所(DSE)历史数据1999-2023
该综合数据集涵盖了 1999 年至 2023 年期间达卡证券交易所 (DSE) 的历史股票市场数据。该数据集从 DSE 股票网站收集,每年被组织成单独的 CSV 文件,详细记录了这 24 年间股票市场趋势和走势。 数据来源:https://dsestocks.com/dse-csv-data/ 内容: 日期:交易日期,格式为YYYY-MM-DD。... -
龙珠问答数据集
龙珠问答语料库是一个精选数据集,旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件,每个文件都充满了结构化和非结构化文本数据,涵盖了龙珠系列的各个方面,包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。 每个文本文件都经过精心组织,以确保全面涵盖不同的主题,例如: 角色信息:详细的个人资料、能力和关系。 故事情节和弧线:龙珠、龙珠... -
电磁干扰数据集:用于 EMI 信号分类的数据集
该数据集是为分类任务设计的电磁干扰 (EMI) 信号和正常(未受影响)信号的集合,每个信号由 4000 个时间步长组成。幅度以毫伏 (mV) 表示。它包括 8 个不同类别的 EMI 信号和正常信号,代表电气状况和故障(总共 9 个类别)。特征表示为原始信号值,捕捉 EMI... -
-
5M 树木:来自美国 63 个城市的 500 万棵城市树木的数据集
可持续城市依赖于城市森林。城市树木——城市森林的支柱——改善我们的健康、净化空气、储存二氧化碳并降低当地温度。人们对城市森林作为生态系统的了解相对较少,特别是它们的空间组成、原生状态、生物多样性和树木健康状况。在这里,我们收集并标准化了来自美国 63 个最大城市的 N=5,660,237... -
无监督学习模型:分析二手车销售数据
使用监督和无监督学习模型分析二手车销售数据 二手车市场是一个动态且非常复杂的领域,受不同标准的影响 - 制造商、车型、发动机规格、油耗、生产年份、里程和价格。在本练习中,我们将查看包含英国二手车销售事实的模拟数据。该数据由 50,000... -
使用 peft 和 lora 进行 LLM 微调的合成数据
该数据集包含对话摘要、主题和对话,用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道,这是一种流行且轻量级的训练技术,可显着减少可训练参数的数量。 该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum -
DEAP解读环境空气污染:用于研究城市空气污染的大规模时空数据
这是在IJCAI 2022的 AI for Good Track上发表的论文《使用大规模城市数据解读环境空气污染》的数据集。该论文获得了该 Track 的最佳论文奖。 [ Github Repo ] 该数据集引入了一个大规模时空数据集,涉及城市空气污染的所有主要参与者。该数据集结合了多种来源,以获取研究城市空气污染所必需的信息 -... -
英语至阿萨姆语平行数据集
此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集 -
用于 NLP 任务的高质量金融新闻数据集
此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:... -
用于文本检测的尼泊尔手写图像:各个年龄段的详尽文本数据集
尼泊尔手写数据集 (NHD),它是尼泊尔各个地区用相机捕捉的尼泊尔手写文本图像的集合。该数据集旨在为研究人员探索手写检测和识别新技术提供基准。我们还提供了使用成熟的深度学习框架进行文本定位和识别的基准结果。数据集和基准结果可在此处获得。 主要特点:... -
揭开社交媒体的情感面纱:Twitter 情感数据集
利用我们精心整理的数据集,深入了解通过 Twitter 消息表达的人类情感的复杂世界。这个综合集合中的每个条目都包含从 Twitter 中提取的一段文本,并附有相应的标签,表示消息传达的主要情感。情绪被精心分为六个不同的类别:悲伤 (0)、快乐 (1)、爱 (2)、愤怒 (3)、恐惧 (4) 和惊讶 (5)。... -
核聚变实验的模拟数据
核能聚变实验的模拟数据集对于对核聚变领域感兴趣的研究人员和爱好者来说都是宝贵的资源。该数据集由 100,000 行组成,每行代表一个实验,并包含各种对于了解聚变反应成功或失败至关重要的参数。这些参数包括燃料密度、温度、约束时间、燃料纯度、能量输入、功率输出、压力和中子产量等。... -
植物疾病检测数据集
植物疾病数据集由印度理工学院的一组研究人员创建,最初在一篇研究论文中进行了描述。其中一位作者 Pratik Kayal 已在GitHub上分享了该数据集,可供公众使用。PlantDoc 数据集包含 13 种不同植物物种的总共 2,569 张图像。该数据集分为 30 个不同的类别,标签指示每张图像是健康的还是患病的。数据集内共有 8,851... -
用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集
该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。... -
GPT GCJ 数据集:检测 LLM 编写的 Java 代码
来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...