-
全球通货膨胀率:各国历史通胀数据(1960 -2025)
该数据集提供了全球通货膨胀率的全面历史记录,涵盖了从 1960 年到现在的时期。它包括多个国家和地区的国家级通货膨胀数据,是经济分析、财务预测和宏观经济研究的宝贵资源。 数据来源:https://datos.bancomundial.org/indicador/FP.CPI.TOTL.ZG?... -
DeepSeek 上的推文和反应:Twitter/X 上有关 DeepSeek 模型的推文和反应
该数据集包含有关 DeepSeek 及其发布的模型的推文和反应,以及其他密切相关的关键词,例如 NVIDIA、OPENAI、ANTHROPIC、META、LLAMA 等。
-
UFC 比赛统计数据
该数据集从网络上抓取了从 2016 年 7 月到 2024 年 11 月的每场 UFC 比赛。这些统计数据是逐轮累积的,包括结果和事件属性。 视差数据集找到 Fighter1(红角)和 Fighter2(蓝角)之间的每个统计差异。 UFC 比赛统计元数据: 活动信息: 拳手 1、拳手 2:参赛拳手姓名 获胜者?:比赛获胜者...
-
医疗工作者心理健康数据集
医疗保健劳动力心理健康数据集旨在探索医疗保健行业的工作场所心理健康挑战,该行业以高压力和倦怠率而闻名。 该数据集使用户能够分析与以下方面相关的主要趋势: 工作压力源: 检查繁重的工作量、恶劣的工作环境和情感需求的影响。 心理健康结果: 了解压力和倦怠如何影响工作满意度、旷工率和离职意向。...
-
全球商品与服务出口:按国家、收入群体和地区划分的商品和服务出口(1960 -2025)
该数据集提供了 1960 年至今世界各国商品和服务出口占 GDP 百分比的历史数据。它包含按国家、收入群体和地区分类的信息,对经济分析、贸易研究和政策研究很有价值。该文件包含 1960 年至今每个国家商品和服务出口占 GDP 百分比的年度数据。其中包括国家名称、ISO 代码、经济区域和收入分类等基本详细信息。 数据来源...
-
陨石着陆地球数据:全球 34,500 多颗陨石着陆的详细记录
该数据集包含全球 34,513 颗已知陨石着陆的详细记录,由陨石学会汇编并托管在 NASA 的开放数据门户上。它包括有关陨石的基本信息,例如其分类、质量、位置以及它们是被观察到坠落还是后来被发现。 数据集概述 数据集由以下主要列组成: 名称——陨石的正式名称。 id – 每颗陨石的唯一标识符。 nametype – 指示陨石是否: 有效:大多数陨石...
-
IMDb电影元数据的集合,包括评级、评论、类型和运行时间
该数据集包含 IMDb 电影元数据,包括电影名称、上映年份、年龄分级、类型和用户评分。它为数据分析、机器学习和推荐系统提供了宝贵的见解。 name - 电影名称 year - 电影上映年份 movie_rated - 官方年龄分级 run_length - 电影时长(分钟) types - 与电影相关的类型 release_date -...
-
2024 年全球最幸福国家排名(基于幸福指数)
该数据集包含 2024 年全球最幸福国家排名,数据来源于《世界人口评论》。排名基于各种幸福指标,例如收入、社会支持、预期寿命、生活选择自由、慷慨程度和对腐败的看法。数据反映了 2024 年各国幸福指数的全球排名,深入了解了影响国家幸福的因素。
-
使用 peft 和 lora 进行 LLM 微调的合成数据
该数据集包含对话摘要、主题和对话,用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道,这是一种流行且轻量级的训练技术,可显着减少可训练参数的数量。 该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum
-
本地登革热疫情
登革热是一种蚊媒疾病,发生在世界热带和亚热带地区。轻度病例的症状与流感相似:发烧、皮疹、肌肉和关节疼痛。重度病例可导致严重出血、低血压,甚至死亡。 由于登革热是由蚊子传播的,因此其传播动态与气温和降水等气候变量有关。尽管与气候的关系很复杂,但越来越多的科学家认为,气候变化可能会造成分布变化,从而对全球公共卫生产生重大影响。...
-
公众环境关注如何提升企业ESG表现(2011-2022年)
数据集名称:公众环境关注如何提升企业ESG表现(2011-2022年) 数据数量:4 数据集关键词:ESG, 2022, 2011 数据集格式:db, dta, do, pdf
-
ESG表现、公司透明度与企业声誉(2009-2021年)
数据集名称:ESG表现、公司透明度与企业声誉(2009-2021年) 数据数量:3 数据集关键词:ESG, 2009, 透明度, 2021 数据集格式:dta, do, pdf
-
包含“绿色氢”文章标题的数据集
该数据集包含从 CNBC 和 Google RSS 网站抓取的数据 - 其中包含“绿色氢”的文章标题。此外,还包含日期、文章所涉及的组织名称及其情感分数,可用于比较每篇文章。
-
用于 NLP 任务的高质量金融新闻数据集
此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:...
-
全球陆地的视觉探索:国家实际面积数据集
该数据集提供了各国及其各自陆地和水域面积的综合列表。它包括墨卡托投影所描绘的国家大小与其真实地理比例的详细比较。该数据集的灵感来自传统地图投影的局限性,旨在更准确地表示全球陆地。 一个 CSV 文件,包含国家列表、其陆地面积、水域面积、总面积和水域面积百分比。
-
geoleaderboard 网站上使用的排行榜数据
该数据集为geoleaderboard 网站提供全面的排行榜数据,每日更新。它包括排名、用户名、国家、评级、分区、移动评级、无移动评级和 NMPZ 评级等列。非常适合跟踪玩家表现并分析 GeoGuessr 游戏中的模式。
-
揭开社交媒体的情感面纱:Twitter 情感数据集
利用我们精心整理的数据集,深入了解通过 Twitter 消息表达的人类情感的复杂世界。这个综合集合中的每个条目都包含从 Twitter 中提取的一段文本,并附有相应的标签,表示消息传达的主要情感。情绪被精心分为六个不同的类别:悲伤 (0)、快乐 (1)、爱 (2)、愤怒 (3)、恐惧 (4) 和惊讶 (5)。...
-
PyTorch 几何外部库
用于 Kaggle Env 的 PyTorch 几何外部库轮子 该数据集是 PyTorch Geometric外部库的 Python wheel 包文件(只需安装PyG即可) 。PyTorch pip install torch_geometricGeometric 是用于构建图神经网络的 torch...
-
GPT GCJ 数据集:检测 LLM 编写的 Java 代码
来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
-



