-
标准文件格式数据集media-types
该数据集包含了一系列MIME类型(Multipurpose Internet Mail Extensions)的详细信息。MIME类型广泛应用于描述互联网数据格式,帮助浏览器、操作系统以及应用程序正确识别和处理文件内容。本数据集列出了多种与音频和字体格式相关的MIME类型、文件扩展名及相关链接。
-
CSV中的CIFAR-10 Python数据集
数据名称:CSV 中的 CIFAR-10 Python数据集 数据说明:CIFAR-10 数据集包含 10 个类别的 60000 张 32x32 彩色图像,每个类别有 6000 张图像。各个类别完全互斥。其中有 50000 张训练图像和 10000 张测试图像。 数据时间:截止 2021年 数据来源:互联网数据
-
Go Emotions:Google 情绪数据集
数据名称:Go Emotions:Google 情绪数据集 数据说明:Google AI GoEmotions 数据集由 Reddit 用户的评论组成,并附有情绪色彩标签。GoEmotions...
-
MedQuAD:医学问答数据集
数据名称:MedQuAD:医学问答数据集 数据说明:MedQuAD 是释放医学领域 NLP 和 IR 潜力的强大工具。通过利用这一丰富的数据集,研究人员和开发人员正在为未来铺平道路,让个人能够更轻松、更高效地获取准确、全面的健康信息。 数据时间:截止 2024年 数据来源:互联网数据
-
印度手语转字符数据集
数据名称:印度手语转字符数据集 数据说明:该数据集提供了详细的手势数据,用于识别印度手语 (ISL) 手势并将其翻译成相应的文本字符。它包含双手数据,并捕捉与手部动作和手指位置相关的关键特征,这些特征对于准确识别 ISL 手势至关重要。 数据时间:更新于 2024年 数据来源:互联网数据
-
心理健康情绪分析
数据名称:心理健康情绪分析 数据说明:这个综合数据集是精心整理的心理健康状态集合,这些状态来自各种声明。该数据集整合了来自多个来源的原始数据,经过清理和编译,为开发聊天机器人和进行情绪分析创建了一个强大的资源。 数据时间:更新于 2024年 数据来源:互联网数据
-
-
美国智能网络流量速度协调信息数据
数据的内容:数据主要包含美国华盛顿州西雅图智能网络流量优化(INFLO)原型系统和应用程序的小规模演示数据,特别是在早高峰时段以及北向和南向的 I-5 走廊的21辆车的行驶场景。数据集中包含了由交通管理中心发送给联网车辆的速度协调消息。 数据来源:互联网公开数据,来自华盛顿州西雅图的 INFLO 原型系统和应用程序...
-
可穿戴传感器动作分析数据集
该数据集旨在使用从可穿戴传感器收集的数据,在人机交互 (HCI) 环境中进行动作分类,并与动画设计的仿生视觉系统相结合。该数据集是作为一项研究的一部分收集的,该研究旨在改善实时人体动作识别,以增强虚拟现实 (VR) 和增强现实 (AR) 环境中的沉浸式体验。参与者:数据来自 30 名参与者(15 名男性和 15...
-
空间材料结构优化数据集
此文件夹包含使用 top88 算法进行拓扑优化 (TO) 生成的数据。top88 算法有助于根据给定的体积分数优化设计空间内的材料分布,旨在实现结构最优设计。
-
OpenFinData开源金融评测数据集
OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景,旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。
-
OCNLI中文自然语言训练数据集
OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库,紧密按照MNLI的程序收集,但具有增强的策略,旨在实现更具挑战性的推理对。我们想强调的是,我们在创建数据集时没有使用人机翻译,因此我们的中文文本是原创的,没有翻译。
-
SST (Stanford Sentiment Treebank)
斯坦福情感库是一个带有完全标记的解析树的语料库,可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集,由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语由 3...
-
-
高校调查问卷文本数据集
高校学子在填写志愿时对目标高校校园生活往往并不了解,此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据,可以直接用于训练AI模型或用于RAG的数据集
-
GeoQA (Geometric Question Answering)
GeoQA 是一个用于自动解决几何问题的数据集,包含 5,010 个几何问题和相应的注释程序,说明了给定问题的解决过程 与另一个公开可用的数据集 GeoS 相比,GeoQA 大 25 倍,其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。
-
DRCD (Delta Reading Comprehension Dataset)
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
-
SFT多轮中文对话文本数据集
SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献,每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 数据组成...
-
综合性食谱语料库
完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。
-



