找到6个数据集

分类: 公开数据 标签: Word2Vec

过滤结果
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 111 14

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • Urdu_Based乌尔都语攻击性内容数据集及实现代码

    2026年1月30日 30 77 43

    数据集概述 本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。 文件详解 数据文件(.xlsx格式,共3个) dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据...
    packageimg
  • Cortex_Submission_统计分析原始实验数据

    2026年1月30日 30 81 13

    数据集概述 本数据集为Cortex提交的统计分析原始数据,包含33个文件,涉及实验设计、数据处理、结果分析等内容,覆盖模型、相关性、预测等统计维度,以及控制实验、原始数据处理、CT医学影像、图片视觉、文本词汇等多领域关键词,可支持多维度统计分析研究。 文件详解 统计分析文件(.spwb格式,15个) 示例文件:ageacquisition...
    packageimg
  • Exploiting_Hierarchy_医疗概念嵌入_ICD_10分层数据集

    2026年1月19日 30 107 74

    数据集概述 本数据集包含基于ICD-10编码标准构建的预训练医疗概念嵌入,通过扩展Word2Vec算法融入医疗编码的分层信息。数据来自美国中大西洋地区大型综合医疗机构约60万患者的数据集,包含ICD-10代码和CCSR分类的嵌入向量,可用于医疗数据分析与分类任务,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • Board_Leadership_Based美国上市公司董事会领导力数据库及机器学习扩展脚本2025

    2026年1月4日 30 181 129

    数据集概述 本数据集包含美国上市公司董事会领导力数据库及配套机器学习脚本,数据库通过监督学习扩展人工编码数据生成,涵盖CEO二元性、董事会主席定位等变量;脚本用于训练模型及对企业委托书相关变量评分,支持其他结构数据的扩展应用,共9个文件。 文件详解 文档文件 文件名称:Board Leadership Dataset & Tool...
    packageimg
  • 架构侵蚀违规症状自动化识别研究复现包

    2025年12月21日 30 120 25

    数据集概述 本数据集为架构侵蚀违规症状自动化识别研究的复现包,包含代码审查评论数据、特征文件、预训练词嵌入模型下载链接、实验脚本及开发者调查访谈资料,支持复现机器学习、深度学习及大语言模型分类器实验。 文件详解 该数据集由三个压缩文件构成,具体说明如下: - 数据文件包: data.zip - 内容说明:包含特征文件、预训练词嵌入模型下载链接及标注数据...
    packageimg