数据集 - 海数据

Skirgård_Grambank_Based_语言语法特征分析完整数据

2025年12月7日

数据集概述本数据集为Grambank v1.0版本，是一个与语言语法特征相关的数据库。相关研究论文将发表于《Science Advances》，旨在揭示谱系约束对语言多样性的重要性，并强调语言流失的影响。文件详解文件名称: grambank/grambank-v1.0.3.zip 文件格式: ZIP压缩包（.zip）内容说明:...

ZIP

乌拉尔语系基础词汇及同源词与借词信息数据集

2025年12月7日

数据集概述该数据集提供乌拉尔语系的基础词汇数据，包含同源词与借词相关信息，可用于分析语言间的词汇借用模式及结构特征，为语言学研究提供支持。文件详解文件名称: lexibank/uralex-v2.0.zip 文件格式: ZIP压缩包内容说明: 压缩包内包含乌拉尔语系基础词汇数据，具体字段及结构需解压后查看原始文件适用场景...

ZIP

希腊议会二战后会议记录分析与识别数据集1946_1947

2025年12月5日

数据集概述该数据集通过文本识别与自然语言处理技术，解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像，以及通过语言模型优化、信息提取技术分析的演讲数据，首次量化了获得掌声的议题。文件详解文件名称: README.md，文件格式: Markdown，内容:...

ZIP

软件追踪系统缺陷报告数据集

2025年11月29日

数据集概述该数据集包含来自软件追踪系统的缺陷报告数据，适用于软件分析、机器学习、深度学习及大语言模型（LLM）应用场景。数据集由多个来源的JSON格式原始缺陷报告文件组成，为相关领域的研究和应用提供数据支持。文件详解文件名称: Novell_original.json：JSON格式文件，包含Novell系统的原始缺陷报告数据文件名称:...

ZIP

英语时态文本分类数据集

2025年11月29日

数据集概述该数据集是大规模英语文本分类数据集，包含按过去、现在、未来三种时态分类的英语句子。共收录一万三千三百一十六个标注句子，其中现在时态四千六百二十一句、过去时态三千八百五十一句、未来时态四千八百四十四句，为自然语言处理研究提供支持。文件详解文件名称: EnglishTenseUniqueDataset.xlsx 文件格式: XLSX...

ZIP

索拉尼库尔德语高质量自动命名实体识别数据集2024

2025年11月29日

数据集概述该数据集是针对低资源语言索拉尼库尔德语的自动标注命名实体识别（NER）资源，包含二零二四年发布的两千三百余篇新闻文章，覆盖政治、经济等六个领域，采用BIO标注方案，含六十五万余词元及十二类实体类型，用于支持库尔德语自然语言处理研究。文件详解主目录文件： Adyan_metadata.txt：TXT格式，可能包含数据集元信息...

ZIP

多目标优化结合知识图谱嵌入大语言模型的电池回收技术选择数据集

2025年11月28日

数据集概述本数据集围绕电池回收技术选择展开，包含基于知识图谱嵌入大语言模型的Battery-LLaMA模块、多目标优化框架相关数据，涵盖文献摘要、模型训练、优化结果等内容，为可持续电池回收技术研究提供支持。文件详解该数据集由多个目录和文件组成，具体说明如下： - 数据文件目录（Data Utilized/）： -...

ZIP

墨西哥政治宣传分析Twitter数据收集脚本2018

2025年11月28日

数据集概述本数据集包含用于2018年墨西哥总统选举期间Twitter数据收集的Python脚本，目标是追踪主要总统候选人相关的推文内容，为后续政治宣传和错误信息检测分析提供数据支持。文件详解压缩文件: MexPol.zip:...

ZIP

金融新闻标题情感标注数据集

2025年11月28日

数据集概述该数据集包含通过BeautifulSoup从新闻网站提取的金融新闻标题数据，附带“积极”“消极”“中性”三类情感标签，共约一万八千行记录，可用于大语言模型的情感分析任务微调。文件详解数据文件 final_sent_headline_df_Balanced.xlsx:...

ZIP

LLM生成的123个漏洞候选检测规则YAML输出数据集

2025年11月27日

数据集概述该数据集包含由GPT-4o和Claude 3.5 Sonnet两款商用大语言模型生成的漏洞候选检测规则YAML输出，针对一百二十三个漏洞样本，按模型及温度、top_p参数配置分层存储，文件名对应ExploitDB或PacketStorm的漏洞ID，可直接关联原始样本。文件详解数据集采用四层目录结构，按模型和参数配置分类，具体如下： -...

ZIP

孟加拉语语音数据集_简单_复杂_复合结构

2025年11月26日

数据集概述该数据集是针对孟加拉语的综合资源，包含简单、复杂、复合三种句式的文本数据及对应母语者语音录音，标注了句式类型，适用于语言学分析、自然语言处理及语音识别任务。文件详解文件名称: Bangla Voice Dataset Simple, Complex, and Compound/Simple Complex Compound Bangla...

ZIP

人机交互对话数据集

2025年11月25日

人机交互对话数据集_Human_LLM_Dialogue_Dataset 数据来源：互联网公开数据标签：人机对话, 语言模型, 对话数据, 自然语言处理, 文本生成, 情感分析, 机器学习, 数据集数据概述：该数据集包含人与大型语言模型（LLM）之间的对话记录，旨在促进对人机交互行为和语言模式的研究。主要特征如下：...

ZIP

多语言机器翻译模型评估数据集

2025年11月15日

多语言机器翻译模型评估数据集_Multilingual_Machine_Translation_Model_Evaluation_Dataset 数据来源：互联网公开数据标签：机器翻译, 多语言, 文本评估, 模型评估, 性能分析, 深度学习, 自然语言处理, 语言模型数据概述：...

ZIP

加泰罗尼亚语文本词汇预测数据集

2025年11月12日

加泰罗尼亚语文本词汇预测数据集_Catalan_Text_Vocabulary_Prediction 数据来源：互联网公开数据标签：自然语言处理, 文本预测, 语言模型, 加泰罗尼亚语, 词汇分析, 深度学习, 语料库, 文本生成数据概述：...

ZIP

儿童英语句子重组训练数据集

2025年11月7日

儿童英语句子重组训练数据集_Children_s_English_Sentence_Reconstruction_Training_Dataset 数据来源：互联网公开数据标签：英语学习, 句子重组, 文本生成, 语言模型, 自然语言处理, 英语教育, 语料库, 数据集数据概述：...

ZIP

自然语言生成文章写作质量评估数据集

2025年11月5日

自然语言生成文章写作质量评估数据集_Natural_Language_Generation_Article_Writing_Quality_Assessment 数据来源：互联网公开数据标签：自然语言生成, 文本质量评估, 写作质量, 语言模型, 生成文本, 文本分析, 机器学习, 语料库数据概述：...

ZIP

机器翻译模型输入数据

2025年10月31日

机器翻译模型输入数据_Machine_Translation_Model_Input_Data 数据来源：互联网公开数据标签：机器翻译, 自然语言处理, 文本数据, 预训练模型, 数据集, 文本编码, 语言模型, 深度学习数据概述：...

ZIP

词向量语义分析数据集

2025年10月20日

词向量语义分析数据集_Word_Vector_Semantic_Analysis_Dataset 数据来源：互联网公开数据标签：词向量, 语义分析, 自然语言处理, 文本挖掘, 机器学习, 词嵌入, 语言模型, 情感分析数据概述：该数据集包含预训练的词向量数据，记录了词汇的语义表示，适用于各种自然语言处理任务。主要特征如下：...

ZIP

英语写作质量评估模型输出数据集

2025年10月16日

英语写作质量评估模型输出数据集_English_Writing_Quality_Assessment_Model_Output 数据来源：互联网公开数据标签：写作质量评估, 文本分析, 自然语言处理, 语言模型, 英语写作, 机器学习, 文本评分, 模型输出数据概述：...

ZIP

尼泊尔语语音识别文本数据集

2025年10月14日

尼泊尔语语音识别文本数据集_Nepali_Speech_Recognition_Text_Dataset 数据来源：互联网公开数据标签：语音识别, 尼泊尔语, 语音数据, 文本标注, 声学模型, 语言模型, 深度学习, 音频分析数据概述：该数据集包含尼泊尔语语音数据及其对应的文本转录，旨在促进尼泊尔语语音识别技术的研究与开发。主要特征如下：...

ZIP

找到776个数据集

注册成功！