数据集 - 海数据

全球GPT-1N外部模型评估数据集-sasrdw

2025年4月22日

全球GPT-1N外部模型评估数据集-sasrdw 数据来源：互联网公开数据标签：自然语言处理，模型评估，GPT-1N，语言模型，数据集，文本生成，文本分析，人工智能，机器学习数据概述：该数据集包含了用于评估GPT-1N外部模型性能的各种测试数据，旨在全面衡量模型在不同任务上的表现。主要特征如下：时间跨度：数据收集时间跨度不固定，持续更新。...

ZIP

对话摘要数据集SAMSUM-jainikkhil

2025年4月22日

对话摘要数据集SAMSUM-jainikkhil 数据来源：互联网公开数据标签：对话摘要，文本摘要，自然语言处理，数据集，机器学习，语言模型，文本分析，信息检索数据概述：该数据集包含来自社交媒体平台的对话摘要数据，记录了用户之间的对话及其对应的摘要。主要特征如下：时间跨度：数据记录的时间范围未知。...

ZIP

提示生成数据集PromptsGeneratedV2Dataset-andreivanenko

2025年4月22日

提示生成数据集PromptsGeneratedV2Dataset-andreivanenko 数据来源：互联网公开数据标签：自然语言处理，提示生成，数据集，机器学习，文本生成，人工智能，语言模型，数据科学数据概述：该数据集包含来自Prompts Generated V2项目的提示生成数据，记录了用于训练和评估语言模型的提示文本。主要特征如下：...

ZIP

僧伽罗语新闻文章数据集SinhalaNewsArticlesDataset-timnirmal

2025年4月22日

僧伽罗语新闻文章数据集SinhalaNewsArticlesDataset-timnirmal 数据来源：互联网公开数据标签：新闻文章，僧伽罗语，自然语言处理，文本分析，数据集，情感分析，语言模型，文本挖掘数据概述：该数据集包含来自互联网的僧伽罗语新闻文章，旨在为自然语言处理（NLP）研究和应用提供资源。主要特征如下：...

ZIP

杰布-普罗姆特配对数据集BART2模型JBPromptPairsDatasetforBART2Model-balrajprajesh

2025年4月22日

杰布-普罗姆特配对数据集BART2模型JBPromptPairsDatasetforBART2Model-balrajprajesh 数据来源：互联网公开数据标签：自然语言处理，数据集，文本生成，模型训练，BART，文本匹配，语言模型，人工智能数据概述：该数据集包含杰布·普罗姆特（JB...

ZIP

文本可读性分析演示数据集-uocoeeds

2025年4月22日

文本可读性分析演示数据集-uocoeeds 数据来源：互联网公开数据标签：文本分析，可读性，自然语言处理，数据集，语言模型，文本挖掘，机器学习，教育数据概述：该数据集包含来自不同来源的文本数据，旨在用于评估和演示文本可读性分析方法。主要特征如下：时间跨度：数据记录的时间范围不固定，涵盖了不同时期的文本。...

ZIP

金融推文数据集-2021至2023年-amulyas

2025年4月22日

金融推文数据集-2021至2023年-amulyas 数据来源：互联网公开数据标签：金融推文,社交媒体,金融影响者,情感分析,语言模型,比特币,股票,市场趋势数据概述：...

ZIP

ChatGPT推特首月数据集2022年11月至12月-pcminh0505

2025年4月22日

ChatGPT推特首月数据集2022年11月至12月-pcminh0505 数据来源：互联网公开数据标签：ChatGPT,推特,社交媒体,人工智能,语言模型,科研,学术研究数据概述：本数据集包含了2022年11月30日至2022年12月31日期间，所有与ChatGPT相关的推特信息。数据通过Twitter API...

ZIP

科学代理基准测试数据集-多学科任务评估-henryshan

2025年4月21日

科学代理基准测试数据集-多学科任务评估-henryshan 数据来源：互联网公开数据标签：科学代理,语言模型,自动化,科学发现,基准测试,数据驱动,评估,Python程序,多学科数据概述：...

ZIP

跨语言问答数据集XQuAD多语言问答数据集-thedevastator

2025年4月21日

跨语言问答数据集XQuAD多语言问答数据集-thedevastator 数据来源：互联网公开数据标签：问答, 跨语言, 自然语言处理, 机器翻译, 文本理解, SQuAD, 语言模型, 英语, 西班牙语, 德语, 希腊语, 俄语, 土耳其语, 阿拉伯语, 越南语, 泰语, 汉语, 印地语数据概述：...

ZIP

俄罗斯诗歌灵感源泉数据集-19000首诗歌-1900至2023年-grafstor

2025年4月21日

俄罗斯诗歌灵感源泉数据集-19000首诗歌-1900至2023年-grafstor 数据来源：互联网公开数据标签：俄罗斯诗歌,文学,灵感,文化,语言模型, seq2seq,文本生成数据概述：...

ZIP

印度维基百科文章数据集

2025年4月20日

印度维基百科文章数据集数据来源：互联网公开数据标签：维基百科,印度,自然语言处理,文本挖掘,语言模型,文本数据,机器学习数据概述：本数据集包含172,000篇经过清洗的印度维基百科文章，已转换为CSV格式，便于直接作为Pandas...

ZIP

多语言命名实体识别数据集

2025年4月19日

多语言命名实体识别数据集数据来源：互联网公开数据标签：命名实体识别,多语言数据,自然语言处理,语言模型,数据标注,机器学习,深度学习数据概述：...

ZIP

对话与文学风格文本数据集

2025年4月18日

对话与文学风格文本数据集数据来源：互联网公开数据标签：对话风格,文学风格,文本风格转换,俄语数据,自然语言处理,机器学习,语言模型数据概述：...

ZIP

伦巴第语命名实体识别与语言训练数据集

2025年4月17日

伦巴第语命名实体识别与语言训练数据集数据来源：互联网公开数据标签：伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注数据概述：本数据集是基于WikiANN项目构建的伦巴第语（Lombard）文本数据集，用于命名实体识别（NER）和语言模型训练。...

ZIP

泰卢固语新闻文本数据集-语言模型训练-合并数据集

2025年4月17日

泰卢固语新闻文本数据集-语言模型训练-合并数据集数据来源：互联网公开数据标签：泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据数据概述：本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成，整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容，涵盖了各种主题和风格。数据用途概述：...