-
LinkedBooks_Based_威尼斯历史文献参考文献标注与解析框架数据集
数据集概述 本数据集是LinkedBooks项目的成果,包含威尼斯历史相关期刊(如《Ateneo Veneto》《Archvio Veneto》《Studi Veneziani》)和专著的参考文献列表及脚注参考文献标注数据。数据经数字化、OCR处理(使用ABBYY FineReader)和标注(使用Brat...
-
cervical_data_set_Based_宫颈细胞H_E染色图像分割数据集
数据集概述 本数据集为用于宫颈细胞核分割的H&E染色图像数据集,包含训练集501张图像和测试集205张图像,配套标签由细胞学家标注,总计超过9000个标注。数据集以压缩文件形式提供,用于支持宫颈细胞图像分割相关研究与应用。 文件详解 训练集文件 文件名称:cervical_train.zip 文件格式:ZIP...
-
Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集
数据集概述 本数据集包含12490行社交媒体内容样本,按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页,无帖子元数据,可用于网络骚扰类型识别相关研究。 文件详解 文件名称:Dataset_to_upload.xlsx 文件格式:XLSX...
-
SOCRATES_Based_德国波恩野生动物园2022年2_7月图像实例分割数据集
数据集概述 本数据集为SOCRATES立体相机陷阱2022年2月至7月在德国波恩野生动物园捕获的视频帧子集,包含对应COCO格式的实例分割标注。数据集以压缩包形式提供,无目录层级、训练测试/数据标签/原始处理数据划分,仅含1个压缩文件。 文件详解 文件名称:plittersdorf_instance_segmentation_coco.zip...
-
Chatbot_Integration_Source_开发者视角集成模式研究补充数据
数据集概述 本数据集是论文“Chatbot Integration in few patterns”的补充材料,从开发者视角出发,整理了报告“聊天机器人系统”的论文列表,包含其应用领域和聊天机器人集成模式信息,用于支持聊天机器人集成架构相关研究。 文件详解 文件名称:Chatbot Integration in few patterns -...
-
AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版
数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
-
Bionomia_Linked_阿拉巴马大学标本馆采集者与鉴定者关联数据_Package
数据集概述 本数据集为阿拉巴马大学标本馆的自然历史标本数据,关联了标本的采集者与鉴定者信息。数据由Bionomia平台志愿者标注,基于全球生物多样性信息机构(GBIF)聚合的标本数据集生成,以Frictionless Data数据包格式组织,包含9个文件。 文件详解 数据包描述文件 文件名称:datapackage.json 文件格式:JSON...
-
French_WSD_Based_Princeton_WordNet标识符法语词义消歧数据集
数据集概述 本数据集用于基于Princeton WordNet标识符的法语词义消歧任务,包含两个自动翻译并对齐的训练语料库(SemCor、WordNet Gloss Corpus),以及一个从SemEval 2013任务12转换而来的测试语料库,总计3个XML文件。 文件详解 训练语料库文件...
-
Bionomia_CONABIO_Halffter馆藏金龟子科标本数据_关联数据
数据集概述 本数据集为CONABIO数据库中Halffter馆藏(鞘翅目:金龟子科)标本的采集者与鉴定者关联数据,由Bionomia志愿者标注生成,基于GBIF聚合的标本数据,包含9个文件,以Frictionless Data包格式组织,用于生物标本数据的管理与分类学研究。 文件详解 数据集文件...
-
Twitter_ViralTweets_2016美国大选日虚假新闻病毒式推文数据
数据集概述 本数据集为2016年11月8日美国大选日期间达到千次转发的病毒式推文集合,通过Twitter流API采集,覆盖特定选举相关话题标签及候选人账号,所有推文由专家标注是否包含虚假新闻(含编造、骗局、误读玩笑等类型),仅包含一个文件。 文件详解 文件名称:electionday_tweets.xlsx 文件格式:XLSX...
-
Phishing_NLP_Based网络钓鱼和社会工程威胁检测多分类数据集2025
数据集概述 本数据集包含624条英文消息,用于训练和评估基于自然语言处理(NLP)的钓鱼检测模型。每条消息标注为六种网络安全威胁或良性内容类别之一,支持多分类任务,适用于网络安全领域的机器学习应用,所有消息已匿名化处理。 文件详解 文件名称:phishing_nlp_dataset.xlsx 文件格式:XLSX...
-
Replication_Package_Discord开发者问答辅助研究复现包数据
数据集概述 本数据集是论文“On the Helpfulness of Answering Developer Questions on Discord with Similar Conversations and Posts from the...
-
Implicit_Opinion_Mining_航空业用户评论隐式方面意见挖掘分析数据
数据集概述 本数据集为航空业领域的手动标注语料库,聚焦用户生成评论中的隐式方面意见挖掘。通过识别评论中未明确提及但隐含的实体(如客舱、座椅)及对应意见,填补该领域隐式方面意见研究的空白,为相关分析提供结构化标注数据,包含4个文件。 文件详解 文件名称:Individual_Label_data.zip 文件格式:ZIP...
-
afids_data_Based_神经影像解剖基准点质量控制与配准数据集_2_0_5版
数据集概述 本数据集包含针对常见神经影像模板和数据集的精选解剖基准点标注,用于神经影像的质量控制与配准任务。数据集以压缩包形式提供,未进行训练/测试、数据/标签或原始/处理数据的拆分,仅包含一个归档文件。 文件详解 文件名称:afids-data-2.0.5.zip 文件格式:ZIP...
-
Passive_OS_Fingerprinting_Revisited_网络流标注数据集
数据集概述 本数据集为被动操作系统指纹识别方法评估构建,基于大学工作日约8小时的Web流量,通过Flowmon和GoFlows提取网络流特征,结合Web日志的User-Agent信息(经ua-...
-
Biblical_Allusions_Test_Set_希伯来文本圣经典故识别基准测试数据
数据集概述 本数据集是用于评估希伯来语文本中圣经典故自动识别算法的基准测试集,包含标注答案和测试文本两类文件,可支持自然语言处理领域相关算法的性能验证,共包含两个文件。 文件详解 GoldAnswers.docx 文件格式:DOCX 字段映射介绍:包含希伯来语文本中圣经典故的标注答案,为算法识别结果提供参考基准。 TestText.docx...
-
LAMeD_Supplementary_Materials_LLM生成内存泄漏检测标注数据
数据集概述 本数据集是LAMeD项目的补充材料,包含LLM生成的内存泄漏检测标注相关文件,用于支持内存泄漏检测任务的研究与分析。数据集共3个文件,涵盖管道代码、标注CSV及基准测试JSON三类内容,无训练测试或数据标签拆分。 文件详解 文件名称:lamed-pipeline.zip 文件格式:ZIP...
-
GNSS_RO_Supervised_Detection_低纬度电离层闪烁特征数据集_2021
数据集概述 本数据集包含低纬度地区GNSS无线电掩星(GNSS-RO)测量的电离层闪烁标注特征数据,用于训练和测试支持向量机(SVM)算法。该SVM模型可对未标注的测量数据进行二分类:标签1(电离层闪烁)和标签0(其他干扰)。数据集仅包含一个压缩文件,相关方法细节可见2021年提交至《Remote Sensing》的论文。 文件详解 文件名称:sci-...
-
Indirect_aggression_Prediction_用户间接攻击行为预测数据集与代码
数据集概述 本数据集包含用于预测用户间接攻击行为的原始数据、标注数据、处理后数据及模型代码。原始数据涵盖用户画像与生成内容,标注数据为间接攻击行为三维度评分,可通过匿名ID关联匹配,另有处理后的特征标签文件及模型构建与评估代码,所有信息均已匿名化。 文件详解 代码文件(.py格式,共4个) main.py:模型构建与评估的主执行脚本...
-
Age_Inclusive_Mobile_App_Reviews_年龄包容性移动应用评论分析数据
数据集概述 本数据集为年龄包容性移动应用评论研究项目的相关文件集合,包含用户评论的人工标注数据、基于GPT、Gemini、LLAMA等模型的自动标注结果,以及对应的分析代码笔记本和说明文档,用于支持移动应用评论的年龄包容性研究。 文件详解 文档文件 文件名称:README.txt.md 文件格式:.md...



