-
NBC2_4_Based_历史新闻文章主题建模与分类标注数据
2026年1月29日 30 9 1
数据集概述 本数据集包含通过主题建模和朴素贝叶斯分类器(NBC2+4)对历史新闻文章进行的标注结果,按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词,为新闻文本的主题分析提供结构化标注数据。 文件详解 文件1:Bunout-newspaper article-annotations-...
-
INCHER_WorkingPaper_14_国际研究合作文献综述数据集
2026年1月22日 30 92 42
数据集概述 本数据集是2020年INCHER-KASSEL发布的国际研究合作文献综述配套数据,基于2009-2016年Scopus收录的跨学科文献,通过定量与定性分析,揭示国际研究合作的研究现状、学科贡献及主题路径,为科研管理和学术合作研究提供支撑。 文件详解 文件名称:INCHER-...
-
Paired_Human_and_LLM_free_text_survey_data
2026年1月18日 30 172 107
数据集概述 本数据集包含两组配对数据,模拟公众咨询场景。人类数据集涵盖约一千名英国居民对五个类公众咨询问题的自由文本回答,包含受访者自标主题标签及三名众包工作者的标注;LLM数据集基于人类回答生成,包含同一问题下的合成回复,由预设主题、角色设定及人类回答示例引导生成。 文件详解 人类调查数据文件...
-
Global_Museum_Based_全球顶级博物馆访客谷歌评论文本分析数据集Ver2
2026年1月13日 30 155 148
数据集概述 本数据集包含2020年1月至2024年12月期间,来自全球59家顶级博物馆的5,856条匿名谷歌地图评论。博物馆选自2024年3月《艺术报》排名,通过OutScraper工具采集并过滤为纯文本条目,每条评论含博物馆名称、原文、译文(如需)、字符数、处理后文本、情感得分、评分、时间、点赞数及主题标签,非英文评论已译为英文。 文件详解...
-
开源软件社会公益贡献动机与挑战补充材料
2025年12月23日 30 165 136
数据集概述 本数据集是论文《Leaving My Fingerprints: Motivations and Challenges of Contributing to OSS for Social Good》的补充材料,包含支持论文结果复现与扩展的结构化数据、调查文件、访谈协议及项目清单,为研究开源软件社会公益贡献的动机与挑战提供全面数据支持。...
-
佐科威学位问题社交媒体集群分析数据集
2025年12月19日 30 144 73
数据集概述 本数据集包含2025年4月27日至29日期间,印尼社交媒体平台X上关于佐科威学位问题的1014条匿名推文。数据涵盖原始文本、预处理结果及K-Means聚类生成的主题标签,为研究印尼社会政治议题的公众舆论动态提供支持。 文件详解 文件名称: tiamufh/DatasetIsuIjazahJokowi-v1.1.zip 文件格式:...
-
卢森堡开放科学探索活动资源包2018
2025年12月16日 30 90 57
数据集概述 本数据集包含2018年11月在卢森堡大学图书馆举办的“开放科学探索”活动全套资源。活动面向学生、研究人员及图书馆员,通过自主学习形式推广开放科学实践,资源支持活动复现与自主组织。 文件详解 OpenScienceQuest_Luxembourg-Nov18_overview.pdf:PDF格式,活动概述文档...
-
Webis_Argument_Framing_19_Based_论证框架建模完整数据
2025年12月11日 30 37 26
数据集概述 该数据集包含12,326条标注的论点数据,覆盖465个主题和1623个框架,每条论点存储结论、前提、框架、主题、立场等字段,用于研究论证中的框架建模。 文件详解 文件名称: Webis-argument-framing.zip 文件格式: ZIP压缩包 字段映射: conclusion: 论点结论 premise: 论点前提 frame:...
-
冠状病毒科学文献动态主题模型标签数据集
2025年12月6日 30 18 9
数据集概述 本数据集包含基于论文提出的无监督标签技术生成的动态主题模型(DTM)标签,涵盖100个和200个主题模型,分别使用全语料库和仅COVID-19时期数据训练,为冠状病毒科学文献的主题分析提供标签支持。 文件详解 文件名称:REPORT_ALL_200.html,文件格式:HTML,内容为使用全语料库训练的200个主题模型的标签报告...
-
维基百科主题与类别数据集
2025年6月1日 30 37 22
维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political...
-
维基百科文章主题标签数据集
2025年4月26日 30 57 18
维基百科文章主题标签数据集 数据来源:互联网公开数据 标签:维基百科,文章,主题标签,自然语言处理,文本分类,信息检索 数据概述:...
-
新闻CSV数据集
2025年4月25日 30 167 85
新闻CSV数据集 数据来源:互联网公开数据 标签:新闻,CSV,文本分类,数据分析,信息处理,新闻标题,新闻正文,主题标签 数据概述:...
-
安大略省高校汽车研究学者数据集-lequanner
2025年4月23日 30 130 66
安大略省高校汽车研究学者数据集-lequanner 数据来源:互联网公开数据 标签:汽车研究,安大略省,高校学者,连接和自动驾驶汽车,混合动力和电动车,新材料,研究设施,研究领域,研究资助,主题标签 数据概述:...
-
科幻与奇幻主题标签分类数据集
2025年4月20日 30 11 0
科幻与奇幻主题标签分类数据集 数据来源:互联网公开数据 标签:科幻, 幻想, 标签分类, 多标签分类, 数据挖掘, 文本分类, 主题分析 数据概述...
-
社交媒体网络话题与文档聚类数据集2015-2019
2025年4月15日 30 19 13
社交媒体网络话题与文档聚类数据集2015-2019 数据来源:互联网公开数据 标签:社交媒体网络,话题建模,文档聚类,推特,Reddit,政治讨论,主题标签,专家标注 数据概述:...
-
MySkill课程信息分析数据集
2025年4月14日 30 140 121
MySkill课程信息分析数据集 数据来源:互联网公开数据 标签:MySkill,在线课程,教育,课程评价,价格分析,主题标签,课程分类 数据概述: 本数据集来源于MySkill课程网站的网页抓取,包含9个字段,每个字段提供了有关网站上可用课程的重要信息。字段详情如下: - name:课程名称 - description:课程详细描述 -...



