数据集概述
本数据集包含Stack Exchange平台上与“机器学习”标签及“最佳实践”相关的问答内容,基于2021年3月Stack Exchange数据 dump 筛选而来,用于研究从业者讨论的机器学习最佳实践。数据涵盖问题和答案两类内容,以TXT、CSV、XLSX三种格式呈现,共6个文件。
文件详解
- 问题类文件
- 文件名称:questions.csv、questions.txt、questions.xlsx
- 文件格式:CSV、TXT、XLSX
- 字段映射介绍:包含QID(问题ID)、AcceptedAnswerId(已接受答案ID)、BestAnswerId(最高票答案ID)、Qtitle(问题标题)、QBody(问题内容)、Score(问题得分)、QTags(问题标签)、url_question(问题链接)、Date(创建日期)
- 答案类文件
- 文件名称:answers.csv、answers.txt、answers.xlsx
- 文件格式:CSV、TXT、XLSX
- 字段映射介绍:包含AID(答案ID)、ParentId(关联问题ID)、AcceptedAnswerId(已接受答案ID)、ABody(答案内容)、Score(答案得分)、url_answer(答案链接)、type(答案类型:best/accepted)、Date(创建日期)
数据来源
Stack Exchange 2021年3月数据 dump(https://archive.org/details/stackexchange_20210301)
适用场景
- 机器学习最佳实践研究: 分析从业者在Stack Exchange上讨论的机器学习最佳实践内容及趋势
- 问答社区内容分析: 研究技术社区中问题与答案的互动模式、得分机制及采纳情况
- 开发者行为研究: 探索机器学习从业者在社区中的提问偏好、问题关注点及答案贡献特征
- 自然语言处理应用: 基于问答文本数据开展文本分类、主题建模等NLP任务训练与验证