StackExchange园艺与景观问答社区主题数据集-2023年12月
数据来源:互联网公开数据
标签:园艺,景观,问答,Stack Exchange,社区,问题,答案,标签,文本嵌入,自然语言处理
数据概述:
本数据集收录了截至2023年12月31日,来自Stack Exchange园艺与景观问答社区的各类信息,旨在为研究园艺与景观相关主题提供数据支持。数据集包含五个主要文件:
-
QueryResults.csv:该文件包含社区内的问题及其被接受的答案列表,提供了问题内容、回答内容以及其他相关元数据。
-
question_embeddings.pickle:该文件以二进制格式存储了所有问题的文本嵌入,这些嵌入是使用Vertex AI上的textembedding@gecko003模型生成的。文本嵌入是对问题标题和正文的组合文本进行处理的结果。
-
question_text_only_embeddings.pickle:该文件同样以二进制格式存储了所有问题的文本嵌入,但与上一个文件不同的是,该文件在生成文本嵌入之前,移除了问题标题和正文中的HTML标签和换行符。
-
TagCounts.csv:该文件提供了用于标记问题的标签列表,每个问题可以被标记多个标签,反映了社区成员对问题的分类和主题归属。
-
tag_embeddings.pickle:该文件以二进制格式存储了所有标签的文本嵌入,同样使用textembedding@gecko003模型生成。
数据用途概述:
该数据集可用于多种研究和应用场景,包括:
* 问题分析:研究社区内问题的类型、主题分布和提问趋势。
* 答案分析:分析不同类型问题的解答质量,以及受欢迎的答案特征。
* 标签分析:研究标签的使用频率、标签之间的关系,以及标签对问题分类的影响。
* 文本挖掘与自然语言处理:利用文本嵌入进行问题相似度计算、主题聚类、信息检索等任务。
* 构建推荐系统:基于问题和标签的相似度,为用户推荐相关问题或答案。
* 社区行为分析:研究用户参与度、提问和回答行为。
* 教育与知识共享:为园艺与景观相关领域的学习者提供知识库和案例分析。