StackExchange园艺与景观问答社区主题数据集-2023年12月

StackExchange园艺与景观问答社区主题数据集-2023年12月 数据来源:互联网公开数据 标签:园艺,景观,问答,Stack Exchange,社区,问题,答案,标签,文本嵌入,自然语言处理 数据概述: 本数据集收录了截至2023年12月31日,来自Stack Exchange园艺与景观问答社区的各类信息,旨在为研究园艺与景观相关主题提供数据支持。数据集包含五个主要文件:

  1. QueryResults.csv:该文件包含社区内的问题及其被接受的答案列表,提供了问题内容、回答内容以及其他相关元数据。

  2. question_embeddings.pickle:该文件以二进制格式存储了所有问题的文本嵌入,这些嵌入是使用Vertex AI上的textembedding@gecko003模型生成的。文本嵌入是对问题标题和正文的组合文本进行处理的结果。

  3. question_text_only_embeddings.pickle:该文件同样以二进制格式存储了所有问题的文本嵌入,但与上一个文件不同的是,该文件在生成文本嵌入之前,移除了问题标题和正文中的HTML标签和换行符。

  4. TagCounts.csv:该文件提供了用于标记问题的标签列表,每个问题可以被标记多个标签,反映了社区成员对问题的分类和主题归属。

  5. tag_embeddings.pickle:该文件以二进制格式存储了所有标签的文本嵌入,同样使用textembedding@gecko003模型生成。

数据用途概述: 该数据集可用于多种研究和应用场景,包括: * 问题分析:研究社区内问题的类型、主题分布和提问趋势。 * 答案分析:分析不同类型问题的解答质量,以及受欢迎的答案特征。 * 标签分析:研究标签的使用频率、标签之间的关系,以及标签对问题分类的影响。 * 文本挖掘与自然语言处理:利用文本嵌入进行问题相似度计算、主题聚类、信息检索等任务。 * 构建推荐系统:基于问题和标签的相似度,为用户推荐相关问题或答案。 * 社区行为分析:研究用户参与度、提问和回答行为。 * 教育与知识共享:为园艺与景观相关领域的学习者提供知识库和案例分析。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 55.62 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。