综合园艺维基数据集

综合园艺维基数据集 数据来源:互联网公开数据 标签:园艺,维基,植物学,合成数据,语义分离,自然语言处理,测试数据,机器学习

数据概述: 本数据集是一个实验性的合成数据集,基于小型维基百科中关于园艺和植物学的条目集合。数据内容由Claude Opus和Haiku进行语义分离,并使用“”和“”等分隔符,这些分隔符已被证明能提高大型语言模型的准确性。数据集目前相对较小,主要用于合成数据生成的测试,未来计划逐步扩大。数据集包含954个条目,总计约170,000字,其中包括来自Plantspedia的某些条目。所有条目均已清理,去除了类似“Here's the amended text…”的引言、特殊字符、转义字符和空网站链接。

数据用途概述: 该数据集适用于测试检索增强生成(RAG)系统或大型语言模型(LLM)的训练。研究人员和开发者可以使用此数据集来评估和改进RAG系统的性能,或者作为LLM的训练数据,以提高模型在园艺和植物学领域文本处理方面的准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.41 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。