数据3000文本恢复挑战提示数据集

数据3000文本恢复挑战提示数据集 数据来源:互联网公开数据 标签:文本恢复,提示生成,创造力,文本处理,专业设置,维基百科,相似度评分 数据概述: 本数据集为文本恢复挑战生成的数据集,目前包含3000个示例,后续将提供更多数据。数据集中的500个提示使用ChatGPT(4)生成,通过使用不同的初始提示来获得在创造力、文本处理或专业设置方面的多样性。为增加输入文本的多样性,使用了维基百科文章的第一段作为原始文本(来源:https://huggingface.co/datasets/abokbot/wikipedia-first-paragraph)。生成提示的模型为gemma-7b-it-quant。数据集还包含了每个提示与基准提示“Improve the text”之间的细化余弦相似度得分。 数据用途概述: 该数据集适用于文本恢复任务的研究、提示生成的评估、创造力及文本处理模式的研究等多个场景。研究人员可以通过此数据集分析和提高文本恢复的准确性;开发人员可以利用数据集优化提示生成算法;教育机构可以使用数据集进行自然语言处理相关课程的教学。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.91 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。