单张票务列表图像及标注数据集1963-2021

单张票务列表图像及标注数据集1963-2021 数据来源:互联网公开数据 标签:票务,图像识别,时间序列,价格预测,标注数据,在线平台,基准测试 数据概述: 本数据集包含520张从在线票务平台抓取的单张票务列表图像,以及一个通过OpenAI GPT-4o-mini模型生成的CSV格式标注文件'annotations_gpt_4o_mini_df.csv'。数据集旨在用于评估从在线价格平台抓取图像并生成时间序列价格数据的可行性。 数据用途概述: 该数据集适用于时间序列价格预测、模型评估和优化、在线票务平台数据抓取等多种场景。研究人员可利用此数据集评估不同模型在抓取和预测价格方面的性能;企业可使用此数据集进行价格监控和分析,优化购票策略;同时,数据集也适用于教学和培训,帮助学习者理解图像识别和时间序列分析技术。 举例: 数据集中包含的图像和标注文件可以用于测试和优化图像识别模型的性能。例如,通过使用Phi-3.5 Vision Instruct VLLM模型在A100 40GB GPU上的实验,研究人员可以评估模型的零样本准确率和处理速度。实验结果显示,该模型在未经优化的情况下,每秒可处理约17个token,每小时可处理约61,200个token,相当于每小时可处理约556张图像。根据当前GPU的租赁价格,处理1000个价格数据点的成本约为$1.79。通过优化部署模型,成本可以进一步降低至每1000个票务列表图像$0.04,每20万个价格数据点$7.84。此外,使用经过微调的量化模型或参数更少的模型,以及结合OCR和文本LLM的方法,可以进一步降低成本。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.95 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。