找到91个数据集

标签: 文本检测

过滤结果
  • 情感分析与情绪挖掘实验数据集_情绪挖掘工具包EMTk

    2025年12月21日 30 62 56

    数据集概述 本数据集为情感分析与情绪挖掘领域的实验数据,随情绪挖掘工具包(EMTk)Docker容器分发。包含Stack Overflow的4000余篇标注帖子及Jira的约4000个标注议题,均为人工标注的情绪与极性数据,可直接用于相关算法训练与验证。 文件详解 文件名称:collab-uniba/EMTK_datasets-v1.0.zip...
    packageimg
  • 罗马格拉韦萨诺祭坛摄影测量设置数据集

    2025年12月20日 30 168 100

    数据集概述 本数据集为一份PDF文档,详细记录了针对瑞士提契诺州罗马格拉韦萨诺祭坛的摄影测量与3D建模技术应用方案,重点说明石质文物表面记录的布光、相机设置及拍摄方法,旨在通过斜射光投影阴影提升铭文识读效果。 文件详解 文件名称: GravesanoSetup.pdf 文件格式: PDF (.pdf) 文件内容: 共4页,具体内容包括:...
    packageimg
  • 数学主观题手写识别测试集2024

    2025年12月18日 30 182 103

    数据集概述 本数据集为数学主观题手写识别测试集,包含五张JPG格式图片,无目录结构,未划分训练测试集、数据标签集及原始处理集,主要用于手写识别相关的模型测试或数据验证。 文件详解...
    packageimg
  • 选定城市报告与辩论研究方法及原始数据集

    2025年12月15日 30 96 84

    数据集概述 该数据集围绕选定城市的报告与辩论展开,包含城市特征描述、报告状态分析、辩论分析、数据测量校准说明、报告可及性数据及原始数据源,为研究城市治理相关议题提供多维度数据支持。 文件详解 该数据集包含17个文件,具体说明如下: - 数据文件(.xlsx格式,共15个): - Readibility of the reports_FOG...
    packageimg
  • 漫画非约束文本检测数据集

    2025年12月13日 30 50 0

    数据集概述 该数据集为漫画非约束文本检测研究提供支持,包含四百五十张图像的文本分割数据,图像源自Manga109数据集(需单独申请访问)。数据分为预处理和后处理两个版本,文本标注采用黑色(易识别文本)和粉色(难检测文本)两种颜色区分。 文件详解 文件名称:post-processed.zip 文件格式:ZIP压缩包...
    packageimg
  • OpenLLMText_多源文本数据基于大语言模型文本分析完整数据

    2025年12月12日 30 199 110

    数据集概述 该数据集包含约三十万条文本条目,来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容,其余模型文本为对人类文本的逐段改写或直接适配,覆盖不同生成式模型的文本特征。 文件详解...
    packageimg
  • 新闻媒体Facebook页面数字新闻批评粗俗化数据集

    2025年12月12日 30 39 22

    数据集概述 本数据集是支撑《从批评到愤怒与仇恨:新闻媒体Facebook页面数字新闻批评的粗俗化》研究的评论数据集合,包含相关研究的文档内容,为分析数字新闻批评的粗俗化趋势提供数据基础。 文件详解 文件名称: Dataset for From criticism to anger and hate.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • FATURA_Dataset_Based_发票图像分类与标注完整数据

    2025年12月8日 30 115 105

    数据集概述 该数据集包含20000张JPG格式发票图像(10000张白色背景、10000张彩色背景)及30000个JSON标注文件,基于50种模板生成,涵盖24个目标类别,标注含边界框坐标、文本及类别信息,数据存在类别不平衡现象。 文件详解 文件名称: FATURA2.zip 文件格式: ZIP压缩包 压缩包内容说明:...
    packageimg
  • CLiPS文体学调查语料库2016

    2025年12月6日 30 42 18

    数据集概述 该数据集是2016年2月汇编的CLiPS文体学调查语料库,包含学生撰写的作文和评论两类文本,附带作者(性别、年龄等)及文档(时间戳、体裁等)元数据,主要用于文体学研究,支持自然语言处理相关分析。 文件详解 文件名称: csicorpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 数据1941_1942年巴托尔兹乡年度财务报告数据集

    2025年12月5日 30 193 120

    数据集概述 本数据集为1941至1942年波兰巴托尔兹乡的年度财务报告影像资料,包含25张JPG格式的原始文档扫描件,记录了该时期乡级行政单位的财务收支情况,是研究二战期间波兰总督辖区乡村行政与经济状况的一手资料。 文件详解 影像文件组(共25个): 文件名称:以DSC开头的序列号命名(如DSC04662.JPG、DSC04668.JPG等)...
    packageimg
  • The_Substance_2024_男性凝视分析数据集

    2025年11月29日 30 191 187

    数据集概述 该数据集包含一份针对电影《The Substance(2024)》的场景分析文档,基于劳拉·穆尔维的“男性凝视”理论,探讨女性身体表征、父权审美标准对中年女演员角色的影响,通过定性内容分析和场景细读,揭示电影对霸权规范的复制与批判。 文件详解 文件名称:The Substance (2024)-Male Gaze/Scene-Based...
    packageimg
  • 美国漫画形式与意识形态编码数据集1939_2024

    2025年11月29日 30 210 171

    数据集概述 本数据集包含1939-2024年美国漫画故事的编码数据,共2721个案例。核心记录漫画形式元素(如面板数量、布局类型)与意识形态相关属性,为研究漫画艺术形式演变及文化表达提供结构化数据支持。 文件详解 数据文件: comic form and ideology.csv:...
    packageimg
  • 欧洲大学跨语言文本复用检测结果数据集

    2025年11月29日 30 81 76

    数据集概述 该数据集包含欧洲大学跨语言文本复用检测实验结果,基于学术论文《Cross-language plagiarism detection: a case study of European languages academic works》构建,含OATD许可文档、开源来源及检测报告,文档与来源名称以URL的MD5哈希表示。 文件详解...
    packageimg
  • PharmAI片剂名称综合图像数据集

    2025年11月29日 30 207 8

    数据集概述 该数据集是一个包含片剂名称图像的综合集合,适用于OCR、图像分类和药物识别等应用。数据集按字母顺序分为26个文件夹,每个文件夹包含100张原始图像,并提供超过一万张增强图像,以丰富机器学习模型的训练数据。 文件详解 主目录: PharmAIA Comprehensive Image Dataset of Tablet...
    packageimg
  • 巴勒斯坦STEM教师专业发展访谈数据集

    2025年11月29日 30 166 97

    数据集概述 该数据集包含针对巴勒斯坦STEM教师专业发展经历的访谈数据,记录了教师参与相关培训活动的实际体验,为了解该地区STEM教育支持体系的实施情况提供一手资料。 文件详解 文件名称:احمد.m4a,文件格式:M4A音频文件,包含对教师的访谈音频内容...
    packageimg
  • 孟加拉语机器打印文档数据集

    2025年11月28日 30 171 126

    数据集概述 该数据集是一个机器打印孟加拉语文档的资源库,用于区分手写与机器打印文档,优化光学字符识别(OCR)应用的处理方法。数据集包含压缩文件,为研究机器打印文档的OCR技术提供基础数据支持。 文件详解 文件名称: BengaliPrintDB database.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
    packageimg
  • 下水道CCTV检测视频缺陷提取的文本识别数据集

    2025年11月28日 30 92 30

    数据集概述 本数据集用于训练Tesseract OCR模型,以实现从下水道CCTV检测视频中提取缺陷相关文本信息。数据集包含训练所需的资源及已训练的OCR模型,为下水道检测的自动化文本分析提供支持。 文件详解 文件名称: Dataset.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含用于训练Tesseract...
    packageimg
  • 墨西哥政治宣传分析Twitter数据收集脚本2018

    2025年11月28日 30 139 65

    数据集概述 本数据集包含用于2018年墨西哥总统选举期间Twitter数据收集的Python脚本,目标是追踪主要总统候选人相关的推文内容,为后续政治宣传和错误信息检测分析提供数据支持。 文件详解 压缩文件: MexPol.zip:...
    packageimg
  • 印尼Tokopedia电商平台摩托车机油产品评论数据集

    2025年11月28日 30 37 19

    数据集概述 本数据集包含通过Python网络爬虫从印尼Tokopedia平台摩托车机油产品获取的客户评论,保留原始语言特征(含拼写错误、缩写及非正式表达)。数据集用于验证评论语言特征与真实性的关联假设,分析显示多数评论为真实反馈,包含产品质量相关具体投诉。 文件详解 文件名称: Dataset Mendeley.xlsx 文件格式: Excel...
    packageimg
  • 母亲对青春期前女儿月经态度的定性研究数据集

    2025年11月28日 30 143 22

    数据集概述 本数据集为定性研究资料,聚焦母亲对青春期前女儿月经的态度。通过六组焦点小组讨论收集原始文本,使用Atlas ti软件进行主题分析,核心内容包括月经感知主主题及相关子主题,反映母亲在女儿青春期前面临的挑战及心理情感状态。 文件详解 文件名称: Data.docx 文件格式: DOCX (.docx) 文件内容:...
    packageimg