找到276个数据集

标签: 文本标注

过滤结果
  • 程序员幽默子版块提交内容研究复现数据包

    2025年12月21日 30 180 86

    数据集概述 本数据集是论文《What Makes Programmers Laugh? Exploring the Submissions of the Subreddit...
    packageimg
  • 情感分析与情绪挖掘实验数据集_情绪挖掘工具包EMTk

    2025年12月21日 30 82 4

    数据集概述 本数据集为情感分析与情绪挖掘领域的实验数据,随情绪挖掘工具包(EMTk)Docker容器分发。包含Stack Overflow的4000余篇标注帖子及Jira的约4000个标注议题,均为人工标注的情绪与极性数据,可直接用于相关算法训练与验证。 文件详解 文件名称:collab-uniba/EMTK_datasets-v1.0.zip...
    packageimg
  • 马丁_路德语域现象研究语料库0_1

    2025年12月21日 30 208 141

    数据集概述 该数据集为马丁·路德语域现象研究语料库(RegiL v0.1),含7个子语料库、72篇文档及179,996个文本标记,基于人工归一化进行词性和词形标注,转换为ANNIS格式,旨在通过文本类型/体裁近似不同语域,支撑路德作品中语域模式的研究。 文件详解 文件名称: Documentation RegiL v01.pdf 文件格式: PDF...
    packageimg
  • 泰米尔语表情包恶意内容分类数据集

    2025年12月20日 30 177 66

    数据集概述 本数据集是针对泰米尔语表情包的恶意内容分类资源,包含标注为“恶意”和“非恶意”的表情包图像,以及对应的拉丁转写文本,旨在支持印度语言表情包恶意内容的计算建模研究。 文件详解 文件名称: Tamil_troll_memes-dataset.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Zenon纸草文献手写文本识别基准数据集

    2025年12月19日 30 126 12

    数据集概述 本数据集包含Zenon档案中纸草文献的基准数据,涵盖手写文本的外交转录内容,采用PageXML格式存储,适用于手写文本识别研究,共含五十九个文件,包含图片与XML两种格式。 文件详解 该数据集包含两种格式的文件,具体说明如下: - 图片文件(.jpg格式,共三十二个): -...
    packageimg
  • 法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

    2025年12月15日 30 91 54

    数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
    packageimg
  • ToxHabits_NER_毒性习惯场景命名实体识别标注数据集

    2025年12月15日 30 34 16

    数据集概述 该数据集是西班牙语临床文本中“毒性习惯”命名实体识别的标注数据,聚焦烟草使用、酒精消费、非法药物使用等实体的检测与分类,含训练集和测试集,为临床及流行病学研究提供标注资源。 文件详解 训练集文件: ToxHabits(ToxNER)_Train_ANNFiles.zip:ZIP格式,包含ToxNER任务的训练集标注文件...
    packageimg
  • IIT_Madras_Mridangam_Tani_avarthanam_Based_塔尼阿瓦坦哈姆打击乐演奏数据集

    2025年12月12日 30 166 16

    数据集概述 本数据集包含由著名Mridangam大师Padmavibhushan Umayalpuram K. Sivaraman演奏的两段Tani-avarthanam的转录内容,音频录制于印度IIT Madras,由专业卡纳提克打击乐手进行标注,提供打击乐节奏模式的音节化表示。 文件详解 文件名称: mridangam_tani-...
    packageimg
  • 火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016

    2025年12月11日 30 9 1

    数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
    packageimg
  • Twitter仇恨言论检测与分析数据集

    2025年12月8日 30 13 9

    数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
    packageimg
  • Heliand_Parsed_Based_古撒克逊语Heliand文本解析完整数据

    2025年12月7日 30 11 2

    数据集概述 该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容,采用Sievers(一八七八年)版本,相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计,遵循Penn历史英语语料库格式,支持CorpusSearch...
    packageimg
  • 博罗罗语语料库0_3版

    2025年12月6日 30 176 64

    数据集概述 本数据集为博罗罗语语料库(CorBo)的0.3版本,包含更多数据、OLAC格式元数据及改进的标注内容,是一个语言研究领域的语料库资源。 文件详解 文件名称: LanguageStructure/Bororo-Corpus-v0.3.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含博罗罗语语料库的全部数据,具体内容需解压后查看。...
    packageimg
  • MEDDOPROF语料库训练集与补充实体数据集

    2025年12月5日 30 142 57

    数据集概述 该数据集为MEDDOPROF共享任务资源,包含西班牙语临床病例中职业与就业状态检测的训练数据及补充实体标注。数据集支持职业提及识别、分类和归一化三个子任务,适用于自然语言处理相关研究与应用。 文件详解 文件名称: meddoprof-training-set.zip 文件格式: ZIP压缩包 (.zip) 文件内容:...
    packageimg
  • 神经影像学文献挖掘论文匹配数据集

    2025年12月4日 30 30 17

    数据集概述 本数据集包含与《Mining the neuroimaging literature》论文匹配的标注数据,通过压缩文件存储,为神经影像学文献挖掘相关研究提供数据支持。 文件详解 该数据集由一个压缩文件组成,具体说明如下: - 文件名称: litmining/labelbuddy-annotations-v0.0.1.zip - 文件格式:...
    packageimg
  • 文章提及语言及其ISO代码列表_延续循环

    2025年12月4日 30 131 59

    数据集概述 本数据集为单一PDF文件,内容是文章《延续循环》中提及的语言及其对应的ISO代码列表,为语言相关研究或应用提供标准化编码参考。 文件详解 文件名称:The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式:PDF...
    packageimg
  • 基于字典的大规模文本标注系统文档_Spark_SolrTextTagger_OpenNLP

    2025年11月27日 30 28 5

    数据集概述 本数据集包含一份演示文稿,介绍一种基于Spark、SolrTextTagger和OpenNLP技术的大规模文本标注系统。该系统支持通过Solr存储字典,利用Lucene的有限状态转换器实现低内存精确匹配,同时结合OpenNLP进行模糊匹配,可处理百万级字典条目,返回匹配位置、实体ID及置信度等结果。 文件详解 文件名称:...
    packageimg
  • 图像文字识别数据集

    2025年11月12日 30 105 32

    图像文字识别数据集_Image_Text_Recognition_Dataset 数据来源:互联网公开数据 标签:OCR, 图像识别, 文字识别, 深度学习, 数据集, 文本标注, 计算机视觉, 机器学习 数据概述: 该数据集包含图像文件及其对应的文本标注,记录了用于训练和评估光学字符识别(OCR)模型的数据。主要特征如下:...
    packageimg
  • 文本信息实体识别与匹配评估数据集

    2025年11月1日 30 115 0

    文本信息实体识别与匹配评估数据集_Text_Information_Entity_Recognition_and_Matching_Evaluation_Dataset 数据来源:互联网公开数据 标签:实体识别, 文本匹配, 自然语言处理, 机器学习, 评估数据集, 命名实体识别, 关系抽取, 文本标注 数据概述:...
    packageimg
  • 学生姓名识别标注预测数据集

    2025年10月23日 30 23 20

    学生姓名识别标注预测数据集_Student_Name_Recognition_and_Prediction_Dataset 数据来源:互联网公开数据 标签:命名实体识别, 文本标注, 自然语言处理, 机器学习, 学生信息, 预测分析, 深度学习, 数据集 数据概述: 该数据集包含用于学生姓名识别与预测的标注数据和模型相关文件。主要特征如下:...
    packageimg
  • 实体识别模型验证数据集

    2025年10月19日 30 132 106

    实体识别模型验证数据集_Entity_Recognition_Model_Validation_Dataset 数据来源:互联网公开数据 标签:实体识别, 自然语言处理, 文本标注, 模型评估, 机器学习, 文本分析, 命名实体识别, 数据集 数据概述: 该数据集包含用于评估实体识别(Entity Recognition,...
    packageimg