找到283个数据集

标签: 文本处理

过滤结果
  • 中古荷兰语词汇重音模式与音节划分数据集

    2025年12月21日 30 132 126

    数据集概述 该数据集包含四万八千二百一十九个中古荷兰语词汇,均取自《中古荷兰语》光盘(1998年版)收录的二百零五篇韵文文本。所有词汇均标注了音节划分结果和词汇重音模式,为中古荷兰语语音特征研究提供基础数据。 文件详解...
    packageimg
  • 德国道路交通法规_StVO_自动驾驶定性分析数据集

    2025年12月20日 30 132 97

    数据集概述 该数据集围绕德国道路交通法规(StVO)展开,通过定性分析探究其对自动驾驶的适用性。包含法规文本处理、分析脚本及结果文件,为研究自动驾驶与现有交通法规的适配性提供数据支持。 文件详解 README.md: Markdown格式文档,说明数据集内容,包含定量分析目录下的文本文件、Python分析脚本及CSV结果文件等信息。...
    packageimg
  • Zenodo_Komnzo_Text_Corpus_Based_202406语言语料库完整数据

    2025年12月20日 30 95 58

    数据集概述 本数据集包含最新版本的Komnzo文本语料库压缩文件,由Christian Döhler为其博士语言记录项目录制,记录了新几内亚南部的Komnzo语言相关材料。 文件详解 文件名称: Komnzo-2024-06.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 测试文件与机器学习应用挑战研究数据集

    2025年12月15日 30 64 0

    数据集概述 本数据集包含两类文件:一个简单的测试文本文件和一篇关于机器学习应用开发挑战的研究论文PDF。文本文件提供基础测试数据,PDF文件则围绕Stack Overflow帖子展开相关研究分析。 文件详解 文本文件: test.txt: TXT格式,内容包含"test1:1 test2:2 test3:3",为基础测试数据 文档文件:...
    packageimg
  • ERtext_Based_实证评估实验数据完整数据集

    2025年12月13日 30 70 18

    数据集概述 该数据集包含ERtext实证评估相关的文档、实验数据及培训材料,涉及模型、实验、文本处理等主题,覆盖定性反馈、评估指标、操作手册等内容,为ERtext系统的实证研究提供多类型数据支持。 文件详解 文档文件(PDF格式,共四个):...
    packageimg
  • 达兰普尔石碑铭文2号翻译数据集

    2025年12月12日 30 59 27

    数据集概述 该数据集包含印度达兰普尔石碑铭文2号的翻译文档,涉及铭文内容的数字化记录与翻译文本,以PDF和DOCX格式存储,为研究古代碑文提供基础资料。 文件详解 文件名称: IN02036 LXII Inscription of Dharampur.pdf:PDF格式,包含达兰普尔石碑铭文2号的数字化文档内容。 文件名称: IN02036 LXII...
    packageimg
  • 乌兹别克语教学中与学生文本处理技术相关文档

    2025年12月12日 30 58 32

    数据集概述 该数据集包含一份关于乌兹别克语教学中与学生文本处理技术相关的文档,聚焦于教学场景下的文本处理技术应用内容。 文件详解 文件名称: Namazova Gulbahor Murapparovna.pdf 文件格式: PDF (.pdf) 文件内容: 未提供具体字段或内容详情,为单份PDF文档 适用场景 乌兹别克语教育技术研究...
    packageimg
  • fauna_bororo_v0_1_Based_语言结构研究完整数据集

    2025年12月12日 30 59 29

    数据集概述 本数据集包含与语言结构相关的压缩文件,核心围绕LanguageStructure/fauna_bororo-v0.1.zip展开,未提供具体内容描述,文件类型单一,为压缩格式,无额外目录结构或数据划分信息。 文件详解 文件名称:LanguageStructure/fauna_bororo-v0.1.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 展览引言面板文本研究数据集2022

    2025年12月9日 30 149 9

    数据集概述 本数据集包含两个展览引言面板的完整文本,用于支持“博物馆展览中的文本处理”相关研究。数据来源于2022年查理大学哲学系信息研究与图书馆学研究所的学士学位论文,后续成为专业论文《展览引言面板:文本定量分析与观众感知》的基础。 文件详解 文件名称: vyzkumne-texty.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • 氦蒸发相关数据集

    2025年12月7日 30 153 100

    数据集概述 本数据集包含与氦蒸发相关的实验、模拟及分析文件,涉及密度统计、测试实验等内容,涵盖数据文件、代码脚本、文档及图像等多种类型,为氦蒸发研究提供多维度数据支持。 文件详解 该数据集由40个文件组成,无目录层级,具体说明如下: - 文档文件(.txt格式,9个): -...
    packageimg
  • RIDE网络校对工具评测补充文件集

    2025年12月6日 30 34 15

    数据集概述 本数据集为RIDE项目对Juxta Web Service、LERA和Variance Viewer三款网络校对工具的评测提供测试数据与结果文件,包含基于TEI格式的虚拟文本和《哈姆雷特》版本文本,以及三款工具生成的校对结果文件。 文件详解 该数据集包含12个文件,具体说明如下: - 测试数据集文件: -...
    packageimg
  • ERtext_Experiment_3_Based_2022实验完整数据资源

    2025年12月6日 30 83 12

    数据集概述 该数据集为2022年开展的ERtext实验3的实验数据,包含实验相关的 consent 表单、插件文件、操作指南、实验后问卷及数据文件等,覆盖统计模型、实验流程、文本处理等维度,为相关实验复现与分析提供支持。 文件详解 实验文档类: Free and Informed Consent Form...
    packageimg
  • 现代德语中外来词构成连字符的主要因素

    2025年12月5日 30 67 4

    数据集概述 本数据集聚焦现代德语中外来词构成连字符的主要影响因素,以PDF文档形式呈现相关研究内容,为分析德语中外来词连字符使用规则提供数据支持。 文件详解 文件名称: Umirova Shoxista Abdugafurovna.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • 藏语古典词性标注词汇表

    2025年12月4日 30 87 49

    数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 电影信息标题与年份数据集

    2025年11月10日 30 165 113

    电影信息标题与年份数据集_Movie_Titles_and_Year_Dataset 数据来源:互联网公开数据 标签:电影, 标题, 年份, 影视作品, 数据分析, 文本处理, 娱乐, 电影数据 数据概述: 该数据集包含电影的标题和年份信息。主要特征如下: 时间跨度:数据未明确时间范围,但从年份信息推断,涵盖了从1991年至2004年的电影作品。...
    packageimg
  • 中文文本分词训练数据集

    2025年10月24日 30 45 31

    中文文本分词训练数据集_Chinese_Text_Tokenization_Training_Dataset 数据来源:互联网公开数据 标签:中文分词, 文本处理, 自然语言处理, 机器学习, 词汇表构建, BPE分词, 语料库, 深度学习 数据概述: 该数据集包含用于中文文本分词任务的训练数据和相关配置信息。主要特征如下:...
    packageimg
  • 哈萨克斯坦公共服务问答数据集

    2025年10月3日 30 123 83

    哈萨克斯坦公共服务问答数据集_Kazakhstan_Public_Service_Question_Answering_Dataset 数据来源:互联网公开数据 标签:问答系统, 公共服务, 文本处理, 信息检索, 机器翻译, 语料库, 知识图谱, 自然语言处理 数据概述:...
    packageimg
  • 文本内容润色与改编指令数据集

    2025年9月27日 30 143 36

    文本内容润色与改编指令数据集_Text_Content_Refinement_and_Adaptation_Instructions 数据来源:互联网公开数据 标签:文本处理, 自然语言处理, 文本生成, 内容改编, 指令数据集, 语义分析, 机器学习, 数据增强 数据概述:...
    packageimg
  • 基因序列物种分类数据集

    2025年9月25日 30 121 104

    基因序列物种分类数据集_Gene_Sequence_Species_Classification 数据来源:互联网公开数据 标签:基因组学, 生物信息学, 序列分析, 物种分类, 机器学习, 文本处理, DNA序列, 数据集 数据概述: 该数据集包含来自不同物种的基因序列数据,主要用于物种分类和基因序列分析。主要特征如下:...
    packageimg
  • 文本信息实体识别评估数据集

    2025年9月22日 30 15 11

    文本信息实体识别评估数据集_Text_Information_Entity_Recognition_Evaluation_Dataset 数据来源:互联网公开数据 标签:实体识别, 文本分析, 自然语言处理, 命名实体识别, 模型评估, 机器学习, 标注数据, 文本处理 数据概述:...
    packageimg