找到340个数据集

标签: 语料库构建

过滤结果
  • 调查与翻译相关数据集

    2025年11月27日   

    数据集概述 本数据集包含8个与调查和翻译相关的文件,覆盖调查问卷数据、不同版本的翻译文档、译者知情同意书及效度相关文件,为调查内容的翻译与验证工作提供多类型资料支持。 文件详解 该数据集包含一个目录下的两类文件,具体说明如下: - 数据文件 (.xlsx 格式): - survey based translation/Survey...
    packageimg
  • CL_UVigoMED生物医药摘要双语语料库

    2025年11月27日   

    数据集概述 该数据集是一个双语语料库,核心内容为从MEDLINE数据库提取的英文与西班牙文生物医药摘要。数据集包含两个文件,无目录结构,为自然语言处理(NLP)等相关领域的研究提供基础语料支持。 文件详解 文件名称: CL_UvigoMED_corpus_creation.png 文件格式: PNG (.png) 内容说明:...
    packageimg
  • 朝韩中三国韩语新闻语料库中_人_词搭配偏好比较分析研究数据集

    2025年11月26日   

    数据集概述 该数据集构建了包含中国《延边日报》、朝鲜《劳动新闻》、韩国《中央日报》的三百万韩语"语节"新闻语料库,筛选出含"人"(인민)的片段,统计了词素类型及组合类型的出现频率,用于三国韩语新闻中"人"词搭配偏好的比较分析。 文件详解 3 million morpheme type...
    packageimg
  • 话语近距化策略效果语料库与调查数据集

    2025年11月27日   

    数据集概述 该数据集支持“公共卫生危机话语中近距化的认知语用效果”研究,包含新冠疫情中文新闻语料库及两项实验调查数据,用于分析近距化策略的语言模式及对受众感知的影响。 文件详解 文件名称: Chinese news corpus on Covid-19_chracter Segmented.txt 文件格式: TXT (.txt) 内容说明:...
    packageimg
  • 乌兹别克语命名实体识别数据集

    2025年11月27日   

    数据集概述 该数据集为乌兹别克语命名实体识别模型的训练与评估构建了人工标注语料库,包含2000个句子(25865个单词),采用BIOES方案标注实体边界与类型,经乌兹别克语专家审核确保准确性,适用于自然语言处理模型开发。 文件详解 文件名称: courpusNER.xlsx 文件格式: Excel (.xlsx) 内容说明:...
    packageimg
  • 印度尼西亚爪哇古典文学传奇故事盘吉_马拉班贡数据集

    2025年11月27日   

    数据集概述 该数据集收录了印度尼西亚爪哇古典文学中的传奇故事《盘吉·马拉班贡》,讲述拉登·盘吉·马拉班贡与爱人坎德拉基拉纳分离后克服挑战重聚的历程,是满者伯夷时期的重要文化遗产,反映爪哇本土文化特色。 文件详解 文件名称: panji-marabangun.json 文件格式: JSON (.json) 文件内容:...
    packageimg
  • 乌兹别克语数学术语及词性标注数据集

    2025年11月27日   

    数据集概述 该数据集为乌兹别克语数学领域的术语与词汇集合,包含858个独特词汇,每个词汇标注有五个数学领域的权重系数、英文翻译及词性信息,可用于数学语言相关研究。 文件详解 数据集文件(位于Dataset of Mathematical Terminology and words with/目录下): Dataset for...
    packageimg
  • 教育工作者被谣言中伤_个别学生造谣者数据集

    2025年11月26日   

    数据集概述 本数据集聚焦教育场景中个别学生对教师的造谣现象,采用描述性方法收集相关对话数据,包含教师作为谣言受害者及同事的讨论内容,旨在分析谣言的影响及应对态度,为相关教育干预提供参考。 文件详解 文件名称: JURNAL TENTANG DOSEN DIGOSIPKAN OLEH MAHASISWA.docx 文件格式: DOCX (.docx)...
    packageimg
  • 语言学术语数据集

    2025年11月26日   

    数据集概述 该数据集包含语言学术语相关内容,以单个Excel文件形式存储,未提供文件内容预览,整体结构简单,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称: LT.xlsx 文件格式: Excel (.xlsx) 内容说明: 未提供文件内容预览,无法获取具体字段或数据详情 适用场景 语言学基础研究:...
    packageimg
  • 现代俄语中外来词作用研究

    2025年11月26日   

    数据集概述 本数据集包含一篇关于现代俄语中外来词作用的研究文献,分析了外来词从不同语言进入俄语的途径、英语借词的使用领域,以及以雅库特语为例的边境地区语言借词现象,探讨俄语与其他语言的相互影响。 文件详解 文件名称: 2020 On the role of loanwords in modern Russian_ Mikheeva...
    packageimg
  • KanuriSenti_卡努里语情感词汇标注完整数据集

    2025年11月26日   

    数据集概述 本数据集是一个专门针对卡努里语(Kanuri)构建的情感分析数据集。研究团队首先利用PanLex词库和Manga卡努里语词典编译基础词汇表,随后与约贝州立大学、迈杜古里大学及当地社区的母语者合作,验证并扩展词汇条目,收集短文本,最终构建了包含情感标注的综合性语料库。数据集进一步对高频情感词汇进行了效价、唤醒度和优势度的情感评分,形成e-...
    packageimg
  • 绿色旅游语料库数据集

    2025年11月26日   

    数据集概述 该数据集为旅游英语(EFT)课程开发的绿色旅游语料库,包含299个核心词汇、搭配及词汇束列表,通过语料库工具筛选生成,旨在为旅游英语课程提供真实教学素材,助力学习者掌握可持续旅游相关词汇与表达。 文件详解 文件名称: Green Tourism Corpus_ALL_Display.txt 文件格式: TXT(.txt) 文件内容:...
    packageimg
  • 尼泊尔语文本语料库数据集

    2025年11月7日   

    尼泊尔语文本语料库数据集_Nepali_Text_Corpus 数据来源:互联网公开数据 标签:尼泊尔语, 文本语料库, 自然语言处理, 语言学, 文本分析, 语料库构建, 文本挖掘, 语言建模 数据概述: 该数据集包含来自尼泊尔语文本的语料库,记录了尼泊尔语文本的数据。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态语料库。...
    packageimg
  • 梵文关系数据集

    2025年6月1日   

    梵文关系数据集 数据来源:互联网公开数据 标签:梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析 数据概述: 本数据集基于CoNLL-U格式文件构建,将原始的结构化文本数据转换为关系型数据格式,并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件:words.feather 和...
    packageimg
  • 越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong

    2025年5月30日   

    越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong 数据来源:互联网公开数据 标签:越南语, 文本语料库, 文本分析, 自然语言处理, 语料库构建, 文本摘要, 词嵌入, 语言模型 数据概述:...
    packageimg
  • 政府机构缩写及命名实体识别数据集GovernmentAcronymandNamedEntityRecognitionDataset-osciiart

    2025年5月28日   

    政府机构缩写及命名实体识别数据集GovernmentAcronymandNamedEntityRecognitionDataset-osciiart 数据来源:互联网公开数据 标签:命名实体识别, 缩写识别, 文本分析, 自然语言处理, 机器学习, 政府机构, 数据标注, 语料库构建 数据概述:...
    packageimg
  • 孟加拉语文本语料库数据集BengaliTextCorpusDataset-mdshahriarkhan

    2025年5月19日   

    孟加拉语文本语料库数据集BengaliTextCorpusDataset-mdshahriarkhan 数据来源:互联网公开数据 标签:孟加拉语, 文本语料库, 自然语言处理, 文本分析, 语言模型, 文本挖掘, 语料库构建, 文本数据 数据概述: 该数据集包含来自互联网的孟加拉语文本数据,记录了各种来源的孟加拉语文本片段。主要特征如下:...
    packageimg
  • 俄英双语翻译句子对数据集Russian-EnglishSentencePairs-ligtfeather

    2025年5月1日   

    俄英双语翻译句子对数据集Russian-EnglishSentencePairs-ligtfeather 数据来源:互联网公开数据 标签:机器翻译, 俄语, 英语, 文本对齐, 自然语言处理, 语言模型, 双语语料库, 语料库构建 数据概述: 该数据集包含俄语和英语的句子对,旨在用于机器翻译模型的训练和评估。主要特征如下:...
    packageimg
  • 印尼语文本语料库数据集IndonesianTextCorpus-nandaerwinsyah

    2025年4月29日   

    印尼语文本语料库数据集IndonesianTextCorpus-nandaerwinsyah 数据来源:互联网公开数据 标签:印尼语, 文本语料库, 自然语言处理, 文本分析, 语言学, 语料库构建, 文本挖掘, 语言模型 数据概述: 该数据集包含来自印尼语文本语料库的数据,记录了印尼语的句子示例。主要特征如下:...
    packageimg
  • IWSLT2017英语-中文翻译数据集

    2025年4月15日   

    IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging...
    packageimg