找到251个数据集

标签: 语言特征

过滤结果
  • 赫恩胡特兄弟会通讯文献资料_1765_1941年

    2026年2月1日 30 76 5

    数据集概述 本数据集是赫恩胡特合一档案馆(Unitätsarchiv Herrnhut)提供的“Gemein-Nachrichten”数字文献,包含1765年至1941年间弟兄会的社区报告、传教与散居工作内容、演讲及生平记录。数据集采用XML-TEI转录和标准化文本格式,提供多版本文件,适用于宗教历史研究与文本分析。 文件详解...
    packageimg
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 0 118 93

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • S5_Data_Swahili匿名IDI转录本数据

    2026年1月31日 30 139 138

    数据集概述 本数据集为S5 Data,包含斯瓦希里语中所有IDI(个体深度访谈)转录本的匿名版本,这些转录本基于S4 Data进行分析,并选择性翻译用于结果部分的引用。数据集仅包含一个文件。 文件详解 文件名称:S5 Data. IDIs transcripts.docx 文件格式:DOCX...
    packageimg
  • BES_Based_新闻腐败叙事知识图谱构建分析数据

    2026年1月31日 30 153 131

    数据集概述 本数据集围绕BES案例,对新闻文章中腐败故事的叙事进行分析,用于构建知识图谱。包含2个文件,涵盖DCTAP格式数据和XML编码文件,为研究新闻叙事与知识图谱构建提供基础数据支持。 文件详解 DCTAP.xlsx 文件格式:XLSX 字段映射介绍:包含DCTAP(DC Tabular Application...
    packageimg
  • 硕士论文_美国总统大选副总统辩论会的性别影响研究数据

    2026年1月31日 30 40 1

    数据集概述 本数据集包含硕士论文《Does She Talk Differently?》的原始数据、分析生成的表格图表及七场美国总统和副总统辩论的编码转录文本,共10个文件。核心内容为辩论文本及性别相关编码数据,用于探究政治辩论中的性别差异及其影响。 文件详解 辩论转录文件(共7个) 文件名称:如September 26, 2016_ Clinton...
    packageimg
  • ILR_RAS_新约多谓词原因结构语境数据库_1_1版

    2026年1月31日 30 54 4

    数据集概述 本数据集为新约文本中含多谓词原因结构的语境数据库,包含1630个原因语境(来自1504个经文),通过俄、英、法三种语言新约译本的原因连词自动提取并人工编辑生成,可用于单语言及类型学研究。另含86个语境的试点标注子样本,标注内容包括语义语用类型与信息结构。 文件详解 主数据库文件...
    packageimg
  • OffensiveLang_Based攻击性语言数据集

    2026年1月31日 30 68 47

    数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
    packageimg
  • Kam_kdx_Lesage非洲语言词汇表数据2019

    2026年1月31日 30 86 3

    数据集概述 本数据集包含Kam语言(ISO 639-3: kdx;Glottocode: kamm1249)的词汇表,该语言属于尼日尔-刚果语系,主要分布在尼日利亚中东部,分类较困难。数据可作为RefLex资源的引用来源,当前仅提供词形、释义和词类信息,未来将发布包含音系和语法介绍的完整版词典。 文件详解...
    packageimg
  • NICKLE_Based_韩国英语学习者中介语语料库数据

    2026年1月30日 30 93 10

    数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
    packageimg
  • La_Pola_Siero_西班牙地图_问题4_语料数据

    2026年1月30日 30 111 5

    数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日 30 52 1

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • S6_Data_Swahili焦点小组讨论转录本匿名化数据

    2026年1月29日 30 178 49

    数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
    packageimg
  • APOSCRIPTA_Based_教皇书信统一语料库研究数据

    2026年1月29日 30 140 61

    数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
    packageimg
  • 詹姆斯_乔伊斯_尤利西斯_内部独白研究档案_相关文献补充材料

    2026年1月29日 30 37 29

    数据集概述 本数据集是提交给《Literature》期刊的论文《A Register-Based Study of Interior Monologue in James Joyce's Ulysses》的补充材料,包含1个压缩文件,为该文学研究提供额外支持资料。 文件详解 文件名称:SupMat.zip 文件格式:ZIP...
    packageimg
  • Appendix_F_基于信息论的人称代词跨语言变异研究数据

    2026年1月29日 30 31 15

    数据集概述 本数据集是论文《They saw it, onu, 它, coming: An information theoretic study of cross-linguistic variation in personal pronouns》的附录F,包含人称代词跨语言变异信息论研究的相关分析数据,具体涵盖brm分析结果、代词频率统计、词长与...
    packageimg
  • IN02073_Epidoc_Lumjhya铭文梵语文本数据

    2026年1月29日 30 114 75

    数据集概述 本数据集为IN02073 Lumjhya铭文的梵语XML文件,属于Epidoc格式的草稿版本,计划纳入“Siddham”档案。数据不含元数据,仅包含一份核心文件,用于铭文文本的数字化存储与分析。 文件详解 文件名称:IN02073.xml 文件格式:XML...
    packageimg
  • eWAVE_Based_英语变体电子世界地图集数据集2013

    2026年1月29日 30 205 13

    数据集概述 本数据集为《英语变体电子世界地图集》(eWAVE 2.0)的归档文件,由Kortmann与Lunkenheimer主编,2013年发布于马克斯·普朗克进化人类学研究所。数据包含英语变体相关内容,以压缩包形式提供,支持语言研究领域对全球英语变体的分析与参考。 文件详解 文件名称:ewave-v2013.zip 文件格式:ZIP(压缩归档文件)...
    packageimg
  • IN02039_Based_Banepa石碑梵语XML草案数据

    2026年1月29日 30 196 7

    数据集概述 本数据集为IN02039 Banepa石碑的梵语XML文件,属于Epidoc格式的草案版本,不含元数据,待整合至"Siddham"档案。数据集仅包含一个文件,记录该石碑的梵语文本内容,用于碑刻文献的数字化保存与研究。 文件详解 文件名称:IN02039.xml 文件格式:XML...
    packageimg
  • IN01045_Sanskrit_Damodara梵语铭文数据

    2026年1月29日 30 56 10

    数据集概述 本数据集包含IN01045号Konnur地区Damodara相关的梵语铭文数据,以XML文件形式存储,未包含元数据。数据集仅含一个文件,无目录结构,无训练/测试、数据/标签、原始/处理数据的划分。 文件详解 文件名称:IN01045.xml 文件格式:XML...
    packageimg
  • IN01059_Sanskrit_XML_梵语历史授权文书数据

    2026年1月28日 30 152 8

    数据集概述 本数据集包含IN01059号文献《Mrgesavarman 4年Devagiri授权文书》的梵语XML文件,无元数据。文件总数1个,无目录层级,未划分训练/测试、数据/标签或原始/处理集,主要文件类型为XML,占比百分之百。 文件详解 文件名称:IN01059.xml 文件格式:XML 字段映射介绍:包含《Mrgesavarman...
    packageimg