找到40个数据集

标签: 词频分析

过滤结果
  • Vietic_Based_116项系统发育词汇数据

    2026年1月31日 30 121 63

    数据集概述 本数据集为Vietic语言分类的116项词汇统计数据,包含30种Vietic语言变体、原始Vietic语,以及作为外群的Khmu语和Jahai语。数据基于Swadesh 100和200词表调整生成,通过NEXUS文件记录同源词赋值,可用于生成系统发育树和邻接网络。 文件详解...
    packageimg
  • NVivo_Based_文本词频分析与工具对比数据集

    2026年1月31日 30 35 17

    数据集概述 本数据集包含使用NVivo工具生成的文本词频搜索结果文件,以及一份对比AntConc与NVivo词频结果的电子表格,共5个文件。数据聚焦于文本词频分析,支持工具间的词频结果对比,适用于文本处理相关研究。 文件详解 文档文件(.docx格式,共3个) 文件名称:Word Freq-Stem All-min3 Alphabetical...
    packageimg
  • TripAdvisor_Based_TripAdvisor基础数据

    2026年1月27日 30 145 25

    数据集概述 本数据集为TripAdvisor基础数据,包含六个文件,涉及关键词频率、词聚类、出现"day"的短语及结果文档等内容,主要用于文本相关的分析研究,涵盖Excel、Word、CSV三种格式,以Excel文件为主。 文件详解 body_tablafrecuencias_palabras_clave.xlsx 文件格式:XLSX...
    packageimg
  • Staycation_Indonesia_Language_数据抓取结果

    2026年1月21日 30 150 81

    数据集概述 本数据集为针对印尼语"Staycation"主题的数据抓取结果,包含1个Excel文件,未划分训练/测试集、数据/标签集或原始/处理数据集,文件类型单一为.xlsx格式。 文件详解 文件名称:data staycation.xlsx 文件格式:XLSX...
    packageimg
  • 曼布里诺数字图书馆_意大利骑士文学系列第13卷第5册_希腊的斯法拉蒙迪_第五部分数字学术版数据资料

    2026年1月7日 30 38 7

    数据集概述 本数据集是意大利骑士文学作品《13/5 Sferamundi di Grecia. Quinta parte》的数字学术版本,包含转录及评注的XML-TEI文件、多格式电子书和用于计算分析的纯文本文件,属于Mambrino数字图书馆项目,由维罗纳大学开发,支持古典文学的数字化研究。 文件详解 转录及评注文件...
    packageimg
  • 国家考试论文语料库_社交媒体中性别包容性语言使用的话语建构

    2025年12月21日 30 127 44

    数据集概述 该数据集为国家考试论文的语料库,核心内容是社交媒体中性别包容性语言使用的话语建构研究。基于Telegram三个频道的完整聊天记录,通过SketchEngine工具分析,聚焦识别不同语言行动者对性别包容性语言的反对模式。 文件详解 文档文件(PDF格式,共6个): Wortfrequenzanalyse 1...
    packageimg
  • 印欧语系内部语言快速辐射补充材料数据集

    2025年12月13日 30 157 56

    数据集概述 本数据集是论文《印欧语系内部语言的快速辐射:印欧语词汇统计的先进方法》的补充材料,包含词汇表、语言学注释文档及系统发育树相关技术文件,支持实验可重复性。 文件详解 数据集包含3个文件,具体说明如下: - Kassian-et-al_2021_IE_phylogeny_Supplement-...
    packageimg
  • Zipf变换与词频分析教学数据集_是_首相

    2025年12月9日 30 162 104

    数据集概述 本数据集是《应用科学计量学与信息科学II:知识表示》课程中Zipf变换与词频分析任务的配套教学材料,基于《Yes Prime Minister》(捷克译名《Jistě, pane premiére》)文本构建,包含数据文件与可视化图表。 文件详解 数据文件:...
    packageimg
  • 图书馆学领域人工智能研究分析数据集

    2025年12月9日 30 178 85

    数据集概述 本数据集围绕图书馆学领域人工智能(AI)相关研究展开,包含关键词分析、突发检测等研究数据,涉及学术、服务、ChatGPT等主题的时间分布及权重信息,为分析AI在图书馆学中的应用趋势提供支持。 文件详解 数据文件:...
    packageimg
  • 丹麦国家数据管家教育协调项目数据集2019_2020

    2025年12月6日 30 36 18

    数据集概述 本数据集为丹麦国家数据管家教育协调项目(2019-2020)的成果文件,包含项目主报告、教育框架重构报告,以及主题分析、职位空缺、问卷、访谈等多维度的研究数据与文档,覆盖数据管家教育现状、招聘需求及从业者调研等内容。 文件详解 主题分析文件:...
    packageimg
  • digital_词元在PD与TE项目中的分布数据集2016_2019_2021

    2025年12月4日 30 47 37

    数据集概述 该数据集记录了词元"digital"在PD与TE项目中2016、2019、2021年的分布情况,包含11个文件,以PDF格式为主,辅以Excel数据文件,为分析该词元在不同项目及年份的出现规律提供数据支持。 文件详解 PDF文档文件(共10个): 包含PCE 2021.pdf、PCE 2016.pdf、PD 2019.pdf、TE...
    packageimg
  • ErdoWatch_埃尔多安演讲词频分析数据集2014_2020

    2025年11月29日 30 38 31

    数据集概述 该数据集包含2014至2020年埃尔多安演讲的词频分析数据,涵盖演讲原文文档、词频统计文件及相关辅助文件。数据集结构分为多个目录,以年份月份组织演讲内容与对应词频分析结果,为研究演讲语言特征和用词趋势提供数据支持。 文件详解 该数据集由多个目录和文件组成,具体说明如下: - 根目录文件: - RTE 2014-2020 Tüm...
    packageimg
  • 朝韩中三国韩语新闻语料库中_人_词搭配偏好比较分析研究数据集

    2025年11月26日 30 35 11

    数据集概述 该数据集构建了包含中国《延边日报》、朝鲜《劳动新闻》、韩国《中央日报》的三百万韩语"语节"新闻语料库,筛选出含"人"(인민)的片段,统计了词素类型及组合类型的出现频率,用于三国韩语新闻中"人"词搭配偏好的比较分析。 文件详解 3 million morpheme type...
    packageimg
  • 新冠疫情社交媒体高频词汇分析数据集

    2025年8月30日 30 120 117

    新冠疫情社交媒体高频词汇分析数据集_COVID_19_Social_Media_High_Frequency_Words_Dataset 数据来源:互联网公开数据 标签:新冠疫情, 社交媒体, 词频分析, 文本挖掘, 自然语言处理, 时间序列分析, 流行病学, 舆情分析 数据概述:...
    packageimg
  • 主题权重与FREX值数据集Bases30TopicsWeightsandFREXValuesDataset-leonardocaravaggio

    2025年5月30日 30 90 76

    主题权重与FREX值数据集Bases30TopicsWeightsandFREXValuesDataset-leonardocaravaggio 数据来源:互联网公开数据 标签:文本分析,主题建模,数据集,词频分析,自然语言处理,机器学习,文本挖掘,数据科学 数据概述:...
    packageimg
  • 垃圾邮件过滤邮件特征数据集SpamFilteringEmailFeatureDataset-mguinezi

    2025年5月22日 30 26 12

    垃圾邮件过滤邮件特征数据集SpamFilteringEmailFeatureDataset-mguinezi 数据来源:互联网公开数据 标签:垃圾邮件, 邮件分类, 文本分析, 特征工程, 机器学习, 词频分析, 数据挖掘, 邮件内容 数据概述: 该数据集包含从电子邮件中提取的特征,用于垃圾邮件过滤模型的构建与评估。主要特征如下:...
    packageimg
  • 垃圾邮件过滤邮件特征数据集SpamFilteringEmailFeatureDataset-mguinezi

    2025年5月16日 30 195 149

    垃圾邮件过滤邮件特征数据集SpamFilteringEmailFeatureDataset-mguinezi 数据来源:互联网公开数据 标签:垃圾邮件, 邮件分类, 文本分析, 特征工程, 机器学习, 词频分析, 数据挖掘, 邮件内容 数据概述: 该数据集包含从电子邮件中提取的特征,用于垃圾邮件过滤模型的构建与评估。主要特征如下:...
    packageimg
  • 电子邮件语料词频分析数据集EmailCorpusWordFrequencyAnalysis-muskansengar

    2025年5月10日 30 144 16

    电子邮件语料词频分析数据集EmailCorpusWordFrequencyAnalysis-muskansengar 数据来源:互联网公开数据 标签:电子邮件, 语料库, 词频分析, 自然语言处理, 文本挖掘, Enron数据集, 词汇统计, 数据分析 数据概述:...
    packageimg
  • 中文词频统计分析数据集ChineseWordFrequencyStatistics-danphan2012

    2025年5月5日 30 145 72

    中文词频统计分析数据集ChineseWordFrequencyStatistics-danphan2012 数据来源:互联网公开数据 标签:中文, 词频分析, 自然语言处理, 文本挖掘, 语料库, 统计分析, 语言学, 数据集 数据概述: 该数据集包含来自公开语料库的中文文本数据,记录了词语及其对应的出现频率。主要特征如下:...
    packageimg
  • 日语词汇频率统计数据集JapaneseWordFrequencyStatistics-takashitahara

    2025年5月1日 30 36 0

    日语词汇频率统计数据集JapaneseWordFrequencyStatistics-takashitahara 数据来源:互联网公开数据 标签:日语, 词频分析, 语言学, 词汇, 自然语言处理, 文本分析, 语料库, 统计 数据概述: 该数据集包含来自公开语料库的日语词汇频率统计数据,记录了日语词汇的出现频率及其排名信息。主要特征如下:...
    packageimg