-
Transcrição_访谈转录_半结构化访谈完整数据
2026年1月30日 30 125 124
数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...
-
通用新闻_联合归档_赫恩胡特兄弟会_共同消息_布道文本数据
2026年1月30日 30 110 27
数据集概述 本数据集为Unitätsarchiv Herrnhut提供的弟兄会《共同消息》(Gemein-Nachrichten)数字化内容,包含约翰尼斯于12月26日以“主将从其居所降临”为主题的布道文本。数据以XML-TEI转录本和标准化文本形式呈现,涵盖原始转录、元数据增强及可用于机器分析的版本。 文件详解 文件名称:00887_01.xml...
-
CS_Based_计算机科学项目描述学习维度识别研究数据_2022
2026年1月27日 30 160 111
数据集概述 本数据集基于CS Track数据库的94个英文项目描述,通过定性内容分析识别其中的学习维度。采用Phillips等人2018年模型的修改版作为编码框架,由两名研究者独立编码为8个主类别、21个子类别,提取高频关键词,揭示不同学习维度的体现程度差异。 文件详解 Dataset_Analysis Intended Educational...
-
Kremlin_Based_俄罗斯政府网站爬取总统讲话记录_1999_2019
2026年1月19日 30 130 58
数据集概述 本数据集为1999年12月31日至2019年12月31日期间从俄罗斯政府网站kremlin.ru爬取的文档集合,包含10,723份文档,覆盖总统讲话记录等内容,支持政府信息研究与文档分析。 文件详解 主要数据文件 文件名称:Kremlin.json、Kremlin.rds 文件格式:JSON、RDS...
-
MID_Based_俄罗斯外交部2003_2019年新闻文件集合数据
2026年1月25日 30 44 34
数据集概述 本数据集为从俄罗斯外交部官网mid.ru抓取的2003年1月至2019年12月的新闻文件集合,包含部长讲话、副部长讲话、电话交谈、简报会等七类文件,共一万一千八百五十七份文档,每份文档对应一行数据,记录了文档的标识、日期、标题、类型、全文、来源链接等信息。 文件详解 数据文件 文件名称:MID.rds 文件格式:RDS...
-
哥伦比亚_El_Tiempo_日报单日新闻提取数据_20221111
2026年1月25日 30 9 1
数据集概述 本数据集为哥伦比亚《El Tiempo》日报2022年11月11日的新闻提取数据,包含当天该报纸发布的新闻内容,以结构化格式存储,可用于新闻内容分析、媒体研究等场景,数据集仅含一个文件。 文件详解 文件名称:news_eltiempo_11-11-2022.json 文件格式:JSON...
-
IC_ac_uk_Based_rzepa博客文章完整导出数据2020
2026年1月25日 30 23 15
数据集概述 本数据集为WordPress博客文章的XML归档文件,包含2008年至2020年3月7日期间发布于https://www.ch.ic.ac.uk/rzepa/blog的所有博客文章内容,可用于学术博客内容分析、文本挖掘等研究场景,仅包含一个文件。 文件详解...
-
La_Repubblica_Based_意大利共和报2011年文章摘录数据
2026年1月21日 30 53 46
数据集概述 本数据集包含意大利报纸《La Repubblica》2011年的文章摘录,对搜索关键词(dialett、Italian、lingu*)进行了高亮标注,仅用于科学研究。数据集文件总数为1,无目录结构,主要文件格式为DOCX。 文件详解 文件名称:Zenodo_Data.docx 文件格式:DOCX 字段映射介绍:包含意大利报纸《La...
-
Shared_Research_Repository_BL报纸样本纯文本数据集
2026年1月19日 30 84 30
数据集概述 本数据集包含Shared Research Repository发布的报纸文章纯文本数据,以压缩包形式提供,可用于自然语言处理相关的文本分析任务,总计包含一个文件。 文件详解 压缩文件 文件名称:newspaper_text.zip 文件格式:ZIP...
-
Dataset_Key_Phrases_Article_Titles_创新_理论建构_中国特色数据集
2026年1月4日 30 98 87
数据集概述 本数据集围绕“创新”“理论建构”“中国特色”三个关键词,收录相关的关键词与文章标题信息,以结构化表格形式呈现,可用于学术研究中的文本分析、主题挖掘等场景。 文件详解 文件名称:Dataset of key phrases and article titles - '创新' (Innovation), '理论建构' (Theoretical...
-
乌兹别克语停用词列表数据集
2025年12月23日 30 138 113
数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
-
新皮塔瓦尔刑事案例集1842_1890
2025年12月22日 30 28 21
数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
-
构建日志分析数据集LogChunks
2025年12月11日 30 21 13
数据集概述 该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。 文件详解 该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP...
-
农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集
2025年12月11日 30 101 5
数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
-
催化反应词汇数据集
2025年12月4日 30 105 75
数据集概述 该数据集围绕催化反应领域的专业词汇构建,核心内容为一个压缩格式的词汇文件,未提供进一步的描述信息。 文件详解 文件名称: vocabulary.zip 文件格式: ZIP压缩包 文件内容: 压缩包内包含催化反应领域的词汇数据,具体内容需解压后查看。 适用场景 化学工程研究: 可用于催化反应领域的术语标准化或专业词典构建。 自然语言处理:...
-
科研试剂与实验设备文本信息数据集
2025年11月17日 30 107 98
科研试剂与实验设备文本信息数据集_Research_Reagents_and_Equipment_Text_Information 数据来源:互联网公开数据 标签:科研试剂, 实验设备, 文本分析, 关键词提取, 品牌识别, 行业研究, 文本分类, 数据挖掘 数据概述:...
-
医学文献摘要PubMed分析数据集
2025年10月24日 30 51 11
医学文献摘要PubMed分析数据集_Medical_Literature_Abstract_PubMed_Analysis 数据来源:互联网公开数据 标签:医学, 生物医学, PubMed, 摘要分析, 文本挖掘, 关键词提取, 临床研究, 自然语言处理 数据概述:...
-
新冠疫情文献摘要分析数据集
2025年10月23日 30 83 1
新冠疫情文献摘要分析数据集_COVID_19_Literature_Abstract_Analysis 数据来源:互联网公开数据 标签:新冠疫情, 文本分析, 生物医学, 疫情研究, 文献摘要, 关键词提取, 疾病传播, 机器学习 数据概述:...
-
商品描述文本分析数据集
2025年10月21日 30 50 47
商品描述文本分析数据集_Product_Description_Text_Analysis 数据来源:互联网公开数据 标签:商品描述, 文本分析, 商品分类, 文本挖掘, 自然语言处理, 市场营销, 电商数据, 关键词提取 数据概述:...
-
科研论文摘要关键词提取数据集
2025年10月3日 30 51 32
科研论文摘要关键词提取数据集_Scientific_Paper_Abstract_Keyword_Extraction 数据来源:互联网公开数据 标签:科研论文, 摘要, 关键词提取, 自然语言处理, 文本分析, 机器学习, 文本挖掘, 数据标注 数据概述: 该数据集包含来自科研论文摘要的数据,记录了论文的摘要内容及对应的关键词。主要特征如下:...



