-
NLP_评分算法评估中期结果_20230513
2026年2月9日 30 76 62
数据集概述 本数据集为“基于简单评分的自然语言处理(NLP)算法评估”实验的中间结果,包含2个文件,涵盖预处理后的文本数据及对应的元数据,用于记录算法实验过程中的核心信息与处理后的数据内容。 文件详解 元数据文件: 文件名称:20230513_merged_preprocessed.metadata.xml 文件格式:XML...
-
CISA_Cyber_网络安全TTP文章数据集
2026年2月1日 30 12 11
数据集概述 本数据集包含从CISA官网爬取的77篇网络安全文章,发布时间为2020年7月至2024年2月,均明确提及MITRE ATT&CK TTPs。数据支持网络威胁情报领域研究,可作为TTP标注的基准数据,助力网络安全公告中TTP的识别与分类分析。 文件详解 数据集文件 文件名称:CISA-crawl-rt-ttp-ct.csv...
-
DBNL_Based荷兰数字化图书OCR与校正文本数据集
2026年1月30日 30 101 84
数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
-
S6_Data_Swahili焦点小组讨论转录本匿名化数据
2026年1月29日 30 196 68
数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
-
IN01064_哈里瓦曼王8年马哈马莱帕利敕令梵语XML数据
2026年1月29日 30 147 106
数据集概述 本数据集为IN01064编号的哈里瓦曼王8年马哈马莱帕利敕令的梵语XML文件,无元数据。包含1个XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一为XML。 文件详解 文件名称:IN01064.xml 文件格式:XML...
-
IN01044_钱德拉瓦利_摩诃沙罗文王铭文_梵语XML铭文数据
2026年1月28日 30 39 9
数据集概述 本数据集包含IN01044 Chandravalli Inscription of Mayuravarman的梵语XML文件,无元数据信息。数据记录了Mayuravarman相关的Chandravalli铭文内容,是研究古代梵语铭文的基础资料,仅包含一个文件。 文件详解 文件名称:IN01044.xml 文件格式:XML...
-
CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020
2026年1月18日 30 101 56
数据集概述 本数据集包含巴西联邦审计法院(CGU)网站发布的审计报告原始文本,2020年通过脚本scrape_pdfs.py抓取,用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效,但报告仍可手动获取,含2个文件。 文件详解 scrape_pdfs.py 文件格式:.py...
-
WSSSPE5_1_Based_速览博客主题框架分析原始数据与编码结果
2026年1月23日 30 112 35
数据集概述 本数据集包含WSSSPE 5.1会议速览博客的原始文本及主题框架分析编码结果,用于学术研究中的博客内容分析。数据集共2个文件,分别存储原始博客文本与编码分析结果,支持对会议速览博客的主题挖掘与框架研究。 文件详解 WSSSPE5.1_blogs.docx 文件格式:DOCX 字段映射介绍:包含WSSSPE...
-
IN02042_Sanskrit_Epidoc梵语铭文XML数据_Draft
2026年1月20日 30 105 27
数据集概述 本数据集包含IN02042号Harigaon铭文(Amsuvarma 2)的梵语XML文件,为Epidoc格式的草稿版本,无元数据,拟纳入Siddham档案。数据集仅含一个文件,用于铭文文献的数字化整理与存档。 文件详解 文件名称:IN02042.xml 文件格式:XML...
-
IN02069_Draft_Epidoc_Tebahal石刻铭文梵语XML数据
2026年1月19日 30 133 86
数据集概述 本数据集包含IN02069 Tebahal石刻铭文的梵语XML文件,为Epidoc格式的草稿版本,无元数据,将纳入"Siddham"档案。数据集仅含1个文件,用于石刻铭文的数字化保存与研究。 文件详解 文件名称:IN02069.xml 文件格式:XML...
-
IN02023_EpiDoc_Balambu卢库_马哈迪奥石碑梵语XML草稿数据
2026年1月19日 30 207 188
数据集概述 本数据集为IN02023 Balambu卢库·马哈迪奥石碑的梵语XML文件,采用EpiDoc格式草稿版,无元数据,计划纳入“Siddham”档案。包含1个XML文件,记录该石碑的梵语文本内容,用于碑铭文献的数字化整理与研究。 文件详解 文件名称:IN02023.xml 文件格式:XML...
-
IN01048_Based_Mrgesavarman_Banavasi碑铭梵语XML文本数据
2026年1月17日 30 13 4
数据集概述 本数据集包含IN01048号Banavasi碑铭(Mrgesavarman时期)的梵语文本XML文件,无附加元数据。数据为单一文件,直接记录碑铭的梵语内容,是研究古代印度碑铭文献、梵语语言及历史文化的基础数字化资源。 文件详解 文件名称:IN01048.xml 文件格式:XML...
-
IN01033_Sanskrit_XML_Devarahalli授权文书梵语文本
2026年1月15日 30 128 101
数据集概述 本数据集包含IN01033编号的Devarahalli授权文书(Mandhatrraja统治第5年)的梵语XML文件,无附加元数据。文件记录了该历史授权文书的原始梵语文本内容,为研究古代梵语铭文和历史授权制度提供数字化文本资源。 文件详解 文件名称:IN01033.xml 文件格式:XML...
-
IN01060_Source_Ravivarman_Sirsi_Grant梵语XML数据
2026年1月13日 30 34 24
数据集概述 本数据集为IN01060号拉维瓦尔曼的锡尔西敕令(Sirsi Grant of Ravivarman)的梵语XML文件,不含元数据。数据集仅包含一个文件,无目录层级划分,文件类型单一为XML格式。 文件详解 文件名称:IN01060.xml 文件格式:XML...
-
IN01021_Source_桑戈利Harivarman_8年特许状梵语XML数据_原始文本
2026年1月12日 30 94 65
数据集概述 本数据集包含IN01021号桑戈利地区Harivarman统治8年的特许状梵语文本,以XML格式存储,无附加元数据。数据集仅含1个文件,无目录层级,未划分训练/测试、数据/标签或原始/处理版本,是研究古代印度特许状文献的基础文本资源。 文件详解 文件名称:IN01021.xml 文件格式:XML...
-
IN01018_Sanskrit_Based_Jayaraja_Mallar授权文书梵语文本数据
2026年1月9日 30 129 104
数据集概述 本数据集包含编号为IN01018的Jayaraja Mallar授权文书(5年)的梵语XML文件,无附加元数据。文件总数为1,仅包含原始梵语文本内容,未进行训练测试、数据标签或原始处理等拆分,是研究古梵语授权文书的基础资料。 文件详解 文件名称:IN01018.xml 文件格式:XML 字段映射介绍:包含Jayaraja...
-
Morte_Darthur_Based_托马斯_马洛里_亚瑟王之死_卡克斯顿版原始与标准化文本数据
2026年1月7日 30 138 114
数据集概述 本数据集包含托马斯·马洛里《亚瑟王之死》卡克斯顿版的原始文本与标准化处理文本,是研究论文“A Computational Approach to Source Adaptation in Thomas Malory’s Morte Darthur”所用语料库。数据源于密歇根大学人文文本计划,支持文学计算分析与版本对比研究,仅含一个文件。...
-
IN01022_Sanskrit_Based_Harivarman王5年Halsi授予文书梵语XML数据
2026年1月1日 30 74 71
数据集概述 本数据集为IN01022号文献,即Harivarman王5年的Halsi授予文书的梵语XML文件,不含元数据。数据集仅包含一个文件,用于呈现古代印度授予文书的原始梵语文本内容,是研究古代印度历史、文书制度的基础资料。 文件详解 文件名称:IN01022.xml 文件格式:XML...
-
哥廷根印度语言电子文本注册库_罗摩衍那数据集
2025年12月25日 30 27 1
数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)中关于《罗摩衍那》(Rāmāyaṇa)的电子文本集合,包含多个章节或版本的文本文件,为印度古典文学研究提供基础资料。 文件详解 该数据集由13个HTML格式文件组成,具体如下: -...
-
IN02003昌古纳拉扬神庙西柱铭文翻译
2025年12月22日 30 169 87
数据集概述 该数据集包含IN02003昌古纳拉扬神庙西柱铭文的翻译文本,以文档形式呈现,涵盖PDF和DOCX两种格式,为研究该古代铭文内容提供基础资料。 文件详解 文件名称: IN02003 Changu Narayana Pillar West Shaft Inscription (translation).pdf 文件格式: PDF 内容说明:...



