找到88个数据集

标签: 文本内容

过滤结果
  • 教育督导员学生健康支持体系研究数据

    2026年2月15日 30 183 76

    数据集概述 本数据集围绕教育督导能力作为支持系统以改进基于学生福祉的教育项目展开,包含个体深度访谈与焦点小组讨论的相关数据,通过结构化文档呈现研究内容,为教育管理领域的研究提供基础资料。 文件详解 文件名称:REKAPITULASI DATA FGD DAN INTERVIEW.docx 文件格式:DOCX...
    packageimg
  • Appendix_I_附录文档数据

    2026年2月15日 30 13 5

    数据集概述 本数据集包含一份附录文档,文件名为Appendix I.docx,未提供具体描述信息。数据集结构简单,无目录层级划分,仅包含一个文档文件,可用于获取附录相关的文本内容。 文件详解 文件名称:Appendix I.docx 文件格式:DOCX 字段映射介绍:无可用预览或字段信息,文件为文档格式,具体内容需打开文件查看。 适用场景...
    packageimg
  • 罗马戴克里先浴场危险事件检测推文数据集

    2026年2月10日 30 32 31

    数据集概述 本数据集包含2018年5月至2019年5月期间从Twitter流中提取的276865条推文,用于检测罗马戴克里先浴场遗址的危险事件。每条推文包含ID、文本内容、GPS信息、定位、时间及事件检测标签(标记是否包含该遗址危险事件的有用信息)。数据集仅包含一个文件。 文件详解 文件名称:TweetsDataset.xlsx 文件格式:XLSX...
    packageimg
  • Subj_Based_文本主观性二分类数据集

    2026年2月9日 30 11 5

    数据集概述 本数据集为Subj主观性分类数据集,包含一万份文档,是用于二分类任务的数据集,任务为将文档(即句子)分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件,可用于自然语言处理领域的主观性分析研究。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集合,每行对应一份文本数据 score.txt 文件格式:TXT...
    packageimg
  • IN01006_Based_梵语Rawan宪章XML文献数据

    2026年2月9日 30 15 6

    数据集概述 本数据集包含IN01006编号的Narendra的Rawan宪章梵语文献,以XML格式存储,无附加元数据。数据集仅含一个文件,用于提供结构化的梵语历史文献内容,支持梵语文献研究与文本分析。 文件详解 文件名称:IN01006.xml 文件格式:XML...
    packageimg
  • IN01026_Devagiri_Grant梵语XML铭文数据

    2026年2月9日 30 34 1

    数据集概述 本数据集包含IN01026号梵语铭文《Devagiri Grant of Devavarman》的XML文件,无元数据。数据核心为该梵语铭文的数字化文本内容,共1个文件,用于梵语铭文文献的数字化保存与研究。 文件详解 文件名称:IN01026.xml 文件格式:XML 字段映射介绍:包含Devavarman的Devagiri...
    packageimg
  • NLP_Based_医学CT文本简单评分算法评估实验结果数据

    2026年1月29日 30 161 159

    数据集概述 本数据集为“简单评分型自然语言处理(NLP)算法评估”实验的结果数据,包含两个文件,涉及医学CT相关文本的评分预测任务,记录了文本内容、实际评分、预测评分及分类等信息,可用于分析该NLP算法的性能表现。 文件详解 20230513_predicted_rating.csv 文件格式:CSV...
    packageimg
  • Telugu_Suicide_Based心理健康检测泰卢固语文本数据集

    2026年2月6日 30 196 55

    数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • PAN25_Based_多作者写作风格变化检测数据集

    2026年1月31日 30 96 52

    数据集概述 本数据集为PAN@CLEF2025共享任务“多作者写作风格分析”专用数据,核心任务是检测多作者文档中句子级的写作风格变化位置。数据集包含易、中、难三个难度等级,分别对应不同主题多样性的文档,各等级均划分训练、验证、测试集。 文件详解 文件名称:pan25-multi-author-analysis.zip 文件格式:ZIP...
    packageimg
  • RLKWiC_Based_真实知识工作上下文监测数据集

    2026年1月31日 30 136 47

    数据集概述 本数据集为RLKWiC,是首个公开的真实知识工作上下文数据集,通过监测八名参与者两个月的计算机交互生成,包含上下文、文本内容、语义等多维度信息,旨在填补个人信息管理领域的研究空白,为用户行为建模提供支撑。 文件详解 RLKWiC.zip 文件格式:ZIP...
    packageimg
  • IN02039_Based_Banepa石碑梵语XML草案数据

    2026年1月29日 30 147 78

    数据集概述 本数据集为IN02039 Banepa石碑的梵语XML文件,属于Epidoc格式的草案版本,不含元数据,待整合至"Siddham"档案。数据集仅包含一个文件,记录该石碑的梵语文本内容,用于碑刻文献的数字化保存与研究。 文件详解 文件名称:IN02039.xml 文件格式:XML...
    packageimg
  • OEDILF_Based_计算诗学用人类创作打油诗数据集_v3

    2026年1月28日 30 31 25

    数据集概述 本数据集包含从The Omnificent English Dictionary In Limerick...
    packageimg
  • IN01013_梵语_Sudevaraja敕令XML原始文献数据

    2026年1月28日 30 73 32

    数据集概述 本数据集包含一份编号为IN01013的Sudevaraja敕令梵语文献的XML文件,无元数据。文件为单一XML格式,直接存储于根目录,未划分训练/测试、数据/标签或原始/处理版本,是研究该梵语碑铭文献的基础数字化资源。 文件详解 文件名称:IN01013.xml 文件格式:XML...
    packageimg
  • La_Pola_Siero_Based_西班牙地图第2问语料数据

    2026年1月28日 30 107 96

    数据集概述 本数据集属于拉波拉·西埃罗语料库,包含与“西班牙地图:第2问”相关的语料内容,仅含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录层级结构,文件类型单一为文档格式。 文件详解 文件名称:Mapa de España.Pregunta2.docx 文件格式:docx...
    packageimg
  • IN01014_Sanskrit_XML_无元数据梵语历史文献数据

    2026年1月27日 30 108 47

    数据集概述 本数据集包含IN01014编号的《Narendra的Kurud宪章》梵语文献的XML文件,无附加元数据。数据为单文件结构,未进行训练/测试、数据/标签或原始/处理的拆分,文件类型单一,主要用于梵语历史文献的数字化存储与访问。 文件详解 文件名称:IN01014.xml 文件格式:XML 字段映射介绍:为梵语《Kurud Charter of...
    packageimg
  • Kleptotrace_Based_金融腐败实体抽取微型基准数据集

    2026年1月27日 30 151 12

    数据集概述 本数据集为微型基准数据集,包含15篇聚焦金融腐败主题的文章(共441句),以及文章中提及的个人和组织列表各1份,用于评估基于大语言模型的实体抽取流程。 文件详解 文件名称:Dataset-org.json 文件格式:JSON 字段映射介绍:包含金融腐败主题文章的文本内容,以及从中提取的个人列表和组织列表两类实体信息 数据来源...
    packageimg
  • IN02020_EpiDoc_Siddham档案待整合梵语XML数据

    2026年1月25日 30 177 176

    数据集概述 本数据集包含IN02020号梵语铭文的XML文件,内容为Aryaghat桥附近Sivalinga基座的梵语文本,采用EpiDoc格式草稿版,无元数据,待整合至"Siddham"档案。数据集仅含一个文件,无目录层级划分。 文件详解 文件名称:IN02020.xml 文件格式:XML...
    packageimg
  • PLOS_Clickbait_Based社交媒体用户参与与数字助推研究数据

    2026年1月21日 30 31 24

    数据集概述 本数据集为社交媒体点击诱饵对用户参与影响研究的分析基础数据,包含10个新闻来源的4400余条Facebook帖子数据,记录了标题和文本中的点击诱饵特征(如特殊标点、常见短语)及其对点赞、分享、评论等用户互动行为的影响,同时涉及数字助推的潜在作用分析。 文件详解...
    packageimg
  • IN02086_Siddham_水渠石刻梵语铭文Epidoc草案XML数据

    2026年1月21日 30 150 69

    数据集概述 本数据集包含IN02086号Minanatha水渠石刻铭文的梵语XML文件,为Epidoc格式草案版本,将纳入“Siddham”档案。数据记录石刻铭文内容,无元数据,是文化遗产数字化的重要文献资源,共包含1个文件。 文件详解 文件名称:IN02086.xml 文件格式:XML...
    packageimg
  • LODsyndesisIE_Evaluation_实体识别评估集与结果数据

    2026年1月21日 30 143 32

    数据集概述 本数据集包含LODsyndesisIE实体识别任务的评估资源,涵盖SimpleWiki、MSNBC、AQUAINT三个评估集的10篇测试文本(平均每篇83.2词、含15.8个实体),以及不同实体识别工具的效果与效率评估结果,用于验证实体识别及LODsyndesis内容富集能力。 文件详解 评估文本文件(TXT格式)...
    packageimg