找到82个数据集

标签: 文本内容

过滤结果
  • Telugu_Suicide_Based心理健康检测泰卢固语文本数据集

    2026年2月6日 30 161 56

    数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • PAN25_Based_多作者写作风格变化检测数据集

    2026年1月31日 30 155 56

    数据集概述 本数据集为PAN@CLEF2025共享任务“多作者写作风格分析”专用数据,核心任务是检测多作者文档中句子级的写作风格变化位置。数据集包含易、中、难三个难度等级,分别对应不同主题多样性的文档,各等级均划分训练、验证、测试集。 文件详解 文件名称:pan25-multi-author-analysis.zip 文件格式:ZIP...
    packageimg
  • RLKWiC_Based_真实知识工作上下文监测数据集

    2026年1月31日 30 62 35

    数据集概述 本数据集为RLKWiC,是首个公开的真实知识工作上下文数据集,通过监测八名参与者两个月的计算机交互生成,包含上下文、文本内容、语义等多维度信息,旨在填补个人信息管理领域的研究空白,为用户行为建模提供支撑。 文件详解 RLKWiC.zip 文件格式:ZIP...
    packageimg
  • NLP_Based_医学CT文本简单评分算法评估实验结果数据

    2026年1月29日 0 81 1

    数据集概述 本数据集为“简单评分型自然语言处理(NLP)算法评估”实验的结果数据,包含两个文件,涉及医学CT相关文本的评分预测任务,记录了文本内容、实际评分、预测评分及分类等信息,可用于分析该NLP算法的性能表现。 文件详解 20230513_predicted_rating.csv 文件格式:CSV...
    packageimg
  • IN02039_Based_Banepa石碑梵语XML草案数据

    2026年1月29日 30 138 112

    数据集概述 本数据集为IN02039 Banepa石碑的梵语XML文件,属于Epidoc格式的草案版本,不含元数据,待整合至"Siddham"档案。数据集仅包含一个文件,记录该石碑的梵语文本内容,用于碑刻文献的数字化保存与研究。 文件详解 文件名称:IN02039.xml 文件格式:XML...
    packageimg
  • OEDILF_Based_计算诗学用人类创作打油诗数据集_v3

    2026年1月28日 30 52 40

    数据集概述 本数据集包含从The Omnificent English Dictionary In Limerick...
    packageimg
  • IN01013_梵语_Sudevaraja敕令XML原始文献数据

    2026年1月28日 30 184 140

    数据集概述 本数据集包含一份编号为IN01013的Sudevaraja敕令梵语文献的XML文件,无元数据。文件为单一XML格式,直接存储于根目录,未划分训练/测试、数据/标签或原始/处理版本,是研究该梵语碑铭文献的基础数字化资源。 文件详解 文件名称:IN01013.xml 文件格式:XML...
    packageimg
  • La_Pola_Siero_Based_西班牙地图第2问语料数据

    2026年1月28日 30 116 23

    数据集概述 本数据集属于拉波拉·西埃罗语料库,包含与“西班牙地图:第2问”相关的语料内容,仅含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录层级结构,文件类型单一为文档格式。 文件详解 文件名称:Mapa de España.Pregunta2.docx 文件格式:docx...
    packageimg
  • IN01014_Sanskrit_XML_无元数据梵语历史文献数据

    2026年1月27日 30 145 50

    数据集概述 本数据集包含IN01014编号的《Narendra的Kurud宪章》梵语文献的XML文件,无附加元数据。数据为单文件结构,未进行训练/测试、数据/标签或原始/处理的拆分,文件类型单一,主要用于梵语历史文献的数字化存储与访问。 文件详解 文件名称:IN01014.xml 文件格式:XML 字段映射介绍:为梵语《Kurud Charter of...
    packageimg
  • Kleptotrace_Based_金融腐败实体抽取微型基准数据集

    2026年1月27日 30 178 138

    数据集概述 本数据集为微型基准数据集,包含15篇聚焦金融腐败主题的文章(共441句),以及文章中提及的个人和组织列表各1份,用于评估基于大语言模型的实体抽取流程。 文件详解 文件名称:Dataset-org.json 文件格式:JSON 字段映射介绍:包含金融腐败主题文章的文本内容,以及从中提取的个人列表和组织列表两类实体信息 数据来源...
    packageimg
  • IN02020_EpiDoc_Siddham档案待整合梵语XML数据

    2026年1月25日 30 105 42

    数据集概述 本数据集包含IN02020号梵语铭文的XML文件,内容为Aryaghat桥附近Sivalinga基座的梵语文本,采用EpiDoc格式草稿版,无元数据,待整合至"Siddham"档案。数据集仅含一个文件,无目录层级划分。 文件详解 文件名称:IN02020.xml 文件格式:XML...
    packageimg
  • PLOS_Clickbait_Based社交媒体用户参与与数字助推研究数据

    2026年1月21日 30 69 9

    数据集概述 本数据集为社交媒体点击诱饵对用户参与影响研究的分析基础数据,包含10个新闻来源的4400余条Facebook帖子数据,记录了标题和文本中的点击诱饵特征(如特殊标点、常见短语)及其对点赞、分享、评论等用户互动行为的影响,同时涉及数字助推的潜在作用分析。 文件详解...
    packageimg
  • IN02086_Siddham_水渠石刻梵语铭文Epidoc草案XML数据

    2026年1月21日 30 28 17

    数据集概述 本数据集包含IN02086号Minanatha水渠石刻铭文的梵语XML文件,为Epidoc格式草案版本,将纳入“Siddham”档案。数据记录石刻铭文内容,无元数据,是文化遗产数字化的重要文献资源,共包含1个文件。 文件详解 文件名称:IN02086.xml 文件格式:XML...
    packageimg
  • LODsyndesisIE_Evaluation_实体识别评估集与结果数据

    2026年1月21日 30 103 17

    数据集概述 本数据集包含LODsyndesisIE实体识别任务的评估资源,涵盖SimpleWiki、MSNBC、AQUAINT三个评估集的10篇测试文本(平均每篇83.2词、含15.8个实体),以及不同实体识别工具的效果与效率评估结果,用于验证实体识别及LODsyndesis内容富集能力。 文件详解 评估文本文件(TXT格式)...
    packageimg
  • Supplementary_data_manuscript_学术文献补充数据

    2026年1月20日 30 193 168

    数据集概述 本数据集为某学术手稿的补充数据,包含一份文档文件,用于支撑手稿的研究内容。数据集结构简单,未划分训练测试、数据标签或原始处理数据,文件类型单一。 文件详解 文件名称:Magnaetal_supplementary.docx 文件格式:DOCX 字段映射介绍:未提供内容预览,推测为支撑学术手稿的补充文本、表格、图表或数据说明等相关信息。...
    packageimg
  • Kanuri_Interior_Robinson_Crusoe_语言研究文档

    2026年1月20日 30 18 1

    数据集概述 本数据集包含一份关于Kanuri语言的文档,核心内容涉及Kanuri语言与《鲁滨孙漂流记》相关的研究材料。文档以docx格式呈现,无其他关联文件或目录结构,可用于Kanuri语言相关的学术研究或资料参考。 文件详解 文件名称:521_kanuri_interior_robinson_crusoe.docx 文件格式:DOCX...
    packageimg
  • Shared_Research_Repository_BL报纸样本纯文本数据集

    2026年1月19日 30 119 103

    数据集概述 本数据集包含Shared Research Repository发布的报纸文章纯文本数据,以压缩包形式提供,可用于自然语言处理相关的文本分析任务,总计包含一个文件。 文件详解 压缩文件 文件名称:newspaper_text.zip 文件格式:ZIP...
    packageimg
  • IN02002_Sanskrit_昌古纳拉扬石柱北轴铭文梵语XML数据_草稿版

    2026年1月19日 30 46 40

    数据集概述 本数据集包含IN02002昌古纳拉扬石柱北轴铭文的梵语文本,以XML格式存储,为Epidoc标准的草稿版本,不含元数据,计划纳入"Siddham"档案。数据集仅包含1个文件,无目录结构,未划分训练/测试、数据/标签或原始/处理集。 文件详解 文件名称:IN02002.xml 文件格式:XML...
    packageimg
  • Food_Fraud_Vulnerability_中国欧洲食品供应链欺诈评估数据

    2026年1月19日 30 76 68

    数据集概述 本数据集包含中国和欧洲多家企业的香料/生姜及葡萄酒食品欺诈脆弱性评估结果,属于食品真实性创新实施任务(WP3 Task 3.2)的一部分,旨在帮助理解选定食品链中的欺诈脆弱性,为食品真实性领域工作提供数据支持。 文件详解 生姜评估文件 文件名称:Data_Spices_Task 3.2_Food fraud vulnerability...
    packageimg
  • IN02023_EpiDoc_Balambu卢库_马哈迪奥石碑梵语XML草稿数据

    2026年1月19日 30 87 7

    数据集概述 本数据集为IN02023 Balambu卢库·马哈迪奥石碑的梵语XML文件,采用EpiDoc格式草稿版,无元数据,计划纳入“Siddham”档案。包含1个XML文件,记录该石碑的梵语文本内容,用于碑铭文献的数字化整理与研究。 文件详解 文件名称:IN02023.xml 文件格式:XML...
    packageimg