-
NLP_LLM_Based_葡萄牙语软件工程岗位数据提取对比分析完整数据
数据集概述 本数据集围绕葡萄牙语软件工程招聘信息的数据提取任务,对比分析自然语言处理(NLP)与大语言模型(LLM)的应用效果,包含招聘信息数据文件、岗位列表及分析报告类文件。 文件详解 Vagas para Comparação.json:JSON格式文件,包含用于对比分析的葡萄牙语软件工程招聘信息数据。 Lista de cargos...
-
图皮语依存树库数据集
数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
-
GLOVE_全球词向量表示数据集
数据集概述 本数据集围绕“GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION”主题,包含一份PDF文档,核心内容与全球词向量表示相关,为词向量技术研究提供基础资料支持。 文件详解 文件名称: Abdulatif Meyliev Rakhmatillayevich.pdf 文件格式: PDF 内容说明:...
-
BioContextAI_Based_简单MCP评估文本任务数据集
数据集概述 本数据集为BioContextAI simple MCP评估相关的压缩文件,未提供具体内容描述,仅包含一个归档文件,可用于相关领域的评估任务。 文件详解 文件名称: BioContextAI-simple-mcp-evaluation.zip 文件格式: ZIP(.zip) 内容说明:...
-
路透社21578基准语料库
数据集概述 该数据集为路透社21578基准语料库,是一个用于文本分类等任务的经典基准数据集,以压缩文件形式存储,未提供训练/测试、数据/标签等拆分信息。 文件详解 文件名称: RCV1.zip 文件格式: ZIP压缩包(.zip) 内容说明: 该压缩包包含路透社21578基准语料库的相关数据,无可用内容预览,未检测到命名模式或拆分结构。 适用场景...
-
俄语词序百科条目2014
数据集概述 本数据集为2014年发表于《大俄罗斯百科全书》第28卷的“Порядок слов(词序)”条目。内容涵盖俄语词序分析的基础框架,区分词序的限制性与非限制性方面,为俄语语法及词序研究提供权威参考。 文件详解 文件名称: WORD ORDER _ENCYCL 2014.pdf 文件格式: PDF (.pdf) 文件内容:...
-
学术_小说与歌曲语言数据集
数据集概述 该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划(DMP)。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开,对比不同体裁及文本内的动词多样性,分析各体裁高频动词特征。 文件详解 文件名称:DMP_Language in academics fiction and song.pdf 文件格式:PDF (.pdf)...
-
藏语古典词性标注词汇表
数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
-
网络安全漏洞描述与严重程度评估数据集
网络安全漏洞描述与严重程度评估数据集_Cybersecurity_Vulnerability_Description_and_Severity_Assessment 数据来源:互联网公开数据 标签:网络安全, 漏洞分析, 文本分类, 语义分析, 机器学习, 风险评估, 安全情报, NLP 数据概述:...
-
文本毒性预测模型验证数据集
文本毒性预测模型验证数据集_Text_Toxicity_Prediction_Model_Validation_Dataset 数据来源:互联网公开数据 标签:文本分类,毒性检测,机器学习,模型评估,自然语言处理,NLP,二分类,模型验证 数据概述: 该数据集包含用于验证文本毒性预测模型性能的数据。主要特征如下:...
-
新闻文本分类数据集-priyabratapanda
新闻文本分类数据集-priyabratapanda 数据来源:互联网公开数据 标签:新闻,文本分类,机器学习,自然语言处理,NLP,数据集,信息检索,舆情分析 数据概述:该数据集包含来自多种新闻来源的文本数据,用于新闻文本的分类任务。主要特征如下: 时间跨度:数据记录的时间跨度为不固定,涵盖了不同时间段的新闻报道。...
-
自然语言处理专项课程数据集
自然语言处理专项课程数据集_Natural_Language_Processing_Specialization_Course_Datasets 数据来源:互联网公开数据 标签:自然语言处理, NLP, 深度学习, 机器学习, 文本分析, 课程资源, 数据集, 计算机科学 数据概述:...
-
孟加拉语新闻分类数据集1963-2021
孟加拉语新闻分类数据集1963-2021 数据来源:互联网公开数据 标签:孟加拉语,新闻分类,NLP,机器学习,文本分析,情感分析,信息检索,语言建模 数据概述: 本数据集收录了来自Jamuna...
-
伊朗语YouTube评论数据集-2023
伊朗语YouTube评论数据集-2023 数据来源:互联网公开数据 标签:YouTube评论,伊朗语,NLP,社交媒体分析,文本挖掘,数据清洗,代码开源 数据概述:...
-
达观数据文本处理挑战赛数据集
达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -...
-
英语文本BERT基础模型未分词双字母组合数据集-2019
英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:...
-
维基百科主题与类别数据集
维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political...
-
纽约时报烹饪食谱评论互动数据集-2021年5月至6月-michaelruddy
纽约时报烹饪食谱评论互动数据集-2021年5月至6月-michaelruddy 数据来源:互联网公开数据 标签:食谱评论,纽约时报,烹饪,用户互动,评论分析,NLP,自然语言处理,食谱,社交媒体,情感分析 数据概述: 本数据集收录了2021年5月至6月期间,纽约时报烹饪(NYT...
-
移动应用商店应用描述文本分析数据集-sagol79
移动应用商店应用描述文本分析数据集-sagol79 数据来源:互联网公开数据 标签:移动应用,应用描述,文本分析,自然语言处理,机器学习,应用商店,文本挖掘,NLP,应用分类 数据概述:...
-
文本与摘要配对数据集-2023-tanay654321
文本与摘要配对数据集-2023-tanay654321 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,机器学习,编码器解码器,NLP,数据集 数据概述: 本数据集包含2列,一列为原始文本,另一列为对应的摘要。数据集共有318,710行记录,适用于文本摘要生成任务的研究与开发。该数据集可以从Kaggle平台下载,与之配套的代码文件名为“TEXT...



