数据集

MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集

数据集概述

本数据集为用于文本分类的马拉雅拉姆语（混合代码）数据，来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区，通过YouTube API抓取整合。包含“text”（评论内容）和“label”（分类标签）两个属性，标签分为感恩、食谱相关、视频相关等七类，总计含多类标注实例。

文件详解

文件名称：nlp_data.xlsx
文件格式：XLSX
字段映射介绍：包含两个核心字段——“text”字段存储马拉雅拉姆语（混合代码）的YouTube评论内容；“label”字段存储对应的分类标签，标签共7类，分别为1（感恩）、2（食谱相关）、3（视频相关）、4（赞扬）、5（混合类）、6（未定义）、7（建议与疑问）。

数据来源

YouTube平台“Veen's Curryworld”和“Lekshmi Nair”频道评论区（通过YouTube API抓取）

适用场景

自然语言处理文本分类研究：用于马拉雅拉姆语（混合代码）文本的分类模型训练与评估，验证模型在多标签评论数据上的性能。
社交媒体评论情感与意图分析：分析食谱类YouTube频道观众的评论意图，如感恩、赞扬、疑问等情感及需求倾向。
低资源语言NLP资源构建：补充马拉雅拉姆语（混合代码）标注数据集，支持低资源语言自然语言处理任务的发展。
内容创作者受众反馈研究：帮助食谱类内容创作者了解观众对视频、食谱的评价与建议，优化内容产出。

数据与资源

3871306.zipZIP
0.21 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.21 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。