MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集

数据集概述

本数据集为用于文本分类的马拉雅拉姆语(混合代码)数据,来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区,通过YouTube API抓取整合。包含“text”(评论内容)和“label”(分类标签)两个属性,标签分为感恩、食谱相关、视频相关等七类,总计含多类标注实例。

文件详解

  • 文件名称:nlp_data.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含两个核心字段——“text”字段存储马拉雅拉姆语(混合代码)的YouTube评论内容;“label”字段存储对应的分类标签,标签共7类,分别为1(感恩)、2(食谱相关)、3(视频相关)、4(赞扬)、5(混合类)、6(未定义)、7(建议与疑问)。

数据来源

YouTube平台“Veen's Curryworld”和“Lekshmi Nair”频道评论区(通过YouTube API抓取)

适用场景

  • 自然语言处理文本分类研究:用于马拉雅拉姆语(混合代码)文本的分类模型训练与评估,验证模型在多标签评论数据上的性能。
  • 社交媒体评论情感与意图分析:分析食谱类YouTube频道观众的评论意图,如感恩、赞扬、疑问等情感及需求倾向。
  • 低资源语言NLP资源构建:补充马拉雅拉姆语(混合代码)标注数据集,支持低资源语言自然语言处理任务的发展。
  • 内容创作者受众反馈研究:帮助食谱类内容创作者了解观众对视频、食谱的评价与建议,优化内容产出。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.21 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。