数据集概述
本数据集为用于文本分类的马拉雅拉姆语(混合代码)数据,来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区,通过YouTube API抓取整合。包含“text”(评论内容)和“label”(分类标签)两个属性,标签分为感恩、食谱相关、视频相关等七类,总计含多类标注实例。
文件详解
- 文件名称:nlp_data.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含两个核心字段——“text”字段存储马拉雅拉姆语(混合代码)的YouTube评论内容;“label”字段存储对应的分类标签,标签共7类,分别为1(感恩)、2(食谱相关)、3(视频相关)、4(赞扬)、5(混合类)、6(未定义)、7(建议与疑问)。
数据来源
YouTube平台“Veen's Curryworld”和“Lekshmi Nair”频道评论区(通过YouTube API抓取)
适用场景
- 自然语言处理文本分类研究:用于马拉雅拉姆语(混合代码)文本的分类模型训练与评估,验证模型在多标签评论数据上的性能。
- 社交媒体评论情感与意图分析:分析食谱类YouTube频道观众的评论意图,如感恩、赞扬、疑问等情感及需求倾向。
- 低资源语言NLP资源构建:补充马拉雅拉姆语(混合代码)标注数据集,支持低资源语言自然语言处理任务的发展。
- 内容创作者受众反馈研究:帮助食谱类内容创作者了解观众对视频、食谱的评价与建议,优化内容产出。