数据集

Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集

数据集概述

本数据集收集自印度两大知名Youtube烹饪频道（Nisha Madhulika和Kabita’s Kitchen）的观众评论，核心为Hinglish语言评论，包含4900条/频道的标注数据，共划分7类标签（感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问），所有标注为人工完成，支持文本分类任务。

文件详解

数据文件（CSV格式）
nisha_preprocessing.csv：Nisha Madhulika频道预处理数据，含字段：id（评论ID）、commentText（评论文本）、Labels（标签）、stopwords（停用词数）、upper（大写词数）、hastags（标签数）、word_count（词数）、char_count（字符数）、avg_word（平均词长）、numerics（数字数）
kabita_preprocessing.csv：Kabita Kitchen频道预处理数据，字段同nisha_preprocessing.csv
kabitakitchen.csv：Kabita Kitchen频道主数据，含字段：id、commentText、Labels
Nishafin.csv：Nisha Madhulika频道主数据，含字段：id、commentText、Labels
文档文件（DOCX格式）
readme.docx、readme (3).docx：数据集说明文档

数据来源

论文“Cooking Is Creating Emotion: A Study on Hinglish Sentiments of Youtube Cookery Channels Using Semi-Supervised Approach”（MDPI Big Data Cogn. Comput. 2019, 3, 37）

适用场景

Hinglish文本情感分析: 用于研究印度社交媒体中烹饪内容相关评论的情感倾向与标签分类
烹饪频道用户反馈研究: 分析观众对食谱、视频内容的评价、建议与疑问分布
多语言文本预处理应用: 基于预处理数据验证Hinglish文本的停用词、词长等特征处理方法
社交媒体用户行为分析: 探索印度烹饪频道观众的互动模式与内容偏好
半监督学习模型训练: 利用标注数据进行文本分类模型的训练与验证

数据与资源

该数据集没有数据

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.0 MiB
最后更新	2026年1月26日
创建于	2026年1月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。