数据集概述
本数据集收集自印度两大知名Youtube烹饪频道(Nisha Madhulika和Kabita’s Kitchen)的观众评论,核心为Hinglish语言评论,包含4900条/频道的标注数据,共划分7类标签(感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问),所有标注为人工完成,支持文本分类任务。
文件详解
- 数据文件(CSV格式)
nisha_preprocessing.csv:Nisha Madhulika频道预处理数据,含字段:id(评论ID)、commentText(评论文本)、Labels(标签)、stopwords(停用词数)、upper(大写词数)、hastags(标签数)、word_count(词数)、char_count(字符数)、avg_word(平均词长)、numerics(数字数)
kabita_preprocessing.csv:Kabita Kitchen频道预处理数据,字段同nisha_preprocessing.csv
kabitakitchen.csv:Kabita Kitchen频道主数据,含字段:id、commentText、Labels
Nishafin.csv:Nisha Madhulika频道主数据,含字段:id、commentText、Labels
- 文档文件(DOCX格式)
readme.docx、readme (3).docx:数据集说明文档
数据来源
论文“Cooking Is Creating Emotion: A Study on Hinglish Sentiments of Youtube Cookery Channels Using Semi-Supervised Approach”(MDPI Big Data Cogn. Comput. 2019, 3, 37)
适用场景
- Hinglish文本情感分析: 用于研究印度社交媒体中烹饪内容相关评论的情感倾向与标签分类
- 烹饪频道用户反馈研究: 分析观众对食谱、视频内容的评价、建议与疑问分布
- 多语言文本预处理应用: 基于预处理数据验证Hinglish文本的停用词、词长等特征处理方法
- 社交媒体用户行为分析: 探索印度烹饪频道观众的互动模式与内容偏好
- 半监督学习模型训练: 利用标注数据进行文本分类模型的训练与验证