数据集

乌尔都语推文情感分析数据集UrduTweetSentimentAnalysis-rimshajanjua

数据来源：互联网公开数据

标签：情感分析, 文本分类, 乌尔都语, 自然语言处理, 机器学习, 文本预处理, 情感极性, 语料库

数据概述：该数据集包含来自社交媒体平台的乌尔都语推文数据，记录了推文内容及其对应的情感极性标签，旨在用于情感分析模型的训练与评估。主要特征如下：时间跨度：数据未明确标注时间信息，可视为静态语料库。地理范围：数据主要来源于使用乌尔都语的用户，具体地域信息不详。数据维度：包括推文ID、推文内容、情感极性标签（0或1，代表负面或正面情感）以及数据划分（public/private，用于训练、测试和验证）。数据格式：主要为CSV格式，包含train.csv（训练集）、test.csv（测试集）和test_with_ans_and_split.csv（包含答案和分割信息），以及其他辅助文本文件，如Humayoun_lemmatizer.txt（词形还原器）、normalizeNFC.txt、stopword_Urmono.txt（停用词表）和vocabUrdu.txt（词汇表），另外还包含urduvec_140M_100K_300d.bin（预训练词向量）。来源信息：数据集来源于公开的乌尔都语语料库，可能经过了数据清洗和标注处理。该数据集适合用于乌尔都语情感分析、文本分类等相关研究，以及自然语言处理技术的应用。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于情感分析、文本挖掘、自然语言处理等领域的学术研究，例如乌尔都语情感极性识别、不同情感类别分析、情感趋势预测等。行业应用：为社交媒体分析、舆情监测、市场调研等行业提供数据支持，尤其适用于乌尔都语用户的观点挖掘和情感分析。决策支持：支持企业和机构进行市场调研、产品反馈分析、品牌声誉管理等决策。教育和培训：作为自然语言处理和机器学习课程的实训材料，帮助学生和研究人员熟悉乌尔都语文本处理和情感分析流程。此数据集特别适合用于探索乌尔都语文本的情感表达规律，构建和评估乌尔都语情感分析模型，实现对乌尔都语社交媒体内容的深度理解。

数据与资源

versions_20250410111652.zipZIP
109.87 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	109.87 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。