互联网评论文本毒性与地理位置数据集InternetCommentTextToxicityandGeolocationDataset-takahiroanno
数据来源:互联网公开数据
标签:文本毒性, 评论分析, 地理位置, 自然语言处理, 恶意评论, 情感分析, 数据标注, IP地址
数据概述:
该数据集包含来自互联网评论文本的数据,记录了评论的毒性评分以及相关的地理位置信息。主要特征如下:
时间跨度:数据未标明具体时间,视作静态数据集使用。
地理范围:数据覆盖范围依据IP地址推断,包含城市、国家代码等地理信息,但缺失值较多。
数据维度:包括评论ID、评论文本(comment_text)、毒性评分(toxic, severe_toxic, obscene, threat, insult, identity_hate)以及地理位置信息(city, country_code, country_, ip, latitude, longitude, metro_code, region_code, region_, time_zone, zip_code)。
数据格式:CSV格式,文件名为ipaddresstraincsv,便于数据分析和处理。
来源信息:数据来源于公开的网络评论,并进行了毒性评估和地理位置标注,但地理位置信息的完整性有待考量。
该数据集适合用于文本毒性分析、评论内容识别、地理位置与评论内容关联性研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘、社会计算等领域的研究,如恶意评论检测、情感分析、地域性评论差异研究。
行业应用:可以为社交媒体平台、在线论坛、新闻网站等提供数据支持,用于内容审核、用户行为分析和风险控制。
决策支持:支持企业进行舆情监测、用户画像分析,辅助制定内容策略和风险管理措施。
教育和培训:作为自然语言处理、数据挖掘等课程的实训材料,帮助学生理解文本毒性分析、地理位置数据处理。
此数据集特别适合用于探索评论文本毒性与地理位置之间的关系,构建文本分类模型,并对恶意评论进行识别与过滤。