互联网评论文本毒性与地理位置数据集InternetCommentTextToxicityandGeolocationDataset-takahiroanno

互联网评论文本毒性与地理位置数据集InternetCommentTextToxicityandGeolocationDataset-takahiroanno

数据来源:互联网公开数据

标签:文本毒性, 评论分析, 地理位置, 自然语言处理, 恶意评论, 情感分析, 数据标注, IP地址

数据概述: 该数据集包含来自互联网评论文本的数据,记录了评论的毒性评分以及相关的地理位置信息。主要特征如下: 时间跨度:数据未标明具体时间,视作静态数据集使用。 地理范围:数据覆盖范围依据IP地址推断,包含城市、国家代码等地理信息,但缺失值较多。 数据维度:包括评论ID、评论文本(comment_text)、毒性评分(toxic, severe_toxic, obscene, threat, insult, identity_hate)以及地理位置信息(city, country_code, country_, ip, latitude, longitude, metro_code, region_code, region_, time_zone, zip_code)。 数据格式:CSV格式,文件名为ipaddresstraincsv,便于数据分析和处理。 来源信息:数据来源于公开的网络评论,并进行了毒性评估和地理位置标注,但地理位置信息的完整性有待考量。 该数据集适合用于文本毒性分析、评论内容识别、地理位置与评论内容关联性研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、文本挖掘、社会计算等领域的研究,如恶意评论检测、情感分析、地域性评论差异研究。 行业应用:可以为社交媒体平台、在线论坛、新闻网站等提供数据支持,用于内容审核、用户行为分析和风险控制。 决策支持:支持企业进行舆情监测、用户画像分析,辅助制定内容策略和风险管理措施。 教育和培训:作为自然语言处理、数据挖掘等课程的实训材料,帮助学生理解文本毒性分析、地理位置数据处理。 此数据集特别适合用于探索评论文本毒性与地理位置之间的关系,构建文本分类模型,并对恶意评论进行识别与过滤。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.66 MiB
最后更新 2025年4月29日
创建于 2025年4月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。