土耳其钓鱼邮件数据集
数据来源:互联网公开数据
标签:钓鱼邮件,合法邮件,土耳其,网络安全,机器学习,文本分类,自然语言处理,社会工程学
数据概述:
本数据集包含7,500多封土耳其的钓鱼邮件和合法邮件,是进行钓鱼检测、网络安全研究和自然语言处理研究的宝贵资源。数据集包含邮件的唯一标识符、主题、发件人地址、邮件内容和类别等信息,覆盖了广泛的邮件样本。
数据用途概述:
该数据集适用于机器学习中的钓鱼检测模型构建、网络安全研究和欺诈预防、土耳其自然语言处理项目的文本分类,以及社会工程学攻击分析等多种场景。研究人员可以通过该数据集训练和评估钓鱼检测模型,识别和防范钓鱼攻击;网络安全专业人员可以利用数据集研究钓鱼邮件的特征和攻击手段;自然语言处理专家可以基于数据集进行文本分类和情感分析等任务;社会工程学研究者则可以通过数据集分析社会工程学攻击的模式和策略。
举例:
1. 加载数据集
在Python中加载数据集可以使用pandas库:
import pandas as pd
df = pd.read_csv("turkish_phishing_dataset.csv")
print(df.head())
2. 过滤钓鱼邮件
可以通过数据集中的“Kategori”列来筛选出钓鱼邮件:
phishing_emails = df[df["Kategori"] == "Oltalama"]
print(phishing_emails.sample(5))
3. 文本预处理示例
在进行自然语言处理之前,需要对邮件内容进行预处理,例如去除特殊字符和标点符号、转换为小写等:
import re
def clean_text(text):
text = re.sub(r'\W+', ' ', text) 去除特殊字符
text = text.lower() 转换为小写
return text
df["Cleaned_Content"] = df["İçerik"].apply(clean_text)
print(df[["İçerik", "Cleaned_Content"]].head())