维基百科演员共现关系网络节点特征数据集-训练测试集-liamcooper0927
数据来源:互联网公开数据
标签:图数据,演员,共现,维基百科,节点特征,社交网络,机器学习,文本分析
数据概述:
本数据集构建了一个演员共现网络,用于研究演员之间的关系。网络中的每个节点代表一个演员,节点之间的边表示这两个演员共同出现在同一维基百科页面上。节点特征对应于演员维基百科页面中某些关键词的出现情况,反映了演员的文本信息。
文件说明:
train.txt:训练集,包含1万个已标注的节点对。每行表示一个节点对及其标签(1表示节点间存在边,0表示不存在边)。不存在的边(标签为0)是随机添加的,并非原始图的一部分。每行包含:源节点ID,目标节点ID,标签(1或0)。节点ID与node_information.csv文件中的演员ID对应。
test.txt:测试集,包含3498个节点对。每行包含:源节点ID,目标节点ID。需要预测这些节点对在原始图中是否存在边(标签为1或0)。
node_information.csv:每个节点(演员)的932个特征,表示演员维基百科页面的文本信息编码。第一列是节点索引,无表头。
数据用途概述:
该数据集主要用于图神经网络、链路预测、节点分类等机器学习任务。研究人员可以使用该数据集训练模型,预测演员之间的合作关系;分析演员之间的联系模式;探索基于文本信息的图结构学习。此外,该数据集也可用于社交网络分析、文本分析等领域的研究。