#### 输入数据
* 带权二分图
* 节点总数:500w
* 边数:7000w
* 分布:
* 二分图分为A、B两组数据(原始数据并没有区分)
* A组节点的出度符合长尾效应,类似于20%节点用于全部出度的80%
* 数据格式:((u, v), value)
* u: Int,节点ID
* v: Int, 节点ID
* value: Double, 边权
#### 输出数据
* A组节点相互间的相似度,B组节点相互间的相似度
#### 算法
* SimRank
#### 计算过程
* 根据公式,可以使用矩阵运算迭代计算相似矩阵
* L:带权邻接矩阵
* S:相似矩阵
* 伪代码
NL <= L列规范化
S <= 初始化为单位矩阵
迭代计算 {
S(k) <= NL * S(k-1) * L^T
}
返回S
#### 待优化问题


评论
发表评论