#### 输入数据 * 带权二分图 * 节点总数:500w * 边数:7000w * 分布: * 二分图分为A、B两组数据(原始数据并没有区分) * A组节点的出度符合长尾效应,类似于20%节点用于全部出度的80% * 数据格式:((u, v), value) * u: Int,节点ID * v: Int, 节点ID * value: Double, 边权 #### 输出数据 * A组节点相互间的相似度,B组节点相互间的相似度 #### 算法 * SimRank #### 计算过程 * 根据公式,可以使用矩阵运算迭代计算相似矩阵 * L:带权邻接矩阵 * S:相似矩阵 * 伪代码 NL <= L列规范化 S <= 初始化为单位矩阵 迭代计算 { S(k) <= NL * S(k-1) * L^T } ...