SimRank: A Measure of Structural-Context Similarity
"SimRank: A Measure of Structural-Context Similarity" という論文を読んだので内容をメモ。
- オブジェクトとオブジェクトの関係から類似度を測りたい
- 関係というのは、例えば、論文の引用関係とか、Webページのリンク、被リンクの関係など
- 「2つのオブジェクトが関係しているオブジェクトが似ていれば、その2つのオブジェクトは似ている」と仮定
- A, A', B, C という4つの論文があり、AはBを引用し、A'はCを引用しているとする。ここでAとA'が似ているとすると、BとCも似ているはず。
- SimRankというドメインに依らない尺度を導入して、類似度を測ってみる
モデル
2つのオブジェクト a, b に対して、類似度 s(a, b) を次のように定義する。
つまり、a, b の類似度は、a と b に入ってくる辺の始点のオブジェクトの類似度の平均を C 倍したものである。C は 0 から 1 の間の実数であり、類似性の減少率を表す。この定義が再帰的な定義であることに注意。s(a, b) は常に存在し、一意であることが示せる。