dmagin (dmagin) wrote,
dmagin
dmagin

Category:

Биграммы - это матрицы потоков,

а не матрицы смежности.
Что-то я не сразу это сообразил, поэтому зафиксирую.
Матрицу потоков можно распознать по равенству втекающего и вытекающего потока - то есть сумма по i-й колонке и i-й строке равны (если не равны - то биграмма вычислена неверно).

Таким образом, обработка любой входящей последовательности (в биграммах - последовательности букв) через накапливание количества встретившихся пар дает на выходе матрицу потоков.

Хорошая новость в том, что для матрицы потоков собственный вектор потенциалов считается намного проще, чем для матрицы смежности. - Вектор потенциалов определяется сверткой (суммой) по колонкам (или строкам). Матрица смежности для биграмм - это матрица потоков, колонки (строки) которой нормированы на значения вектора (частоты) - то есть стандартная марковская матрица переходов.
Tags: Графы, Язык
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments