Algoritmo Karp-Rabin

Es un Algoritmo de búsqueda de subcadenas simple enunciado por Michael Oser Rabin y Richard Manning Karp en 1987.[1]​ Este algoritmo se basa en tratar cada uno de los grupos de m caracteres del texto (siendo m el número de símbolos del patrón) del texto como un índice de una tabla de valores hash (la llamaremos tabla de dispersión), de manera que si la función hash de los m caracteres del texto coincide con la del patrón es posible que hayamos encontrado un acierto. para verificarlo hay que comparar el texto con el patrón, ya que la función hash elegida puede presentar colisiones.

La función hash tiene la forma donde es un número primo grande que será el tamaño de la tabla de dispersión y se calcula de la forma indicada más abajo.

Para transformar cada subcadena de caracteres en un entero lo que hacemos es representar los caracteres en una base que en el planteamiento original coincide con el tamaño del alfabeto. Por tanto el entero correspondiente a la subcadena de texto sería:

xi=Ci×Bm-1+Ci-1×Bm-2+...+Ci+m-1

podemos calcular el valor de en función de .

xi+1=xi×B-Ci×Bm+Ci+m

Es decir, si la cadena es un número en base B, el nuevo valor será el resultado de multiplicar por la base el valor anterior eliminado el dígito de mayor peso (ya que no está en la cadena) y añadiendo como componente de menor peso el valor del nuevo símbolo.

Siguiendo este planteamiento, y dependiendo de la longitud del patrón, el podría superar el rango de enteros representable por el computador. Para que esto no suceda se usa la función módulo (resto de la división). Como la función módulo es asociativa, podemos calcular el incrementalmente a partir de cada .

Ejemplo de Implementación

  • En el lenguaje de programación Julia.

Referencias

  1. Karp, R. M. y Rabin, M. O.. Efficient Randomized Pattern Matching Algorithms. IBM J. Res.Develop.31 (2), 249–260 (1987)

Sergio Talens-Oliag Análisis de algoritmos de búsqueda de un solo patrón. Proyecto Fin de Carrera 1997. U Politécnica de Valencia