Desvelando los secretos del ranking de Google: Navboost, señales manuales y pogosticking
Introducción
Nuevos documentos provenientes del juicio entre el Departamento de Justicia de Estados Unidos y Google han arrojado luz sobre los mecanismos internos del motor de búsqueda. Lejos de los discursos públicos de la compañía, estas revelaciones apuntan hacia un uso intensivo de señales manuales, una base de datos llamada Navboost y las interfaces de depuración internas que permiten una lectura señal por señal del ranking de las páginas.
Navboost: No es Inteligencia Artificial, es un mapa gigante de clics
Contrariamente a lo que uno podría pensar, Navboost, uno de los pilares del sistema de ranking de Google, no es un algoritmo de aprendizaje automático en sí. Según el Dr. Eric Lehman, ex ingeniero distinguido de Google, "Navboost no es un sistema de machine learning. Es solo una gran tabla". Él explica que esta base registra datos simples, como la cantidad de clics recibidos por un documento para una consulta determinada. En resumen, es una enorme tabla que mapea los comportamientos de los usuarios, consulta por consulta, página por página.
Señales principalmente hechas a mano
Otro aspecto destacado de estos documentos es que casi todas las señales utilizadas en el ranking no provienen del machine learning, con la notable excepción de RankBrain y DeepRank, dos sistemas basados en modelos de tipo LLM (Large Language Models). Las otras señales están explícitamente "hechas a mano". Esto significa que los ingenieros analizan los datos, eligen una función matemática, a menudo una sigmoide, y definen manualmente los umbrales de activación. Este proceso de sintonización manual permite a Google tener un control preciso sobre el comportamiento de su algoritmo, lejos de la imagen de una IA autónoma fuera de control.
El pogosticking existe (y Google lo sabe muy bien)
Otro punto particularmente sensible son los famosos clics cortos y largos, que Google siempre ha rechazado públicamente como criterios directos de ranking. Sin embargo, el documento menciona la duración de la visita de un usuario a una página antes de que vuelva a la página de resultados (SERP): un comportamiento apodado "pogosticking" en la jerga SEO. Este tipo de interacción, junto con los clics registrados en Navboost, claramente juega un papel en los sistemas de evaluación y optimización de la relevancia.
Una interfaz de depuración interna muy avanzada
Uno de los pasajes más interesantes se refiere a una herramienta interna utilizada por los ingenieros de Google. Un ejemplo es la consulta "james allan umass" ingresada en Google, seguida de la apertura de una "ventana de depuración". Este panel interno enumera los primeros diez enlaces azules que se muestran, junto con los puntajes asignados para cada señal y un puntaje global "Final IR" (Recuperación de Información).
Otros elementos intrigantes: Q*, RankEmbed y los Twiddlers
Entre los términos mencionados, pero aún nebulosos, también encontramos Q*, RankEmbed y los "Twiddlers". Estos últimos serían ajustadores de puntaje, módulos capaces de modificar dinámicamente ciertas señales o de aplicar correcciones post-procesamiento. Parecen ser capas intermedias cuyo papel es reequilibrar el ranking después de la aplicación de las señales brutas.
Conclusión
Estos documentos, revelados por Brett Tabke (WebmasterWorld/Pubcon), proporcionan una visión única de las entrañas de Google Search. Confirman lo que muchos especialistas en SEO sospechaban desde hace mucho tiempo: detrás de la imagen de un algoritmo omnipotente se esconde un sistema mucho más manual, empírico y mejor controlado de lo que se piensa.
Deja una respuesta