La fuga masiva de código Yandex revela los factores de clasificación del motor de búsqueda ruso

La fuga masiva de código Yandex revela los factores de clasificación del motor de búsqueda ruso

Casi 45 GB de archivos de código fuente supuestamente robados por un ex empleado han expuesto los cimientos de muchas de las aplicaciones y servicios del gigante tecnológico ruso Yandex. También reveló factores clave de clasificación para el motor de búsqueda Yandex que casi nunca se divulgan públicamente.

Yandex git source ” se publicó como un archivo torrent el 25 de enero y muestra archivos supuestamente tomados en julio de 2022 y que datan de febrero de 2022. El ingeniero de software Arseniy Shestakov afirma que verificó con empleados actuales y anteriores de Yandex que algunos de los archivos “probablemente contener el código fuente actualizado para los servicios de la empresa”. Yandex le dijo al blog de seguridad BleepingComputer que «Yandex no fue pirateado» y que la filtración provino de un ex empleado. Yandex declaró que «no ve una amenaza para los datos del usuario o el rendimiento de la plataforma».

Específicamente, los archivos se remontan a febrero de 2022, cuando Rusia lanzó una invasión a gran escala de Ucrania. El ex ejecutivo de Yandex le dijo a BleepingComputer que la filtración era «política» y señaló que el ex empleado no estaba tratando de vender el código a los competidores de Yandex. Tampoco se ha filtrado el código antispam.

Si bien no está claro si la divulgación del código fuente de Yandex tiene implicaciones estructurales o de seguridad, la filtración de 1922 factores de clasificación en el algoritmo de búsqueda de Yandex ciertamente hizo mucho ruido. El consultor de SEO Martin McDonald describió el hackeo de Twitter como “probablemente lo más interesante que haya sucedido en años en SEO” ( como lo señaló Search Engine Land ). En un hilo que detalla algunos de los factores más notables, el investigador Alex Buraks sugiere que «también hay mucha información útil para el SEO de Google».

Yandex, el cuarto motor de búsqueda más grande, supuestamente contrata a varios ex empleados de Google. Yandex rastrea muchos de los factores de clasificación de Google identificados en su código y compite agresivamente con Google. La división rusa de Google se declaró en bancarrota recientemente después de perder sus cuentas bancarias y servicios de pago. Burax señala que el primer factor en la lista de factores de clasificación de Yandex es «PAGE_RANK», que parece estar relacionado con el algoritmo subyacente creado por los cofundadores de Google .

Como Burax contó en detalle (en dos temas ), el motor de Yandex prefiere páginas que:

  • no muy viejo
  • Tener mucho tráfico orgánico (visitantes únicos) y menos tráfico de búsqueda.
  • Su URL debe contener menos números y barras.
  • Tener código optimizado, no “pesimización dura” con “PR = 0”.
  • Alojado en servidores seguros
  • Ser páginas de Wikipedia o enlaces de Wikipedia
  • Alojado o vinculado a páginas de nivel superior en el dominio
  • Tener palabras clave en su URL (hasta tres)

Puede buscar y hacer clic en todos los factores en la herramienta de búsqueda compilada de Rob Osby . Es posible que haya notado que casi 1000 factores de clasificación tienen la etiqueta «TG_DEPRECATED», y más de 200 se enumeran como «TG_UNUSED». Dado que el código tiene fecha de febrero de 2022 y se recibió en julio de 2022, la búsqueda de Yandex ciertamente ha cambiado desde entonces. Pero la filtración ofrece una rara visión de cómo se compilan los rankings de búsqueda en un sitio que sirve a uno de los países más grandes del mundo.

Anteriormente, el código del motor de búsqueda de Yandex desapareció en 2015 cuando un exempleado trató de venderlo en el mercado negro por $28,000 para financiar su propia startup. La cifra sorprendentemente baja del código principal del producto principal de Yandex indicaba que desconocía su valor real. Este empleado recibió una sentencia condicional de prisión de dos años y el código nunca se hizo público.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *