Vazamento maciço de código Yandex revela fatores de classificação do mecanismo de pesquisa russo

Vazamento maciço de código Yandex revela fatores de classificação do mecanismo de pesquisa russo

Quase 45 GB de arquivos de código-fonte supostamente roubados por um ex-funcionário expuseram os fundamentos de muitos dos aplicativos e serviços da gigante russa de tecnologia Yandex. Ele também revelou os principais fatores de classificação para o mecanismo de busca Yandex que quase nunca são divulgados publicamente.

Yandex git sources “foi publicado como um arquivo torrent em 25 de janeiro e mostra arquivos supostamente obtidos em julho de 2022 e datados de fevereiro de 2022. O engenheiro de software Arseniy Shestakov afirma que verificou com funcionários atuais e antigos da Yandex que alguns dos arquivos “provavelmente contêm código-fonte atualizado para os serviços da empresa.” Yandex disse ao blog de segurança BleepingComputer que “o Yandex não foi hackeado” e que o vazamento veio de um ex-funcionário. Yandex afirmou que “não vê uma ameaça aos dados do usuário ou ao desempenho da plataforma”.

Especificamente, os arquivos datam de fevereiro de 2022, quando a Rússia lançou uma invasão em grande escala da Ucrânia. O ex-executivo da Yandex disse ao BleepingComputer que o vazamento foi “político” e observou que o ex-funcionário não estava tentando vender o código para os concorrentes da Yandex. O código anti-spam também não vazou.

Embora não esteja claro se a divulgação do código-fonte do Yandex tem implicações estruturais ou de segurança, o vazamento de 1.922 fatores de classificação no algoritmo de pesquisa do Yandex certamente causou muito barulho. O consultor de SEO Martin McDonald descreveu o hack do Twitter como “provavelmente a coisa mais interessante que aconteceu em SEO em anos” ( conforme observado pelo Search Engine Land ). Em um tópico detalhando alguns dos fatores mais notáveis, o pesquisador Alex Buraks sugere que “também há muitas informações úteis para o SEO do Google”.

Yandex, o quarto maior mecanismo de busca, supostamente contrata vários ex-funcionários do Google. O Yandex rastreia muitos dos fatores de classificação do Google identificados em seu código e compete agressivamente com o Google. A divisão russa do Google recentemente entrou com pedido de falência depois de perder suas contas bancárias e serviços de pagamento. Burax observa que o primeiro fator na lista de fatores de classificação do Yandex é “PAGE_RANK”, que parece estar relacionado ao algoritmo subjacente criado pelos cofundadores do Google .

Como Burax contou em detalhes (em dois tópicos ), o mecanismo Yandex prefere páginas que:

  • não muito velho
  • Tenha muito tráfego orgânico (visitantes únicos) e menos tráfego de pesquisa.
  • O URL deles deve conter menos números e barras.
  • Tenha código otimizado, não “pessimização pesada” com “PR = 0”.
  • Hospedado em servidores seguros
  • Seja páginas da Wikipédia ou links da Wikipédia
  • Hospedado ou vinculado a páginas de nível superior no domínio
  • Tenha palavras-chave em sua URL (até três)

Você pode pesquisar e clicar em todos os fatores na ferramenta de pesquisa compilada de Rob Osby . Você deve ter notado que quase 1000 fatores de classificação possuem a tag “TG_DEPRECATED” e mais de 200 estão listados como “TG_UNUSED”. Como o código é datado de fevereiro de 2022 e recebido em julho de 2022, a pesquisa do Yandex certamente mudou desde então. Mas o vazamento fornece um raro vislumbre de como as classificações de pesquisa são compiladas em um site que atende a um dos maiores países do mundo.

Anteriormente, o código do mecanismo de busca Yandex desapareceu em 2015, quando um ex-funcionário tentou vendê-lo no mercado negro por US$ 28.000 para financiar sua própria startup. O número surpreendentemente baixo do código principal do produto Yandex indicava que ele desconhecia seu valor real. Este funcionário foi condenado a dois anos de prisão com pena suspensa e o código nunca foi tornado público.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *