Vazamento maciço de código Yandex revela fatores de classificação do mecanismo de pesquisa russo

Quase 45 GB de arquivos de código-fonte supostamente roubados por um ex-funcionário expuseram os fundamentos de muitos dos aplicativos e serviços da gigante russa de tecnologia Yandex. Ele também revelou os principais fatores de classificação para o mecanismo de busca Yandex que quase nunca são divulgados publicamente.
“ Yandex git sources “foi publicado como um arquivo torrent em 25 de janeiro e mostra arquivos supostamente obtidos em julho de 2022 e datados de fevereiro de 2022. O engenheiro de software Arseniy Shestakov afirma que verificou com funcionários atuais e antigos da Yandex que alguns dos arquivos “provavelmente contêm código-fonte atualizado para os serviços da empresa.” Yandex disse ao blog de segurança BleepingComputer que “o Yandex não foi hackeado” e que o vazamento veio de um ex-funcionário. Yandex afirmou que “não vê uma ameaça aos dados do usuário ou ao desempenho da plataforma”.
Especificamente, os arquivos datam de fevereiro de 2022, quando a Rússia lançou uma invasão em grande escala da Ucrânia. O ex-executivo da Yandex disse ao BleepingComputer que o vazamento foi “político” e observou que o ex-funcionário não estava tentando vender o código para os concorrentes da Yandex. O código anti-spam também não vazou.
Embora não esteja claro se a divulgação do código-fonte do Yandex tem implicações estruturais ou de segurança, o vazamento de 1.922 fatores de classificação no algoritmo de pesquisa do Yandex certamente causou muito barulho. O consultor de SEO Martin McDonald descreveu o hack do Twitter como “provavelmente a coisa mais interessante que aconteceu em SEO em anos” ( conforme observado pelo Search Engine Land ). Em um tópico detalhando alguns dos fatores mais notáveis, o pesquisador Alex Buraks sugere que “também há muitas informações úteis para o SEO do Google”.
Yandex, o quarto maior mecanismo de busca, supostamente contrata vários ex-funcionários do Google. O Yandex rastreia muitos dos fatores de classificação do Google identificados em seu código e compete agressivamente com o Google. A divisão russa do Google recentemente entrou com pedido de falência depois de perder suas contas bancárias e serviços de pagamento. Burax observa que o primeiro fator na lista de fatores de classificação do Yandex é “PAGE_RANK”, que parece estar relacionado ao algoritmo subjacente criado pelos cofundadores do Google .
Como Burax contou em detalhes (em dois tópicos ), o mecanismo Yandex prefere páginas que:
- não muito velho
- Tenha muito tráfego orgânico (visitantes únicos) e menos tráfego de pesquisa.
- O URL deles deve conter menos números e barras.
- Tenha código otimizado, não “pessimização pesada” com “PR = 0”.
- Hospedado em servidores seguros
- Seja páginas da Wikipédia ou links da Wikipédia
- Hospedado ou vinculado a páginas de nível superior no domínio
- Tenha palavras-chave em sua URL (até três)
Você pode pesquisar e clicar em todos os fatores na ferramenta de pesquisa compilada de Rob Osby . Você deve ter notado que quase 1000 fatores de classificação possuem a tag “TG_DEPRECATED” e mais de 200 estão listados como “TG_UNUSED”. Como o código é datado de fevereiro de 2022 e recebido em julho de 2022, a pesquisa do Yandex certamente mudou desde então. Mas o vazamento fornece um raro vislumbre de como as classificações de pesquisa são compiladas em um site que atende a um dos maiores países do mundo.
Anteriormente, o código do mecanismo de busca Yandex desapareceu em 2015, quando um ex-funcionário tentou vendê-lo no mercado negro por US$ 28.000 para financiar sua própria startup. O número surpreendentemente baixo do código principal do produto Yandex indicava que ele desconhecia seu valor real. Este funcionário foi condenado a dois anos de prisão com pena suspensa e o código nunca foi tornado público.
Deixe um comentário