Enorme Yandex-codelek onthult Russische rankingfactoren voor zoekmachines
Bijna 45 GB aan broncodebestanden die naar verluidt door een voormalige werknemer zijn gestolen, hebben de fundamenten blootgelegd van veel van de apps en diensten van de Russische technologiegigant Yandex. Het onthulde ook belangrijke rankingfactoren voor de Yandex-zoekmachine die bijna nooit openbaar worden gemaakt.
” Yandex git sources “werd op 25 januari gepubliceerd als een torrent-bestand en toont bestanden die naar verluidt in juli 2022 zijn gemaakt en dateren uit februari 2022. Software-engineer Arseniy Shestakov beweert dat hij bij huidige en voormalige Yandex-medewerkers heeft gecontroleerd of sommige archieven “waarschijnlijk bevatten up-to-date broncode voor de diensten van het bedrijf.” Yandex vertelde beveiligingsblog BleepingComputer dat “Yandex niet is gehackt” en dat het lek afkomstig was van een voormalige werknemer. Yandex verklaarde dat het “geen bedreiging ziet voor gebruikersgegevens of platformprestaties.”
De dossiers dateren met name van februari 2022, toen Rusland een grootschalige invasie van Oekraïne lanceerde. De voormalige directeur van Yandex vertelde BleepingComputer dat het lek “politiek” was en merkte op dat de voormalige werknemer niet probeerde de code aan de concurrenten van Yandex te verkopen. Ook de anti-spamcode is niet gelekt.
Hoewel het onduidelijk is of de onthulling van de broncode van Yandex veiligheids- of structurele implicaties heeft, heeft het lekken van 1.922 rangschikkingsfactoren in het zoekalgoritme van Yandex zeker voor veel ophef gezorgd. SEO-adviseur Martin McDonald beschreef de Twitter-hack als “waarschijnlijk het meest interessante dat in jaren in SEO is gebeurd” ( zoals opgemerkt door Search Engine Land ). In een thread waarin enkele van de meest opvallende factoren worden beschreven, suggereert onderzoeker Alex Buraks dat “er ook veel nuttige informatie is voor Google SEO”.
Yandex, de op drie na grootste zoekmachine, zou verschillende voormalige Google-medewerkers in dienst hebben genomen. Yandex houdt veel van de Google-rangschikkingsfactoren bij die in zijn code zijn geïdentificeerd en concurreert agressief met Google. De Russische divisie van Google heeft onlangs faillissement aangevraagd na het verlies van bankrekeningen en betaaldiensten. Burax merkt op dat de eerste factor op Yandex’s lijst met rangschikkingsfactoren “PAGE_RANK” is, wat verband lijkt te houden met het onderliggende algoritme dat is gemaakt door de mede-oprichters van Google .
Zoals Burax in detail vertelde (in twee onderwerpen ), geeft de Yandex-engine de voorkeur aan pagina’s die:
- niet te oud
- Heb veel organisch verkeer (unieke bezoekers) en minder zoekverkeer.
- Hun URL zou minder cijfers en schuine strepen moeten bevatten.
- Heb geoptimaliseerde code, geen “harde pessimisatie” met “PR = 0”.
- Gehost op beveiligde servers
- Wees Wikipedia-pagina’s of links van Wikipedia
- Gehost of gekoppeld aan pagina’s op een hoger niveau in het domein
- Zorg voor zoekwoorden in uw URL (maximaal drie)
U kunt alle factoren zoeken en aanklikken in de gecompileerde zoekfunctie van Rob Osby . Het is je misschien opgevallen dat bijna 1000 rangschikkingsfactoren de tag “TG_DEPRECATED” hebben en dat er meer dan 200 worden vermeld als “TG_UNUSED”. Aangezien de code dateert van februari 2022 en is ontvangen in juli 2022, is het zoeken in Yandex sindsdien zeker veranderd. Maar het lek biedt een zeldzame blik op hoe zoekrangschikkingen worden samengesteld op een site die een van ’s werelds grootste landen bedient.
Eerder verdween de Yandex-zoekmachinecode in 2015 toen een voormalige werknemer deze op de zwarte markt probeerde te verkopen voor $ 28.000 om zijn eigen startup te financieren. Het verrassend lage cijfer voor de kerncode van het belangrijkste product van Yandex gaf aan dat hij niet op de hoogte was van de werkelijke waarde ervan. Deze medewerker kreeg een voorwaardelijke gevangenisstraf van twee jaar en de code is nooit openbaar gemaakt.
Geef een reactie