26 stycznia wyciekły ważne repozytoria zawierające kody źródłowe usług internetowych rosyjskiego giganta technologicznego – Yandex.ru. Wszystkie pliki są datowane na 24 lutego 2022 r.
Co obejmował wyciek?
Wyciekły dane wszystkich najważniejszych usług:
- Wyszukiwarka Yandex.ru i jej bot inteksujący (ten punkt nas SEOwców interesuje najbardziej)
- Yandex.Maps – Mapy – odpowiednik Google Maps i Street View
- Alice – asystant AI podobny do Siri / Alexa
- Yandex Go / Yandex.Taxi – odpowiednik Ubera
- Yandex.Direct – system reklamy (odpowiednik Google Ads)
- Yandex.Mail – usługa mailowa
- Yandex.Disk – odpowiednik Google Drive
- Yandex.Market – serwis aukcyjny podobny do Amazon
- Yandex.Travel – odpowiednik Booking.com z możliwością zakupu biletów lotniczych, kolejowych i autobusowych
- Yandex360 – coś w rodzaju Google Workspace
- Yandex Cloud – przestrzeń dyskowa w chmurze
- Yandex Pay – system płatniczy
- Yandex Metrika – narzędzie analityczne w stylu Google Analytics + Hotjar
Nie wyciekły z tego, co wiem dane użytkowników, a jedynie kody źródłowe aplikacji. To jednak bardzo ważna wiadomość i źródło wiedzy dla specjalistów SEO. I to nie tylko tych pozycjonujących w Yandeksie!
Co ma Yandex do Google? Czy bazują na tych samych czynnikach rankingowych?
Z wycieku można dowiedzieć się bardzo wiele na temat czynników rankingowych wyszukiwarki Yandex. Według dokumentacji jest ich aż 1922. Wbrew pozorom Yandex i Google mają wiele wspólnego, więc nawet jeśli nie pracujesz na rynkach wschodnich, to możesz z tego wiele wyciągnąć.
Spotkałem się z informacją, że około 70% procent wyników Google i Yandex się pokrywa, co by wskazywało, że w przynajmniej pewnym stopniu ich silniki są podobne. Yandex powstał niejako jako kopia Google, a wielu inżynierów pracujących u rosyjskiego potentata, to ex-Googlersi. Jeśli chodzi o optymalizację on-page i strategie contentowe (generalnie większość aspektów white hat SEO), to metody stosowane przez rosyjskich SEO-wców są takie same pod kątem Google.ru jak i Yandex.ru.
Poszczególne mechanizmy działają na pewno inaczej, jednak logika wyszukiwarki jest podobna. Przykładowo Yandex używa MatrixNet będącego odpowiednikiem googlowskiego RankBrain, a jednym z podstawowych czynników rankingowych w Yandexie jest… Page Rank.
Jakie są czynniki rankingowe w Yandex
Alex Buraks I Dominic Woodman przeanalizowali pliki źródłowe (poniżej tweety). Ja też prześledziłem pobieżnie część czynników, czego efektem jest lista poniżej.
Każdy czynnik jest opisany po rosyjsku, więc jeśli ktoś ma cierpliwość tłumaczyć lub sobie to zautomatyzuje, to może będzie mu łatwiej. Można w sumie zaprząc do tego GPT-3.

Pełna lista: https://www.dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Oto co z nich w telegraficznym skrócie wynika na temat czynników rankingowych wyszukiwarki Yandex.ru:
- Jednym z głównych czynników rankingowych jest Page Rank. Co ciekawe osobno jest liczony Page Rank ukraiński, co może wskazywać, że PR jest budowany na podstawie linków z danej sieci krajowej.
- Wiek linków ma znaczenie.
- Czynnikami rankingowymi są ruch, liczba UU oraz i procentowy udział ruchu organicznego (co może oznaczać, że kupowanie ruchu PPC też może przekładać się na pozycjonowanie)!
- Cyfry w adresach URL są oceniane negatywnie.
- Wiele slashów w adresach URL to czynnik negatywny.
- Stabilność hosta ma znaczenie. Im mniej masz błędów 5xx,4xx tym lepiej dla SEO.
- Wikipedia ma bonus do rankingu!
- Yandex w dużym stopniu korzysta z danych behawioralnych (CTR, czas na stronie, współczynnik odrzuceń, kliknięcia i ogólna aktywność na stronie). Warto tu podkreślić, że Yandex od dawna stosuje dane behawioralne i ma za sobą nieudaną próbę odejścia od czynników linkowych.
- Wiek dokumentu oraz ostatnia aktualizacja również mają znaczenie.
- CTR na podobne zapytania (synonimy itp.) również jest brany pod uwagę jako czynnik rankingowy.
- Jednym z czynników jest średnia pozycja domeny na wszystkie zapytania.
- Brana jest pod uwagę liczba wyświetleń danego URL na dane zapytanie.
- Tematyczność linków (topical relevancy) jest czynnikiem rankingowym. To w zasadzie zespół wielu czynników (trudno je ocenić szczegółowo, bo linki w dokumentacji prowadzą do wewnętrznej bazy wiedzy Yandex, do której trzeba mieć dostępy).
- Weryfikowane jest czy strona nie zawiera treści porno.
- Na pozycje wpływa negatywnie jeśli w dokumencie nie ma wszystkich słów z zapytania (analizowany jest też udział procentowy).
- Długość tekstu ma znaczenie (liczona wg wzoru TLen = Map(number of words, 1/400), where Map(x, y) = xy / (1 + xy) )
- Czynnikiem rankingowym jest również udział klików w wyniki z danej domeny pochodzących z określonych regionów (the ratio of the number of clicks on the given domainId to all clicks on the request, by small regions from relev_regions.web.txt).
- Wyszukiwanie brandowe i jego CTR w pewnym sensie ma wpływ na pozycje (Clickability of the host for the first word of the query. Quite often, the first (last) word of the query is an explicit indication of the site on which to look for information.)
- Na podstawie whois oceniane jest prawdopodobieństwo czy hosting należy do spamera.
- Pesymistyczny wydźwięk / sentyment treści (?) obniża PageRank do zera… Nie bardzo wiem o co chodzi i to tylko moja interpretacja. Może ktoś mi wyjaśni. W oryginale jest użyte określenie „hard pessimization (aka PR=0), binary factor, used in antispam”
- Analizowania jest pora dnia zapytania.
- Lokalizacja ma znaczenie, a zapytania są oceniane w kontekście intencji związanej z lokalnymi wynikami.
- TLD ma znaczenie (np. jednym z czynników jest weryfikacja, czy domena jest domeną „com”)
- Analiza NLP w kontekście naturalności tekstu dla języka rosyjskiego. Mechanizm ma na celu wykrywanie treści, któ®e mogły być wygenerowane przez synonimizer lub automat (…how unnatural the text is from the point of view of the Russian language. An assessment of how much the text of the document can be considered as generated by a synonymizer or even automatic.). Analizowane są różne elementy treści jak długość słów, liczba czasowników, zaimków i innych części mowy.
- Udział w systemach wzajemnego linkowania jest analizowany (link rings).
- Liczba śmieciowych linków (trash-links) między hostami (?) jest też czynnikiem rankingowym.
- Istnieją czynniki (związane z czasem) brane pod uwagę tylko podczas rerankingu.
Będę to prawdopodobnie rozwijał lub przedstawię w bardziej przystępnej formie.
W dokumentacji można znaleźć też wiele informacji o nieużywanych czynnikach, jak np.:
заголовок страницы содержит коммерческую лексику. Не используется
page title contains commercial vocabulary. Not used
Oryginał:

Polecam zapoznać się z całymi wątkami obu panów:
Wyborna sprawa 🙂