Content
Co to są embeddings?
Zacznijmy od tego czym są embeddings. Embeddings, czyli osadzenia semantyczne, to sposób reprezentacji słów, fraz, a nawet całych dokumentów w postaci wektorów liczbowych w przestrzeni wielowymiarowej. Kluczową cechą embeddings jest to, że zachowują one semantyczne podobieństwa, czyli np. wektory dla słów „lekarz” i „szpital” będą znajdowały się bliżej siebie niż „lekarz” i „samochód”.
Technicznie rzecz biorąc, embeddings tworzone są przez modele NLP (Natural Language Processing), jak np. Word2Vec, GloVe, BERT, SBERT, FastText, USE, które uczą się reprezentacji na podstawie dużych korpusów tekstowych.
Zastosowanie embeddings w SEO
W SEO ich potencjał leży właśnie w tej zdolności do semantycznej reprezentacji treści i zapytań użytkowników. W przyszłości, w zależności od zdolności do zbierania i przetwarzania danych, mogą być też używane do obliczeń związanych ze zbieżnością tematyczną (ang. relevance) między linkowanymi dokumentami. Innymi słowy – dawałoby to możliwość oceny, czy linki prowadzące do strony są kontekstowo uzasadnione. Czy Google dokonuje takich obliczeń? Trudno jednoznacznie stwierdzić, ale podejrzewam, że tak, bo pojawiają się o tym wzmianki w dokumentacji i patentach (np. https://patents.google.com/patent/US8577893B1/en).
Jak Google wykorzystuje emeddings w NLP
Google nie ma możliwości zrozumieć treści i konceptów w taki sposób jak my. Zresztą, my chyba sami też nie wiemy, jak my „rozumiemy”. Tak czy inaczej, embeddings stanowią coś w rodzaju pomostu, dzięki któremu przetwarzanie języka naturalnego (NLP) faktycznie może mieć miejsce. Innymi słowy – za pomocą reprezentacji wektorowych Google może zrozumieć zależności między pojęciami, kontekst, a także lepiej interpretować intencje stojące za zapytaniami. Może także analizować pokrycie tematyczne, sprawdzać, czy tekst niesie jakąś wartość dodaną, jak się prezentuje pod kątem EffortScore, dopasowania do intencji, czy wyczerpuje temat etc. Może też oceniać spójność i specjalizację tematyczną serwisu, o czym pisałem tutaj: SiteRadius i SiteFocus w ustalaniu Topical Authority.
Praktyczne zastosowania embeddingów w pozycjonowaniu
Teraz postaram się podsumować zastosowania embeddings i podać przykłady:
Tworzenie kontekstu semantycznego
Embeddings reprezentują słowa, frazy i encje (entities) jako wektory w przestrzeni semantycznej. Dzięki temu można:
- identyfikować relacje między encjami (np. “Tesla” -> “marka EV” -> “akumulatory litowo-jonowe”),
- wzmacniać znaczenie treści poprzez analizę współwystępowania i bliskości semantycznej.
Mapowanie luk semantycznych
Porównując embeddings treści strony z tymi z topowych wyników SERP, można identyfikować brakujące konteksty i relacje, które stanowią tzw. „Information Gain Opportunities”. Innymi słowy można uzupełnić luki w treściach. Pomaga to zarówno w optymalizacji poszczególnych dokumentów (np. żeby pojawiać się w AI Overviews) jak i całych witryn, aby poprawić pokrycie tematyczne i topical authority.
Wzmacnianie wagi/ priorytetyzacja encji
Embeddingi pomagają określić, jak silnie dana encja jest zakorzeniona w treści, w tym:
- w jakich nagłówkach i sekcjach się pojawia,
- jakie atrybuty są z nią powiązane,
- jak często występuje w kontekście innych ważnych encji.
Tworzenie wektorów kontekstowych
Za pomocą przeliczania relacji między osadzeniami można zastosować tzw. „contextual vectoring”, by łączyć encje z odpowiednimi atrybutami i synonimami. To zwiększa zgodność z intencją wyszukiwania użytkownika i poprawia NLP visibility.
Wykorzystywane techniki
Aby móc pracować na embeddingach należy stosować określone techniki rodem z data science. Nie jestem specjalistą od machine learningu, ale na potrzeby SEO w pierwszej kolejności należy się skupić na tych „prostych” krokach:
- Transformacja fraz (słów, URL, całych dokumentów – zależnie od procesu) na embeddingi w oparciu o określony model (np. gemini-embedding-exp-03-07 lub text-embedding-3-small). Zwykle odbywa się to w oparciu o API.
- Następnie możemy przejść do przeliczenia kosinusowego podobieństwa (cosine similarity) pomiędzy embeddingami i dzięki temu znaleźć zasoby do siebie bardzo podobne, przeciwne lub po prostu oddalone. Dzięki temu znajdujemy duplikaty, zasoby niepasujące do zbioru albo takie, które wymagają połączenia w klaster tematyczny.