Sémantické vyhledávání funguje na zcela jiném principu. Systém nejprve převede váš dotaz i každý dokument na vektorová embedding (vector embeddings) – husté matematické reprezentace, které zakódují význam textu. Poté vypočítá podobnost mezi vektory pomocí kosinové podobnosti nebo jiných metrik . Dotaz „nejlepší způsob, jak se naučit na kytaru“ tak může najít dokument o „jak cvičit akordy na kytaru“, protože jsou si vektorově blízké, i když neobsahují stejná slova
.
Nejviditelnější rozdíl mezi oběma přístupy spočívá v tom, zda systém rozumí záměru, nebo hledá doslovnou shodu.
Sémantické vyhledávání jde za jednotlivá slova a bere v úvahu širší kontext dotazu. Dokáže zohlednit polohu uživatele, jeho předchozí vyhledávání nebo denní dobu. Hledání „nejlepší restaurace“ tak vrátí jiné výsledky v Praze a v Brně . Mnoho sémantických vyhledávačů také využívá znalostní grafy – obrovské databáze entit a jejich vztahů – které propojují pojmy jako „Paříž“ s „Francie“, „Eiffelova věž“ a „hlavní město“
.
Vyhledávání podle klíčových slov naopak zpracovává každý termín izolovaně. Nemá mechanismus, jak pochopit, že „auto“ a „automobil“ označují stejnou věc, pokud člověk obě slova výslovně neuvede v dotazu nebo v indexovaném obsahu .
Vyhledávání podle klíčových slov je jednoduché, rychlé a snadno nasaditelné na téměř jakékoli infrastruktuře . Dobře škáluje i na základním hardwaru a nevyžaduje specializované modely ani vektorové databáze.
Sémantické vyhledávání vyžaduje více výpočetního výkonu, infrastrukturu neuronových modelů a obvykle i vektorovou databázi . Generování a ukládání embeddingů spotřebovává zdroje a samotné vyhledávání – nalezení nejbližších sousedů ve vícerozměrném vektorovém prostoru – je výpočetně náročnější než procházení invertovaného indexu. Odměnou je výrazně lepší schopnost najít relevantní výsledky při konverzačním a průzkumném vyhledávání
.
Mnoho moderních AI nástrojů vás nenutí vybírat. Hybridní vyhledávání kombinuje oba přístupy – spouští oba vyhledávače paralelně a výsledky slučuje . Získáte tak přesnost doslovného párování pro specifické identifikátory a zároveň schopnost sémantického porozumění pro nejednoznačné nebo konverzační dotazy. Stále častěji se jedná o výchozí architekturu v podnikovém vyhledávání, e-commerce nebo AI znalostních bázích.
Vyhledávání podle klíčových slov je nepostradatelné, když uživatelé přesně vědí, co hledají. Sémantické vyhledávání je převratné, když se uživatelé vyjadřují přirozeným jazykem – a to je většina případů. Pochopení rozdílu vám pomůže zvolit správnou strategii vyhledávání – nebo obě zkombinovat – a vytvořit nástroj, který opravdu najde to, co lidé myslí.
Comments
0 comments