Vision for Web

Технологиите, стоящи зад системата за класиране в Google

Миналата седмица ви обещах да публикувам втората част от откровенията на Амит Сигхат за класирането на сайтовете в страниците с резултатите от търсене в Google. Както тогава ви споменах, господин Сигхат е отговорник на екипа, занимаващ се с тази нелека задача. Ето, че изпълнявам обещанието си.

Технологиите зад класирането на сайтовете в Google

Основата, върху която лежи цялата технология на системата за класиране, идва от т.нар. научна област "Обработка на информацията", в която се правят проучвания от 50 години насам за начина на търсене. При проучванията се използват сигнали като честота на дадена дума, за да се класират резултатите. Към тях са добавени показатели като линковете към дадената страница, структура на страницата и още няколко други.

Забелязва се промяна в начина на търсене през последните 10 години - от принципа "покажи ми каквото казах" към "дай ми това, което искам". Нараснали са и изискванията на потребителите към резултатите, които получават. За да се оправдаят очакванията на всеки един, който търси информация в Интернет, екипът, стоящ за системата за класиране в Google, създава технологии, които да разбират трите основни компонента на търсене - разбиране на страниците, разбиране на заявките и разбиране на потребителите.

Разбиране на страниците

През цялото време, откакто съществува Google, ботът му обхожда интернет и индексира страниците (това не е тайна за никого, естествено). Основната цел е съдържанието, което се предлага на потребителите, да бъде свежо и актуално.

Едно от нещата, които са развити от екипа на Google, е възможността да се асоциира една страница от сайта с елементи, които не са видими на пръв поглед, споделя Сигхат. Като пример дава търсене с ключова фраза [cool tech pc vancouver, wa] - намерен е сайтът Cooltechpc.com, в който не се споменава изобщо, че фирмата, чиято собственост е, се намира във Ванкувър.

Подчертава се, че не всички думи за с еднаква тежест, има такива, които не са важни, и такива, които определят съдържанието. Освен това е разработен метод за оценка на "свежестта" на информацията в една страница.

Разбиране на заявките

Това е критичната точка в работата на екипа. За всеки е ясно, че да се достави най-добрия резултат за един конкретен потребител, трябва да се разбере какво има предвид той само в една / две / три думи. За тази цел е разработена система за предложения - както на база правописа на заявката, така и чрез използването на синоними.

Най-често потребителите се възползват от системата за предложения на базата на правописа. На всеки му се е случвало да обърка един или два символа от думата, с която търси информация. Автоматично се зареждат няколко предложения - думи със сходен начин на изписване, в повечето случаи правилната форма на думата, преди списъка с резултати. Преди предложенията има едно "Did you mean: ...". Тя работи на всички езици, на които е достъпна търсачката.

Използването на синоними за разбиране на заявките, е нещото, което е задачата, която са си поставили на първо място. Сигхат определя именно това като най-големия проблем, срещу който се изправя екипа, за който отговаря. Системата за синоними, на практика, действа по следния начин - при задаване на определена ключова фраза, тя й прави произволни модификации. Какво се има предвид - при търсене с DR Zhivago се знае, че става дума за титлата "доктор", а при Rodeo Dr - че Dr е съкращение на английската дума "drive".

Концептуалната идентификация също е една от основните технологии, които подпомагат разбирането на заявките за търсене. Какво означава това? Примерите тук са следните:

"Например, нашият алгоритъм разбира, че при заявка [ney york times sqare chirch] се има предвид известната църква, намираща се на Times Square, а не някаква статия от едноименното издание. Ние не сме спрели само до идентификацията на концепцията на една заявка, а отиваме и по-надълбоко. Например, ако се търси с [PC and its impact on people], се има предвид impact of computers on society."

Всяка една от трите основни технологии са разработени на голяма част от езиците, които Google поддържа.

Разбиране на потребителите

В основата на това стои принципът "най-добрите резултати на местно ниво". Това означава, че при една и съща заявка, направена от различни точки на света, ще се покаже в повечето случаи различни резултати. Например ако се търси с ключова дума "bank" - американският потребител ще получи информация за американските банки, британецът - за британските, канадецът - канадските и т.н. Това важи за англоговорящите държави.

А за останалите езици? Амит споделя, че тук започва забавната част, особено когато се отнася за страни като Египет, Израел, Русия, Саудитска Арабия и Швейцария.

"Да вземем за пример заявката [football] - думата обозначава напълно различни спорта, що се отнася до страни като Австралия, Великобритания и САЩ. Този пример показва нашите достижения в локализирането на резултатите - във всяка една от трите страни се показват резултатите, които се отнасят за конкретния спорт.

Друг пример е, когато една и съща дума означава различни неща в отделните държави - фразата [Côte d'Or] е географски район във Франция, но в Белгия това е производител на шоколадови изделия."

Персонализацията на резултатите също е от голямо значение. Тя играе роля само в случаите, в които използвате услугата Web History и сте се логнали в акаунта си, докато търсите информация чрез Google. При персонализираните резултати се има предвид историята на търсене на всеки потребител.

"Ако сте търсили повече информация за футбол и изпращате заявка [giants], ще получите като резултати всички страници, свързани именно с футбола, докато други могат да получат като резултат информация за бейзболния отбор," споделя Амит.

За да отговорят на изискванията на потребителите, от Google разработиха и Универсалното търсене - в страниците с резултатите се показват не само документи, но и изображения, видео, продукти.

CLIR - Cross Language Information Retrieval

Това е последният проект, върху който работи екипа, а именно извеждане на резултати, които не са на езика, на който търси потребителя - "кръстосана езикова обработка на информацията". Примерът, който е даден в поста е с търсене на информация за Тони Блеър на руски. В долната част на страницата с резултатите се извежда съобщение - "Прегледайте резултати, преведени от английски за [заявката - в случая Тони Блеър] (написана заявката на английски)"

CLIR - Cross Language Information Retrieval

Същото е и ако един арабскоговорящ търси дадена фраза (на арабски). Ето какво получава потребителят, след като кликне върху линка. (В случая търсената фраза е Песни от филми на Дисни).

CLIR - Cross Language Information Retrieval

Всяко едно от споменатите неща, както в тази, така и в предишната статия, се вземат предвид при класирането на резултатите от търсене в Google.

Е, не ни разкриват големите си тайни, както написа Китен в коментар под статията "Приниципите на класиране на документите в Google ", "ако ни информира за алгоритъма на търсачката ще работи на някоя сергия за домати", но все пак дават някакви насоки. Искам да доуточня още нещо, не става дума за споделяне на алгоритъма за класиране, а за особеностите на самата система.


Категория: Статии, SEO

Тагове: търсачка, Google, класиране

Публикувано на 18 Юли 2008 от vessi

Коментари: 0





Споделете статията:         

Добави коментар


Име:


Email:


URL:


Код:


Коментар:


Оставащи символи:

Коментари






ВАШЕТО МНЕНИЕ Е ВАЖНО

Споделете с нас вашите предложения и мнения за VisionForWeb. Споделете с нас вашите предложения и мнения за VisionForWeb.com.


 

SEO CTR PPC CPC RSS AdWords Web 2.0 AdSense YouTube Yandex SERP Alta Vista SEM Google Yahoo Ask Alexa MSN Bookmarks Social Bookmarking PR Microsoft

 

Vision for Web • Начало • Статии • Новини • Анализи • Интервюта • За нас • RSS • Условия за ползване • Основни понятия • SEO инструменти • Контакт
Препоръчваме • Огнян Младенов • devstorming.com • techcrunch.com • novavizia.com • website.bg • dao.bg