Пошукові системи складаються з п’яти окремих програмних компонент:
1. spider (павук): браузероподобная програма, яка завантажує веб-сторінки.
2. crawler: «мандрівний» павук, який автоматично йде по всіх посиланнях, знайденим на сторінці.
3. indexer (індексатор): «сліпа» програма, яка аналізує веб-сторінки, скачані павуками.
4. the database (база даних): сховище скачали і оброблених сторінок.
5. search engine results engine (система видачі результатів): витягує результати пошуку з бази даних.
Spider: Павук – це програма, яка завантажує веб-сторінки. Він працює точно як ваш браузер, коли ви з’єднуєтеся з веб-сайтом і завантажуєте сторінку. Павук не має жодних візуальних компонентів. Те ж дію (скачування) ви можете спостерігати, коли переглядаєте деяку сторінку і коли вибираєте «перегляд HTML-коду» у своєму браузері.
Crawler: Як і павук викачує сторінки, він може «роздягнути» сторінку і знайти всі посилання. Це його завдання – визначати, куди далі повинен йти павук, грунтуючись на посиланнях або виходячи із заздалегідь заданого списку адрес.
Indexer: Індексатор розбирає сторінку на різні її частини і аналізує їх. Елементи типу заголовків сторінок, заголовків, посилань, тексту, структурних елементів, елементів BOLD, ITALIC та інших стильових частин сторінки вичленяються і аналізуються.
Database: База даних – це сховище всіх даних, які пошукова система викачує і аналізує. Це часто вимагає величезних ресурсів.
Search Engine Results Engine: О, саме серце звіра. Саме система видачі результатів вирішує, які сторінки задовольняють запиту користувача. Це та частина пошукової системи, з який ви маєте справу, здійснюючи пошук.
Коли користувач вводить ключове слово і робить пошук, пошукова система відбирає результати на підставі постійно мінливих критеріїв. Алгоритмом називається метод, за яким вона приймає рішення. Професійні оптимізатори (SEO) іноді вживають термін «algos» – це і є те, про що ми говоримо.
Не дивлячись на те, що пошукові системи сильно змінилися, більшість досі відбирають результати пошуку на підставі приблизно таких критеріїв:
• Title (заголовок): Чи присутній ключове слово в заголовку?
• Domain / URL (Домен / адреса): Чи присутній ключове слово в імені домену або в адресі сторінки?
• Style (стиль): Жирний (STRONG або B), Курсив (EM або I), Заголовки HEAD: якщо місце на сторінці, де ключове слово використане в жирних, курсивних або Hx (H1, H2, …) текстових заголовках?
• Density (щільність): Як часто ключове слово вжито на сторінці? Кількість ключових слів щодо тексту сторінки називається щільністю ключового слова.
• MetaInformation (мета дані): Хоча багато заперечують, некорие пошукові системи до цих пір читають мета ключові слова (meta keywords) і мета опису (meta description).
• Outbound Links (посилання назовні): На кого є посилання на сторінці і чи зустрічається ключове слово в тесті посилання?
• Inbound Links (зовнішні посилання): Хто ще в Інтернет має посилання на даний сайт? Який текст посилання? Це називається «внестранічний» критерій, тому що автор сторінки не завжди може ним керувати.
• Insite Links (посилання всередині сторінки): На які ще сторінки даного сайту містить посилання ця сторінка?
Як бачите, пошуковій системі необхідно робити безліч уточнюючих запитів, використовуючи скачала сторінку цілком.
Це скорочена опису функціонування пошукової системи.