Стаття передрукована з MarketPosition ™ Monthly October 2000 Issue
Деякі з Вас запитують: “Як мені заборонити ‘пошуковику № 1 індексувати сторінки, розроблені для’ пошуковика № 2. Відповідь полягає у використанні robots.txt. Є також інші причини для оберігання пошукових систем від індексації деяких або всіх сторінок на сайті. Тому я написав цю детальну статтю, щоб показати Вам, як зробити це, і уникнути загальних помилок.
Якщо Ви створюєте різні версії по суті одного і того ж дорвея або сторінки і кожен механізм пошуку індексує кожну копію сторінки, то Ви, в теорії, займаєтеся спамом. AltaVista особливо, як відомо, ненавидить дублікат або схоже зміст на сторінках. Тому, якщо Ви створюєте сторінки, які є занадто схожими, Ви піддаєтеся ризику отримати червону картку від пошукових машин. Практично, більшість людей не турбуються щодо наявності занадто великої кількості дублюючих сторінок, проіндексованих однією пошуковою системою, тому що вони не створюють величезні числа схожих сторінок. Якщо ваші сторінки змінюються досить в розмірі та числі слів, то Ви не повинні хвилюватися.
Якщо Ви сосредаточіваетесь насамперед на оптимізації існуючих сторінок на вашому сайті, які мають унікальноесодержаніе а не на створенні великої кількості нових сторінок, які є схожими, ви також уникнете будь-яких потенційних проблем. Інші люди просто сабміта сторінки, розроблені для певної пошуковий машини тільки пошуковику, для якого вони створені. Це найпростіший метод уникнути звинувачення в спамі пошукових систем. Це може працювати. Однак, будь-який інший робот будь-який інший пошукової системи також може знайти таку сторінку, навіть якщо її йому не сабміта.
Якщо ви хочете створити багато дорвеев, а вони неминуче будуть мати схоже зміст, оптимізованих під різні пошукові системи, вам необхідно використовувати файл robots.txt.
Цей файл може повідомити робота пошукової системи, який індексує сторінки, що йому не можна індексувати певні сторінки. Таким чином Ви можете формувати сторінки для пошукача А і повідомляти роботу пошуковика Б, щоб він їх ігнорував. Роботи зазвичай йдуть таким вказівкам, тому що це охороняє їх від індексації сторінок, які не звертаються до них. Крім того, пошукові системи мали проблеми з деякими компаніями, і справа навіть доходила до суду – щодо індексації захищених авторським правом матеріалів без дозволу власника авторського права. Найбільш важливий параметр пошукових систем для здатності індексувати захищений авторським правом матеріал без дозволу – те, що власник сайту завжди має можливість виключити їх індексацію, створюючи robots.txt. Тому, малоймовірно, щоб пошукові системи навмисно ігнорували б robots.txt, або що вони могли вплутатися в непотрібні юридичні проблеми. Вони могли б, теоретично кажучи, проіндексувати сторінка і потім, після перевірки robots.txt викинути сторінку з бази. Це може пояснювати звітну документацію, я отримував повідомлення від деяких людей, які стверджують, що павук ігнорував їх файл robots.txt, про що можна судити по логам сервера. Інше пояснення – те, що Webmaster використав неправильний синтаксис при створенні robots.txt. Тому двічі перевірте всі!
Я буду пробувати підкреслювати поширені помилки в цій статті. Будь ласка, не лякайтеся. Це не так важко, як здається. Є також метод, за допомогою якого ви можете все зробити відразу і більше ніколи не чіпати. Я поясню цей метод в кінці цієї статті.
Щоб створювати robots.txt, відкрийте Блокнот або будь-який інший редактора, який може зберігати простий ASCII. Txt файл. Використовуйте наступний синтаксис, щоб виключити ім’я файлу для певної пошукової машини:
User-agent: {SpiderNameHere}
Disallow: {FilenameHere}
Наприклад, щоб повідомити павуку Excite, який називається ArchitextSpider, що не індексувати файли з назвами orderform.html, product1.html, і product2.html, потрібно записати в robots.txt наступне:
User-agent: ArchitextSpider
Disallow: / orderform.html
Disallow: / product1.html
Disallow: / product2.html
Згідно специфікації на robots.txt, текст у ньому чутливий до регістру, так що Ви повинні записати User-agent, а не User-Agent. Чи викликає це проблему практично, я не можу говорити напевно. Щоб бути впевненим, дотримуйтеся вимог специфікацій. Крім того, переконайтеся, що Ви включаєте косу риску перед ім’ям файлу, якщо напилок знаходиться в кореневому каталозі. Рядок User-agent – ідентифікатор робота пошукової системи, якій ви забороняєте індексувати сторінку. Це подібно “кодованому назвою” для павука пошукової машини, которийіндексірует сторінки в Інтернеті. Ім’я робота може бути схоже на назву пошуковика, або повністю відрізнятися. Я перерахую офіційні назви User-agent осноних пошукових машин пізніше в цій статті. Як тільки Ви створили ваш robots.txt, цей текстовий файл потрібно завантажити в кореневого каталогу вашого сайту. Хоча robots.txt не є обов’язковим, більшість головних механізмів пошуку виконає його. Якщо Ви не маєте свого домену, а використовуєте субдомен або директорію усередині домена, то ваш robots.txt може бути не прочитаний, так як за стандартом робот перевіряє наявність його тільки в кореневому каталозі домену. Це ще одна причина вкласти капітал у ваше власне ім’я домену!
Ви можете додавати додаткові рядки, щоб виключити сторінки з інших пошуковиків, визначаючи параметр User-Agent знову в тому ж самому файлі, ставлячи за ним рядки Disallow. Кожне вхожденіеDisallow буде застосовано до останнього User-agent, який був визначений. Якщо Ви хочете виключити целийкаталог, використовуйте синтаксис:
User-agent: ArchitextSpider
Disallow: / mydirectory /
Загальна помилка полягає в тому, щоб поставити * після директивного назви, щоб вказати, що Ви хочете виключити всі файли в цьому каталозі. Однак, правильно буде НЕ включати ніяких зірочок і символів умовчання в поле Disallow. Згідно технічних вимог, мається на увазі, що запис вище відкине всі файли в “mydirectory”. Щоб закрити від індексування файл, названий product.htm в “mydirectory” підкаталозі, зробіть так:
User-agent: ArchitextSpider
Disallow: / mydirectory / product.htm
Ви можете виключати сторінки для ВСІХ павуків наступного записом:
User-agent: *
У рядків User-agent Ви МОЖЕТЕ використовувати зірочку як груповий символ. Щоб заборонити індексацію всіх сторінок на сайті, запишіть
Disallow: /
Ви використовуєте тільки косу риску, щоб вказати, що Ви хочете весь сайт. Не використовуйте зірочку тут. Важливо, щоб Ви не допускали помилок. Якщо Ви зробите помилки, це не може працювати, і Ви не будете знати це, покане буде занадто пізно! Можливо, що деякі пошукові системи можуть обробляти загальні варіації синтаксису без проблем. Однак, це не гарантує, що вони будуть все допускати розбіжності в синтаксисі. Тому не влаштовуйте собі проблем. Якщо в деякій точці Ви знаходите, що ваш синтаксис був неправильний, виправте проблему, і потім сабмітьте повторно. Пошукова машина повторно проиндексирует ваш сайт і виконає всі вказівки в robots.txt. Якщо Ви бажаєте включити коментар в robots.txt, Ви повинні перед ним поставити поставити # зразок наступного: # Here are my comments about this entry. Кожен набір Disallow має бути відокремлений порожнім рядком. Наприклад, для виключення різних сторінок з різних пошукових систем можна написати наступне:
User-agent: ArchitextSpider
Disallow: / mydirectory / product.htm
Disallow: / mydirectory/product2.htm
User-agent: Infoseek Disallow: / mydirectory/product3.htm Disallow: / mydirectory/product4.htm
Порожній рядок між двома групами записів необхідна. Якщо, з іншого боку, Ви хотіли б виключити один і той же набір файлів для більш ніж одного павука, можна написати наступне:
User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: / mydirectory / product.htm
Disallow: / mydirectory/product2.htm
Примітка щодо підкаталогів: Деякий Webmasters люблять організовувати дорвеи в різні підкаталоги, згідно пошукової системи для якої вони оптимізовані. Однак, деякі пошукові машини підозрюються в доданні нижчого рангу сторінкам, що знаходяться в підкаталогах в порівнянні з кореневим каталогом сайту. Якщо вони відчувають, що ті сторінки належать сайту, який розділяє домен з основним сайтом, вони можуть вважати такі сторінки, як є потенційно гіршої якості. Я запитував у трьох консультантів по пошуковим машинам їх думку щодо підкаталогів. Вони зійшлися на тому, що сторінки в кореневому каталозі ранжуються, ймовірно, краще, але вони не помічали доказів, що це викликало проблеми. Якщо Ви все ще турбуєтеся щодо зберігання сторінок в підкаталогах і бажали використовувати їх, Ви можете попросити хостінговую компанію надати вам субдомен, ведучий на підкаталог і використовувати субдомен для сабміта. Таким чином, загроза з боку пошуковиків зменшується, так як вони не бачитимуть підкаталог в URL. Крім того, Ви можете включати ключові слова в субдомен, від чого може також покращитися положення ваших сторінок. (Примітка: субдомен – зазвичай тільки “WWW.” Однак, в цій якості можна використовувати будь-яке слово, краще характеризує ваш сайт).
Нас часто запитують щодо правильних імен роботів. Назва робота не завжди відповідає назві механізму пошуку. Тому, Ви не можете просто написати Altavista в User-agent і чекати, що AltaVista виключить ваші позначені сторінки. Не питайте мене, чому не можна все зробити простіше. Можливо це – змова з боку професіоналів 🙂
У кожному разі, дискусії щодо правильних імен роботів є. Безлад походить від вебмайстрів, які переглядають логи сервера і бачать складні назви типу Scooter/2.0 GRAB X2.0, Infoseek Sidewinder/0.9, або Slurp/2.0. Назви роботів, перераховані у ваших логах – не обов’язково те, що Ви, як очікується, будете використовувати в robots.txt. Причина дуже проста, варто лише замислитися. Називати робота Infoseek Sidewinder/0.9 в robots.txt не дуже корисно, якщо пошукова система модифікує його програмне забезпечення і вирішує використовувати Infoseek Sidewinder/2.0 як їх нову назву в наступному місяці. Мало б сенс, щоб мільйони людей пізнавали це і модифікували б robots.txt для нової назви робота? Вони очікували б, що люди модифікують напилок, КОЖЕН РАЗ коли будь-яка пошукова система модифікував би версію робота і робити це точно, коли зміна назви сталося? Це малоймовірно. Насправді, назва, яке має бути в robots.txt – будь-яку назву, яке павук пошукової системи запрограмований шукати. Тому, найкраще джерело інформації для цієї назви – логи, а довідкова інформація безпосередньо від самої пошукової системи. У теорії, робот може шукати широке різноманіття варіацій назви. Однак, взагалі вони будуть просто шукати спільну найменший знаменник типу “Scooter” швидше ніж “Scooter/2.0”. Якщо пошукова система гнучка, вони дозволять Вам використовувати Scooter/2.0 також, але цьому не гарантують. Тому, якщо ви маєте вже установку robots.txt на вашому сайті, перевірте синтаксис і назви роботів проти списку нижче. Всі назви чутливі до регістру.
Більшість їх отримано безпосередньо від пошукових систем або від інших шанованих джерел:
Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp:
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp
Зверніть увагу, що багато з двигунів використовують “Slurp”, який є павуком Inktomi, використаним на HotBot та інших системах на базі Inktomi. На жаль, я не знаю спосіб, як Ви можете виключати сторінки з павука HotBot і не виключати їх з усіх інших Inktomi сайтів. Наскільки я можу повідомити, вони використовують того ж самого павука, щоб індексувати сторінки і таким чином читають тільки один рядок в robots.txt. Втім, якщо ви створюєте кілька сторінок, орієнтованих на Inltomi, то це не має великого значення, так як всі пошукові системи на цій базі ранжирують сторінки приблизно однаково.
Так дискримінують чи пошукові системи файли в підкаталогах? Консультанти, з якими я спілкувався так не думають. Тому, якщо Ви належним чином проектуєте холвей у вашому кореневий каталог, який зв’язується з дорвея у вашому підкаталозі, сабміта холвеі в пошукові машини, все має бути в порядку. Це демонструє системі, що сторінки, швидше за все є під-сторінками головного сайту. Крім того, це було б небезпечно для пошукових машин дискримінувати сторінки в підкаталогах, так як найбільш великі сайти повинні організувати свої сторінки в підкаталоги, щоб уникнути повного хаосу. В якості додаткової обережності, Ви можете призначати субдомени на підкаталоги, як я згадував раніше в цій статті.
Мій висновок: Якщо всі ваші сторінки мають гарний зміст і досить унікальні, не хвилюйтеся щодо robots.txt. Якщо Ви працюєте тільки над оптимізацією існуючих сторінок на вашому сайті, не хвилюйтеся щодо robots.txt. Якщо, проте, Ви вирішуєте, що вам потрібно експериментувати з більш ніж кількома сторінками, які є досить схожими, використовуйте robots.txt, особливо з AltaVista.
Нарешті, після створення вашого robots.txt, Ви можете перевірити його за допомогою безкоштовного сервісу на:
http://www.tardis.ed.ac.uk/ ~ sxw / robots / check /
Однак, я відчував цей сервіс на декількох файлах, і він іноді скаржився щодо речей, які були абсолютно правильні. Тому, цей сервіс, на мою думку, трохи глючить, що заважає його шшірокому використанню. Якщо він вказує на помилки у вашому файлі, зверніться до цієї статті або статті нижче, щоб перевірити, що це дійсно помилки. Для технічного обговорення robots.txt протоколу, дивіться:
Склав буду чекати бота ..
Половина поісковіковнеіндексіруют текст равнийцвету фону … дратувати …
Корисна інформація, будусмотреть що написано у нас наробітку 🙂
Я зрозумів одне. Писав чоловік (вірніше копіював з іншихджерел), який неразбірается в темі совершенно.Подтвержденіе того одна ізмногочісленних порожніх цитат “… На жаль, я не знаюспособ, як Ви можете ісключатьстраніци з павука HotBot і невиключає їх з усіх інших Inktomiсайтов …. ” і тому подобное.Еслі вже беретеся писати, ізучітетему попередньо, щоб, вибачте, «не пудрити мізки” людям.
Згодна з Володимиром. Темаабсолютно не розкрита. Полнийбред …
Про файл robots можна напісатьгораздо коротше і більш ємко. А На вашу думку статті жодна людина несможет скласти цей важнийфайл. Ви навіть не розкрили СУТЬнеобходімості файлу.
Ех, сумно читати статті людей, які абсолютно неразбіраются в темі: (