Как да използвам файла robots.txt | IMG IT Academy

Как да използвам файла robots.txt

В началото на лятото на интернет-маркетолозите отпразнуваха юбилея: 20 години на файла robots.txt. В чест на това Google разширява функционалността на инструментите за уебмастъри и добавя комплект за проверка на файла robots.txt …

Опитните маркетолози прекрасно знаят как да използват този файл, а за начинаещите специалисти ще дадем базова информация.

какво е robot.txt файл

Иване, ти направи ли ми файла robots.txt?

 

Защо се нуждаем от файла robots.txt ?

Във файла robots.txt се съдържа информация, която използват при паяците при сканиране на сайта. По специално от robots.txt паяците ще разберат кои раздели на сайта, типове страници или конкретни страници не трябва да се сканират.

С помощта на файла вие ще можете да изключвате от индекса съдържанието, което не искате да показвате на търсачките. Може също така да се предотврати индексирането на дублиране на съдържанието.

Ако използвате robots.txt погрешно, това може да ви струва скъпо. Погрешната забрана за сканиране ще изключи от индекса важни раздели, страници или дори съдържанието като цяло. В този случай, ще ви бъде трудно да разчитате на успешно предвижване на сайта.

Как да работим с robots.txt файла?

Текстовия файл robots.txt съдържа инструкция за системите роботи. Обикновено го използват за забрана на сканиране на служебните раздели в сайта, дублирано съдържание или публикации, които не са предназначени за всяка аудитория.

Ако не ви се налага да затваряте за сканиране някое съдържание вие може да не запълвате robots.txt. В този случай записа във файла ще изглежда така:

User-agent: *

Disallow:

Ако по някаква причина се налага напълно да блокирате сайта за търсачките, записа във файла ще изглежда така:

User-agent: *

Disallow: /

За да използвате правилно robots.txt, трябва да имате представа за нивото на директиви:

  • Ниво на страницата. В този случай, директивата изглежда така: Disallow (Забрани): /primerpage.html.Забрани:
  • Ниво на папките. На това ниво директивите се записват така: Disallow: / например-папка / – /example-folder/.
  • Типът съдържание. Например, ако вие не искате роботи да индексира файлове в .pdf, използвайте следната директива: Disallow (внимавай): /*.pdf.

Не забравяйте най-често срещаните грешки при съставянето на robots.txt:

  • Пълна забрана за индексиране на вашия сайт от търсачките

В този случай, директивата е, както следва:

User-agent: *

Disallow: /

Защо ще създавате уеб сайт, ако не позволявате на търсачките да го сканират? Използването на тази директива е уместно в процес на разработване или подобряване на сайта.

  • Забрана за сканиране на индексирано съдържание

Например, един уеб-майстор може да забрани сканирането на папки с видео и изображения:

Disallow: /images/

Disallow: /videos/

Трудно е да си представим ситуация, в която забраната за сканиране на индексирано съдържание би било оправдано. Обикновено такива действия лишават сайта на движението.

  • Използване на атрибута allow (позволи)

Това действие няма никакъв смисъл. Търсачките по подразбиране сканират целия достъпен материал. С помощта на файла robots.txt, може да се предотврати сканирането, но да се разрешава нещо да се сканира не е нужно.

Инструмент за проверка на файла robots.txt

В средата на юли, Google въведе инструмент за проверка на файла robots.txt, достъпен в панела за уебмастъри. За да го намерите, използвайте менюто “Toolbar – Сканиране – инструмент за проверка на файла robots.txt“

Инструмент за проверка на файла robots.txt 

Как да намерим новия инструмент ?

Новия инструмент изпълнява следните задачи:

  • Показва текущата версия на файла robots.txt.
  • Редактиране и заверка на robots.txt файл директно в панела за уебмастъри.
  • Преглеждане на старите версии на файла.
  • Проверка на блокираните URL.
  • Преглеждане на съобщения за грешки на файла robots.txt.

Интерфейс на инструмента за проверка на файла robots.txt

Интерфейс на инструмента за проверка на файла robots.txt

Ако Google не индексира отделни страници или цели раздели от вашия сайт, новият инструмент ще ви помогне за няколко секунди, да проверите дали това се дължи на грешки на файла robots.txt. Според експерта Google – Асаф Арнон, инструментът подчертава конкретната директива, която води до блокиране на индекса на съдържание.

Инструмента подчертава специфичните директиви, които водят до блокиране на индексиране

Инструмента подчертава специфичните директиви, които водят до блокиране на индексиране

 

Можете да правите промени във вашия файл robots.txt и да проверите неговата правилност. Достатъчно е да осигурите вашето URL и да натиснете “Провери”.

Говорителят на Google –  Джон Милър препоръчва на всички собственици на уебсайтове, да проверят файла robots.txt с новия инструмент. По мнение на експерта, за няколко секунди проверка, уебмастера ще идентифицира критични грешки, които пречат на робота Google.

За да използвате правилно …

…. файла robots.txt, трябва да се разбере неговия практически смисъл.Този файл служи за ограничаване на достъпа към сайта за търсачките. Ако искате да забраните на робота да сканира страница, раздел от сайта или тип съдържание, попълнете в съответната директива на robots.txt. Проверете верността на използването на файла с помощта на новия инструмент достъпен в панела за уебмастъри Google. Това ще ви помогне бързо да откривате и коригирате грешки, и да направите необходимите промени в файла robots.txt.

robots.txt file