Разликата между (No)index и (No)follow

Формати:

В това видео разясняваме едни от най-честите грешки при използването на (No)index и (No)follow контролите. Каква е разликата между тях и кои са случаите в които трябва да се използват? Как правилно да деиндексираме излишните страници от сайта си, без да навредим на оптимизацията му? Още в следващото видео.

Транскрипция

Здравейте! Аз съм Васил Тошков от Cloxy, а темата днес са контролите при индексиране на една страница Noindex и контролът за проследяване Nofollow. Целта на темата ми е да обърна внимание на един въпрос, който много често ми се задава. Той е - "Каква е разликата между Noindex и Nofollow?" Между тях има разлика. Те не са взаимозаменяеми. Всяка от тях си има конкретна цел. Името им говори достатъчно, но често не се разбира.

Първо да кажа, че тези контроли (аз така ги наричам), могат да се сложат по два начина в документа. Първият вариант е в head частта, чрез meta tag robots. Вторият вариант е чрез HTTP header, който се нарича X-Robots-Tag. Всичките варианти на тези контроли са 4.

Първият вариант е index, follow. Всяка страница по подразбиране е index, follow, така че няма нужда да го описваме, но ако искате може да го описвате. Това означава, че искаме страницата да се индексира и връзките от нея, в изходящите, да се проследяват. По-точно да имат някаква тежест към всички останали страници.

Вторият вариант е вариантът, който 99 % ще ви се налага да използвате и няма нужда от другите варианти или поне те са прекалено частни случаи. Това е вариантът noindex, follow. Той се използва, когато искаме да деиндексираме дадена страница от нашия сайт, но в същото време връзките от нея да имат някаква тежест.

Примерно имаме една уеб страница, която искаме да деиндексираме. Това е някакъв архив по месеци или някакъв таг, който е с дублирано съдържание. Това няма никакво значение. Това, което искаме ние и това е най-честия случай, когато контролираме индексиране, е тази страница да бъде деиндексирана. Това значи въобще да не се класира в търсачките.

Това е правилно, тъй като няма защо даден потребител от търсачките да попада на втора страница от вашето страниране или на някаква стара страница с архиви. Те търсят нещо конкретно и искат да попаднат на нещо конкретно. Чрез Noindex казваме тя да не се индексира. Грешката, която тук се прави е понякога се прави noindex, nofollow и след малко ще кажа защо е опасно това нещо.

Деиндексиране правим чрез noindex, follow или просто с noindex, тъй като всички страници по подразбиране са follow. Ако го споменете само като noindex, независимо по кой от двата начина ще го правите, е идеален вариант да се деиндексира една страница и въпреки това ботът да не се спира да минава през нея, което е много важно. Ние не искаме да спираме ботът в нашия сайт. Веднъж дошъл на нашия сайт, независимо на коя търсачка е бот, ние искаме той да обхожда колкото се може по-голяма част от сайта, да намира ново съдържание и да го класира.

Третият вариант, който аз лично никога не съм срещал да се използва, но има такава опция - index, nofollow. Това говори, че искаме въпросната страница да се индексира, но всички връзки от нея, които са изходящи по никакъв начин да не се проследяват. Не виждам никаква смислена логика да се използва този вариант, тъй като най-вероятно някои от тези връзки ще са и входящи, тоест вътрешни връзки за сайта и биха спрели ботът да индексира самия сайт.

Ако приемем, че имаме някакъв вариант качен HTML документ, който е стандартен, като Word формат - заглавие и съдържание. В този HTML документ има връзки, които примерно съм към нещо, което описваме, но не искаме да линкваме, например на някаква негативна статия против нещо, тогава наистина има логика да се използва този вариант.

Четвъртият вариант от комбинацията е noindex, nofollow. Много хора го използват, когато искат да неиндексират съдържание, въпреки че аз лично не го препоръчвам, защото това означава нашата страница първо да не се индексира и второ - връзките от нея отново да не се проследяват по никакъв начин.

Недостатъкът е, че примерно (същото нещо се отнася и за robots.txt), моят съвет е да не се използва нито този вариант, нито robots.txt вариант. Аз съм казвал, че единственото полезно нещо на robots.txt файловете, че може да сложим връзка към XML картата на сайта си. За друго не става.

За друго - ако искате да деиндексирате съдържание noindex, follow има достатъчно начини да го направите. Да се върнем на тези два варианта, които са много опасни от SEO гледна точка. Представете си, че имаме една страница, някаква секция от сайта, може да е една страница, може да са много страници и поради някаква причина искаме да ги деиндексираме.

В същото време тези страници са стари, с годините са получавали някакви входящи връзки към себе си, което е напълно нормално. Всяка една страница в Интернет, всеки един сайт, колкото и да не е било популярно, различни системи го линкват, било то и автоматично.

Ако използваме този вариант с noindex, nofollow или robots.txt и забранявайки дадена страница или секция от страницата, това което се случва е, че ние забраняваме всички, освен да се индексира тази страница, всички връзки да се проследяват. Това, което се случва е, че ние се отказваме и от входящите си връзки.

Представете си, че тази страница има примерно pagerank 5 и дори да не е актуална, тя има връзки към себе си. Слагайки, noindex, nofollow или забранявайки я с robots.txt, тогава ние я забраняваме и за индексиране и за обхождане.

Отказваме се и от тези връзки, техния, да го нарека, pagerank, въпреки че те са други различни положителни метрики.. и всякакви такива неща, ще ги загубим, защото те няма да могат да се предадат към другите страници от нашия сайт, от които е нормално тази секция или страница да има връзки. Мисля, че трябва да е станало ясно.

Отново повтарям варианта, който 99 % ще ви се налага и въобще моят съвет е да не се използва друг, е просто да се използва noindex, follow или само noindex, тъй като по подразбиране е follow. Тогава старите ни връзки, които имаме към сайта си, това, че не се индексира дадена страница не означава, че pagerank и че всичко останало няма да се предаде на останалите страници. Просто казваме да не се индексира.

Noindex се използва, както вече споменах, и при страниране. Примерно от втора страница нататък при едно страниране(винаги съм казвал и ще продължа да го правя), трябва всички страници да са деиндексирани. Те трябва да се деиндексирани, защото няма защо някой да попада на пета страница от едно страниране, да не говорим, че ако сайтът е дори малко активен, когато той попадне на пета страница, това ще е стар кеш и съдържанието, което вече го интересува ще е на шеста, седма страница.

При едно страниране не е фатално да имаме noindex. Много хора ги е страх и казват "Добре, аз като сложа noindex, как Google ще продължи да индексира и как ще намери примерно статиите, които вече са отишли на пета страница?" Много е просто. То е follow. Това, че сме казали noindex на пета страница от нашето страниране, не означава, че Google ботът ще спре.

Точно това е идеята на follow. Google бот си слага една отметка, един флаг - "Да, няма да индексирам тази страница", но знае да продължи да индексира трета, четвърта, пета и т.н. страници и всички, които тя линква. Моят съвет, като втори, е аз лично се старая и никога не използвам nofollow. Nofollow, освен в тези двата варианта може да се сложи и като релация на връзките.

Аз не виждам никаква реална и полезна причина да се използва, освен ако не пишем нещо против конкуренцията си и искаме да я линкваме. Но защо да я линкваме? Няма никаква логика, но има други подобни случаи. Аз не съм фен на nofollow и никога не съм бил. За мен в Интернет трябва всички връзки да са отворени, който си иска да е свободен, дори да го проследяват. Моят съвет е просто не използвайте nofollow.

При този вариант, тъй като той е стандарт наложен насила от Google, не е дошъл от свободната общност на всички оптимизатори или на някакви други хора, които искат по някакъв начин да подобрят Интернет. Моят съвет е навсякъде използвайте noindex и тогава остават тези два варианта, който наистина е полезен и наистина, чрез него може да деиндексираме всяка една страница.

Не използвайте robots.txt, тъй като при него реално погледнато, дори да забраним една страница, това не означава, че тя няма да се индексира. Протоколът е много стар и дори да е забранена една страница с robots, тя, ако има връзки към себе си отново ще бъде индексирана, просто няма да бъде взимана информация от нея.

В смисъл при robots варианта ние казваме на ботът "Ти нямаш право да стъпваш на тази страница!", но това не означава, че Google и ботът няма да могат да съберат данни от останалата част от Интернет и да индексират отново тази страница, както се случва при разни Google бомби. Ако проучите, има много такива примери. Надявам се всичко това да е полезно. До следващия път. Чао за сега!