Robots.txt Disallow: kako stvoriti, značajke i preporuke

Dobivanje na tečajevima o promociji SEO-a, početnici se susreću s puno razumljivih i vrlo loših pojmova. U svemu tome, nije tako lako razumjeti, pogotovo ako je jedan od elemenata u početku slabo objašnjen ili propušten. Razmislite o vrijednosti u datoteci robots.txt Disallow za koju trebate ovaj dokument, kako ga izraditi i raditi s njom.

sadržaj

Jednostavnim riječima
Standard
Karta web mjesta
Korištenje
Za što?
Smjernice
Posjetnica
Zabrana
Dozvola
Ogledala
Navigator
Dodatne naredbe
Univerzalan
Greške
Nalazi

Jednostavnim riječima

Kako ne bi "hranili" čitatelja složenim objašnjenjima koja se obično pojavljuju na specijaliziranim stranicama, bolje je objasniti sve "na prstima". Pretraživanje robota dolazi na vašu stranicu i indeksira stranice. Nakon toga vidite izvješća koja ukazuju na probleme, pogreške itd. roboti txt zabranjuju

No, na web stranicama postoje i takve informacije, što nije obvezno za statistiku. Na primjer, stranica "O tvrtki" ili "Kontakti". Sve to nije nužno za indeksiranje, au nekim slučajevima i nepoželjno, jer može narušiti statističke podatke. Da bi se to dogodilo, bolje je zatvoriti ove stranice iz robota. To je ono što je naredba u robots.txt disallow datoteci.

standard

Ovaj je dokument uvijek na web stranicama. Njegovo stvaranje obrađuju programeri i programeri. Ponekad vlasnici resursa mogu to učiniti, pogotovo ako je mali. U ovom slučaju, rad s njim ne traži mnogo vremena.

Robots.txt se naziva standardom isključivanja za alat za indeksiranje. Prikazana je dokumentom u kojem su propisana glavna ograničenja. Dokument se nalazi u korijenu resursa. U tom slučaju, tako da se može pronaći na putu "/robots.txt". Ako resurs ima nekoliko poddomena, ta se datoteka smješta u korijen svakog od njih. Standard se kontinuirano povezuje s drugim - Sitemapovima.

Karta web mjesta

Da biste shvatili cjelovitu sliku onoga što je u pitanju, nekoliko riječi o Sitemapovima. Ovo je datoteka zapisana u XML-u. Pohranjuje sve podatke resursa za MS. Prema dokumentu možete saznati o web stranicama koje indeksiraju roboti. odbiti direktivu robota txt

Datoteka daje PS brzom pristupu bilo kojoj stranici, pokazuje najnovije promjene, učestalost i važnost njih. Za ove kriterije, robot najbolje ispravno skenira stranicu. Ali važno je shvatiti da prisutnost takve datoteke ne daje povjerenje da će sve stranice biti indeksirane. On je više trag procesu.

korištenje

Točna datoteka robots.txt koristi se dobrovoljno. Standard se pojavio tek 1994. godine. Prihvaća ga konzorcij W3C. Od tog trenutka se koristi u gotovo svim tražilicama. Potrebno je za "doziranu" korekciju skeniranja resursa robota za pretraživanje. Datoteka sadrži skup uputa koje koriste MS.

Zahvaljujući setu alata, lako je instalirati datoteke, stranice, direktorije koji se ne mogu indeksirati. Robots.txt također ukazuje na takve datoteke, koje treba provjeriti odjednom.

Za što?

Unatoč činjenici da se datoteka uistinu može upotrijebiti dobrovoljno, gotovo ga sve stranice kreiraju. To je neophodno kako bi se pojednostavio rad robota. Inače će provjeriti sve stranice slučajnim redoslijedom, a osim toga može preskočiti i neke stranice, stvara značajno opterećenje resursa.

Također se datoteka koristi za skrivanje očiju tražilice:

Stranice s osobnim podacima posjetitelja.
Stranice na kojima postoje obrasci slanja podataka itd.
Ogledalo stranica.
Stranice s rezultatima pretraživanja.

Korisnik robota txt ne dopusti

Ako ste specificirali Disallow u robots.txt za određenu stranicu, postoji vjerojatnost da će se i dalje pojavljivati u SERP-u. Ta se mogućnost može dogoditi ako se veza na takvu stranicu nalazi na jednom od vanjskih izvora ili unutar vaše web-lokacije.

smjernice

Govoreći o zabrani tražilice, često se koristi koncept "direktive". Taj je termin poznat svim programerima. Često se zamjenjuje sinonimom za "pokazivanje" i koristi se zajedno s "naredbama". Ponekad se može prikazati skupom konstruktora programskog jezika.

Direktiva o zabrani u robots.txt jedan je od najčešćih, ali ne i jedini. Osim nje, postoji i nekoliko drugih koji su odgovorni za određene smjerove. Na primjer, postoji agent korisnika koji prikazuje robote tražilice. Dopusti je suprotna naredba Disallow. Označava dopuštenje za skeniranje nekih stranica. Dalje, pogledajmo glavne naredbe detaljnije.

Posjetnica

Naravno, robus.txt User agent Disallow nije jedina direktiva, ali jedna od najčešćih. To je ono što čini većinu datoteka za male resurse. Poslovna kartica za bilo koji sustav je i dalje naredba za korisnika. To je pravilo osmišljeno da ukazuje na robote koji gledaju upute koje će kasnije biti napisane u dokumentu.

Sada postoji 300 robota za pretraživanje. Ako želite da svaki od njih slijedi određenu oznaku, ne biste ih trebali ponovo napisati malo vjerojatnim. Dovoljno je navesti "User-agent: *". "Zvjezdica" u ovom slučaju pokazat će sustave da se sljedeća pravila izračunavaju za sve tražilice.

Ako izradite upute za Google, morate odrediti naziv robota. U tom slučaju upotrijebite Googlebot. Ako dokument određuje samo taj naziv, ostatak tražilica neće prihvatiti naredbe robots.txt datoteke: Disallow, Allow itd. Pretpostavit će da je dokument prazan i da za njih nema nikakvih uputa. zabraniti robote txt zabraniti indeksiranje

Potpuni popis naziva botova može se naći na Internetu. Vrlo je dugo, pa ako trebate upute za određene Googleove usluge ili Yandex, morat ćete navesti određena imena.

zabrana

O sljedećem timu, mnogo smo puta rekli. Disallow upravo ukazuje na koje podatke robot ne treba pročitati. Ako želite prikazivati sve tražilice, samo napišite "Disallow:". Tako će roboti skenirati sve stranice vašeg resursa.

Puna zabrana indeksiranja u robots.txt "Disallow: /". Ako pišete ovako, roboti uopće neće skenirati resurs. Obično se to događa u početnim fazama, u pripremi za pokretanje projekta, eksperimenata itd. Ako je web mjesto već spremno za prikazivanje, promijenite tu vrijednost kako bi ga korisnici mogli upoznati.

Općenito, tim je univerzalan. Može blokirati određene elemente. Na primjer, mapa s naredbom "Disallow: / papka /" može odbiti vezu, datoteku ili dokumente određene dozvole za skeniranje.

dozvola

Da biste robotu omogućili pregled određenih stranica, datoteka ili direktorija, upotrijebite Dopusti smjernicu. Ponekad je tim potreban tim da robot posjeti datoteke iz određenog dijela. Na primjer, ako je riječ o online trgovini, možete odrediti direktorij. Preostale stranice neće biti skenirane. Ali zapamtite da najprije morate spriječiti da web mjesto pregleda sav sadržaj i nakon što odredite naredbu Dopusti s otvorenim stranicama. što znači odbijanje robota txt

ogledala

Još jedna direktiva domaćina. Nisu svi webmasteri to koriste. Potrebno je u slučaju da vaš resurs ima ogledala. Zatim je to pravilo obvezno jer ukazuje na robot "Yandex" na kojem je od zrcala glavni i što treba skenirati.

Sustav se ne gubi samostalno i lako pronalazi potrebni resurs prema uputama koje su opisane u robots.txt. U datoteci se stranica registrira bez navođenja "http: //", ali samo ako funkcionira na HTTP-u. Ako upotrebljava HTTPS protokol, navedeni je prefiks. Na primjer, "Host: site.com" ako je riječ o HTTP-u ili "Host: https://site.com" u slučaju HTTPS-a.

navigator

Već smo govorili o Sitemapu, ali kao zasebnu datoteku. Gledajući pravila pisanja robots.txt s primjerima, vidimo upotrebu takve naredbe. Datoteka je označena s "Sitemap: https://site.com/sitemap.xml". To je učinjeno kako bi se osiguralo da je robot provjerio sve stranice navedene na karti web mjesta na adresi. Svaki put kada se vrati, robot će vidjeti nova ažuriranja, promjene koje su napravljene i brže slanje podataka na tražilicu.

Dodatne naredbe

To su bile glavne smjernice koje upućuju na važne i neophodne naredbe. Postoji manje korisnih, a ne uvijek primjenjivih uputa. Na primjer, Zakašenje indeksiranja određuje razdoblje koje će se koristiti između učitavanja stranice. To je potrebno za slabe poslužitelje, kako ih ne bi "stavili" invazijom robota. Sekundi se koriste za određivanje parametra.

Clean-param pomaže izbjeći dupliciranje sadržaja, koji se nalazi na različitim dinamičnim adresama. Pojavljuju se ako postoji neka vrsta funkcije. Takva naredba će izgledati ovako: "Clean-param: ref / catalog / get_product.com".

univerzalan

Ako ne znate kako stvoriti pravo robots.txt, to nije zastrašujuće. Pored uputa, postoje i opcije za ovu datoteku. Može se postaviti na gotovo bilo koje mjesto. Izuzetak može postati samo glavni resurs. No, u ovom slučaju, stručnjaci bi trebali znati o datoteci, a posebni ljudi bi se trebali angažirati. kako stvoriti pravi robots txt

Univerzalni skup direktiva omogućuje vam otvaranje sadržaja web mjesta za indeksiranje. Postoji registracija domaćina i označena je mapa web mjesta. To omogućuje robotima da uvijek posjete stranice koje su potrebne za skeniranje.

Ulov je da se podaci mogu razlikovati ovisno o sustavu na kojem se vaš resurs nalazi. Stoga bi pravila trebala biti odabrana, gledajući vrstu web mjesta i CMS. Ako niste sigurni da je datoteka koju ste izradili ispravna, možete provjeriti Googleov alat za webmastere i "Yandex".

greške

Ako razumijete što Disallow znači u robots.txt, to ne jamči da se nećete pogriješiti prilikom izrade dokumenta. Postoji niz uobičajenih problema s iskustvom neiskusnih korisnika.

Vrijednosti direktive često su zbunjene. To može biti zbog nesporazuma i neznanja uputa. Možda je korisnik samo previdio i neprimjetno pomiješan. Na primjer, mogu koristiti vrijednost "/" za User-agent i za naziv robota za Disallow.

Enumeriranje je još jedna uobičajena pogreška. Neki korisnici smatraju da bi popisivanje zabranjenih stranica, datoteka ili mapa trebalo biti navedeno u red za redom. Zapravo, za svaku zabranjenu ili dopuštenu vezu, datoteku i mapu, morate ponovno zapisati naredbu i novu liniju.

Pogreške mogu biti uzrokovane pogrešnim nazivom datoteke. Zapamtite da se nazivaju "robots.txt". Koristite donji dio za ime, bez varijacija vrste "Robots.txt" ili "ROBOTS.txt". robots txt pravila s primjerima

Polje korisnika-agent mora uvijek biti popunjeno. Nemojte napustiti ovu direktivu bez naredbe. Vraćajući se natrag domaćinu, imajte na umu da ako web mjesto koristi HTTP protokol, ne mora se navesti u naredbi. Samo ako je proširena verzija svojeg HTTPS-a. Ne možete napustiti Direktivu zabrane bez vrijednosti. Ako ga ne trebate, jednostavno ga ne odredite.

nalazi

Ukratko, vrijedno je spomenuti da robots.txt predstavlja standard koji zahtijeva preciznost. Ako se niste nikad susreli, tada će u prvim stadijima stvaranja imati mnogo pitanja. Bolje je dati ovaj rad webmasterima, budući da uvijek rade s dokumentom. Osim toga, može doći do promjena u percepciji direktiva tražilicama. Ako imate malu web-lokaciju - malu online trgovinu ili blog - onda će biti dovoljno proučiti to pitanje i uzeti jedan od univerzalnih primjera.

Dijelite na društvenim mrežama:

Povezan