Hvordan blokkere et nettsted fra å indeksere i robots.txt: instruksjoner og anbefalinger

Innholdsfortegnelse:

Hvordan blokkere et nettsted fra å indeksere i robots.txt: instruksjoner og anbefalinger
Hvordan blokkere et nettsted fra å indeksere i robots.txt: instruksjoner og anbefalinger
Anonim

Arbeidet til en SEO-optimaliserer er veldig storskala. Nybegynnere anbefales å skrive ned optimaliseringsalgoritmen for ikke å gå glipp av noen trinn. Ellers vil kampanjen neppe bli k alt vellykket, siden siden stadig vil oppleve feil og feil som må rettes i lang tid.

Et av optimaliseringstrinnene er å jobbe med robots.txt-filen. Hver ressurs bør ha dette dokumentet, fordi uten det vil det være vanskeligere å takle optimalisering. Den utfører mange funksjoner som du må forstå.

Robot Assistant

Robots.txt-filen er et vanlig tekstdokument som kan vises i systemets standard Notisblokk. Når du oppretter den, må du sette kodingen til UTF-8 slik at den kan leses riktig. Filen fungerer med http-, https- og FTP-protokoller.

Dette dokumentet er en assistent for å søke roboter. I tilfelle du ikke vet det, bruker hvert system "edderkopper" som raskt gjennomsøker World Wide Web for å returnere relevante nettsteder for søk.brukere. Disse robotene må ha tilgang til ressursdataene, robots.txt fungerer for dette.

For at edderkoppene skal finne veien, må du sende robots.txt-dokumentet til rotkatalogen. For å sjekke om nettstedet har denne filen, skriv inn "https://site.com.ua/robots.txt" i adressefeltet til nettleseren. I stedet for "site.com.ua" må du angi ressursen du trenger.

Arbeider med robots.txt
Arbeider med robots.txt

Dokumentfunksjoner

robots.txt-filen gir crawlere flere typer informasjon. Det kan gi delvis tilgang slik at "edderkoppen" skanner spesifikke elementer av ressursen. Full tilgang lar deg sjekke alle tilgjengelige sider. Et fullstendig forbud forhindrer roboter i å begynne å sjekke, og de forlater nettstedet.

Etter å ha besøkt ressursen, mottar "edderkopper" et passende svar på forespørselen. Det kan være flere av dem, alt avhenger av informasjonen i robots.txt. For eksempel, hvis skanningen var vellykket, vil roboten motta koden 2xx.

Kanskje nettstedet har blitt omdirigert fra en side til en annen. I dette tilfellet mottar roboten koden 3xx. Hvis denne koden forekommer flere ganger, vil edderkoppen følge den til den mottar et nytt svar. Selv om han som regel bare bruker 5 forsøk. Ellers vises den populære 404-feilen.

Hvis svaret er 4xx, har roboten lov til å gjennomsøke hele innholdet på nettstedet. Men når det gjelder 5xx-koden, kan sjekken stoppe helt, siden dette ofte indikerer midlertidige serverfeil.

Søk roboter
Søk roboter

Hva fortrenger du robots.txt?

Som du kanskje har gjettet, er denne filen robotens guide til roten til nettstedet. Nå brukes den til delvis å begrense tilgangen til upassende innhold:

  • sider med personlig informasjon om brukere;
  • speilsider;
  • søkeresultater;
  • datainnsendingsskjemaer osv.

Hvis det ikke er noen robots.txt-fil i nettstedets rot, vil roboten gjennomsøke absolutt alt innhold. Følgelig kan uønskede data vises i søkeresultatene, noe som betyr at både du og nettstedet vil lide. Hvis det er spesielle instruksjoner i robots.txt-dokumentet, vil "edderkoppen" følge dem og gi ut informasjonen ønsket av eieren av ressursen.

Jobber med en fil

For å bruke robots.txt til å blokkere nettstedet fra indeksering, må du finne ut hvordan du oppretter denne filen. For å gjøre dette, følg instruksjonene:

  1. Opprett et dokument i Notepad eller Notepad++.
  2. Angi filtypen ".txt".
  3. Skriv inn nødvendige data og kommandoer.
  4. Lagre dokumentet og last det opp til nettstedets rot.

Som du kan se, er det på et av stadiene nødvendig å sette kommandoer for roboter. De er av to typer: tillate (Tillate) og forbyde (Disallow). Noen optimerere kan også spesifisere gjennomgangshastighet, vert og kobling til ressursens sidekart.

Hvordan lukke et nettsted fra indeksering
Hvordan lukke et nettsted fra indeksering

For å begynne å jobbe med robots.txt og fullstendig blokkere siden fra å indeksere, må du også forstå symbolene som brukes. For eksempel i et dokumentbruk "/", som indikerer at hele nettstedet er valgt. Hvis "" brukes, kreves det en sekvens av tegn. På denne måten vil det være mulig å spesifisere en spesifikk mappe som enten kan skannes eller ikke.

Funksjon av roboter

"Edderkopper" for søkemotorer er forskjellige, så hvis du jobber for flere søkemotorer samtidig, må du ta hensyn til dette øyeblikket. Navnene deres er forskjellige, noe som betyr at hvis du vil kontakte en spesifikk robot, må du spesifisere navnet: «Brukeragent: Yandex» (uten anførselstegn).

Hvis du vil sette direktiver for alle søkemotorer, må du bruke kommandoen: "Brukeragent: " (uten anførselstegn). For å blokkere nettstedet fra å indeksere ved hjelp av robots.txt på riktig måte, må du kjenne detaljene til populære søkemotorer.

Faktum er at de mest populære søkemotorene Yandex og Google har flere roboter. Hver av dem har sine egne oppgaver. For eksempel er Yandex Bot og Googlebot de viktigste "edderkoppene" som gjennomsøker nettstedet. Når du kjenner alle robotene, vil det være lettere å finjustere indekseringen av ressursen din.

Hvordan robots.txt-filen fungerer
Hvordan robots.txt-filen fungerer

Eksempler

Så, ved hjelp av robots.txt kan du stenge siden fra indeksering med enkle kommandoer, det viktigste er å forstå hva du trenger spesifikt. Hvis du for eksempel vil at Googlebot ikke skal nærme seg ressursen din, må du gi den riktig kommando. Det vil se slik ut: "User-agent: Googlebot Disallow: /" (uten anførselstegn).

Nå må vi forstå hva som er i denne kommandoen og hvordan den fungerer. Så "brukeragent"brukes for å bruke et direkte anrop til en av robotene. Deretter angir vi hvilken, i vårt tilfelle er det Google. "Disallow"-kommandoen må starte på en ny linje og hindre roboten fra å gå inn på stedet. Skråstreksymbolet i dette tilfellet indikerer at alle sidene i ressursen er valgt for kommandoutførelse.

Hva er robots.txt for?
Hva er robots.txt for?

I robots.txt kan du deaktivere indeksering for alle søkemotorer med en enkel kommando: "User-agent:Disallow: /" (uten anførselstegn). Stjernetegnet i dette tilfellet angir alle søkeroboter. Vanligvis er en slik kommando nødvendig for å pause indekseringen av nettstedet og starte hovedarbeid på det, som ellers kan påvirke optimaliseringen.

Hvis ressursen er stor og har mange sider, inneholder den ofte proprietær informasjon som enten er uønsket å avsløre, eller den kan påvirke markedsføringen negativt. I dette tilfellet må du forstå hvordan du lukker siden fra indeksering i robots.txt.

Du kan skjule enten en mappe eller en fil. I det første tilfellet må du starte på nytt ved å kontakte en bestemt bot eller alle, så vi bruker kommandoen "User-agent", og nedenfor spesifiserer vi "Disallow"-kommandoen for en bestemt mappe. Det vil se slik ut: "Disallow: / folder /" (uten anførselstegn). På denne måten skjuler du hele mappen. Hvis den inneholder en viktig fil som du ønsker å vise, må du skrive kommandoen nedenfor: "Tillat: /folder/file.php" (uten anførselstegn).

Sjekk fil

Hvis du bruker robots.txt for å stenge nettstedet fraDu lyktes med å indeksere, men du vet ikke om alle direktivene dine fungerte riktig, du kan sjekke riktigheten av arbeidet.

Først må du kontrollere plasseringen av dokumentet på nytt. Husk at den utelukkende må være i rotmappen. Hvis det er i rotmappen, vil det ikke fungere. Deretter åpner du nettleseren og skriver inn følgende adresse der: "https://dinside. com/robots.txt" (uten anførselstegn). Hvis du får en feilmelding i nettleseren din, er ikke filen der den skal være.

Hvordan lukke en mappe fra indeksering
Hvordan lukke en mappe fra indeksering

Direktiver kan sjekkes i spesialverktøy som brukes av nesten alle nettredaktører. Vi snakker om Google- og Yandex-produkter. For eksempel, i Google Search Console er det en verktøylinje der du må åpne "Crawl", og deretter kjøre "Robots.txt File Inspection Tool". Du må kopiere alle dataene fra dokumentet inn i vinduet og begynne å skanne. Nøyaktig den samme kontrollen kan gjøres i Yandex. Webmaster.

Anbefalt: