Hvordan konfigurerer jeg Robots.txt riktig?

Innholdsfortegnelse:

Hvordan konfigurerer jeg Robots.txt riktig?
Hvordan konfigurerer jeg Robots.txt riktig?
Anonim

Riktig Robots txt for html-siden lager handlingsmodeller for søkemotorroboter, og forteller dem hva de kan sjekke. Denne filen blir ofte referert til som Robot Exclusion Protocol. Det første roboter ser etter før de gjennomsøker et nettsted er robots.txt. Det kan peke på eller fortelle at områdekartet ikke skal sjekke visse underdomener. Når du vil at søkemotorer skal søke etter det som oftest finnes, er det ikke nødvendig med robots.txt. Det er svært viktig i denne prosessen at filen er riktig formatert og ikke indekserer brukersiden med brukerens personlige data.

Robotskanningsprinsipp

Prinsippet for robotskanning
Prinsippet for robotskanning

Når en søkemotor støter på en fil og ser en forbudt URL, gjennomsøker den den ikke, men den kan indeksere den. Dette er fordi selv om robotene ikke har lov til å se innholdet, kan de huske tilbakekoblinger som peker til den forbudte URL-en. På grunn av blokkert tilgang til lenken vil URL-en vises i søkemotorer, men uten fragmenter. Hvis enfor den innkommende markedsføringsstrategien kreves riktig Robots txt for bitrix (Bitrix), de gir nettstedverifisering på forespørsel fra brukeren av skannere.

På den annen side, hvis filen ikke er riktig formatert, kan dette føre til at nettstedet ikke vises i søkeresultatene og ikke blir funnet. Søkemotorer kan ikke omgå denne filen. En programmerer kan se robots.txt for et hvilket som helst nettsted ved å gå til domenet og følge det med robots.txt, for eksempel www.domain.com/robots.txt. Ved å bruke et verktøy som Unamos SEO-optimaliseringsseksjon, hvor du kan gå inn på hvilket som helst domene, og tjenesten vil vise informasjon om eksistensen av filen.

Begrensninger for skanning:

  1. Brukeren har utdatert eller sensitivt innhold.
  2. Bilder på nettstedet vil ikke bli inkludert i bildesøkeresultater.
  3. Nettstedet er ennå ikke klart for demo som skal indekseres av roboten.

Husk at informasjonen en bruker ønsker å motta fra en søkemotor er tilgjengelig for alle som skriver inn nettadressen. Ikke bruk denne tekstfilen til å skjule sensitive data. Hvis domenet har en 404 (ikke funnet) eller 410 (bestått) feil, sjekker søkemotoren nettstedet til tross for tilstedeværelsen av robots.txt, i så fall anser den at filen mangler. Andre feil som 500 (intern serverfeil), 403 (forbudt), tidsavbrutt eller "ikke tilgjengelig" respekterer robots.txt-instruksjonene, men omgåelse kan bli forsinket til filen er tilgjengelig.

Opprette en søkefil

Opprette en søkefil
Opprette en søkefil

MangeCMS-programmer som WordPress har allerede en robots.txt-fil. Før du konfigurerer Robots txt WordPress riktig, må brukeren gjøre seg kjent med funksjonene for å finne ut hvordan de får tilgang til den. Hvis programmereren lager filen selv, må den oppfylle følgende betingelser:

  1. Må være med små bokstaver.
  2. Bruk UTF-8-koding.
  3. Lagre i et tekstredigeringsprogram som en fil (.txt).

Når en bruker ikke vet hvor den skal plasseres, kontakter de leverandøren av nettserverprogramvare for å finne ut hvordan man får tilgang til roten til et domene eller går til Google-konsollen og laster det ned. Med denne funksjonen kan Google også sjekke om roboten fungerer som den skal og listen over nettsteder som har blitt blokkert ved hjelp av filen.

Hovedformatet til riktig Robots txt for bitrix (Bitrix):

  1. Legend robots.txt.
  2. , legger til kommentarer som bare brukes som notater.
  3. Disse kommentarene vil bli ignorert av skannere sammen med eventuelle skrivefeil.
  4. User-agent - indikerer hvilken søkemotor instruksjonene for filen er oppført på.
  5. Å legge til en stjerne () forteller skannere at instruksjonene er for alle.

Indikerer en spesifikk robot, for eksempel Googlebot, Baiduspider, Applebot. Disallow forteller crawlere hvilke deler av nettstedet som ikke skal gjennomsøkes. Det ser slik ut: User-agent:. Stjernen betyr "alle roboter". Du kan imidlertid spesifisere sider for spesifikkeroboter. For å gjøre dette må du vite navnet på roboten som anbefalingene er satt for.

Riktig robots-txt for Yandex kan se slik ut:

Riktig robots txt for Yandex
Riktig robots txt for Yandex

Hvis boten ikke skal gjennomsøke nettstedet, kan du spesifisere det, og for å finne navnene på brukeragenter, anbefales det å gjøre deg kjent med online-mulighetene til useragentstring.com.

Sideoptimalisering

Sideoptimalisering
Sideoptimalisering

De følgende to linjene betraktes som en fullstendig robots.txt-fil, og en enkelt robots-fil kan inneholde flere linjer med brukeragenter og direktiver som deaktiverer eller aktiverer gjennomsøking. Hovedformatet til riktig Robots txt:

  1. Brukeragent: [agentbrukernavn].
  2. Disallow: .

I filen vises hver blokk med direktiver som diskrete, atskilt med en linje. I filen ved siden av agentbrukerkatalogen brukes hver regel på et spesifikt sett med seksjonseparerte linjer. Hvis en fil har en multiagent-regel, vil roboten kun vurdere den mest spesifikke gruppen med instruksjoner.

Teknisk syntaks

Teknisk syntaks
Teknisk syntaks

Det kan betraktes som "språket" for robots.txt-filer. Det er fem termer som kan eksistere i dette formatet, de viktigste inkluderer:

  1. User-agent - Webcrawler med instruksjoner for gjennomsøking, vanligvis en søkemotor.
  2. Disallow er en kommando som brukes til å fortelle brukeragenten om å omgå(utelatelse) av en bestemt URL. Det er bare én forbudt tilstand for hver.
  3. Tillat. For Googleboten som får tilgang, blir til og med brukersiden nektet.
  4. Crawl-delay – spesifiserer hvor mange sekunder søkeroboten trenger før den gjennomsøker. Når roboten ikke bekrefter det, angis hastigheten i Google-konsollen.
  5. Nettkart – Brukes til å finne XML-kart knyttet til en URL.

Pattern Matches

Når det gjelder å blokkere URL-er eller tillate gyldig Robots-txt, kan operasjonene være ganske vanskelige, da de lar deg bruke mønstertilpasning for å dekke en rekke mulige URL-parametere. Google og Bing bruker begge to tegn som identifiserer sider eller undermapper som SEO-en ønsker å ekskludere. De to tegnene er stjernen () og dollartegnet ($), der:er et jokertegn som representerer en hvilken som helst sekvens av tegn. $ - samsvarer med slutten av nettadressen.

Google tilbyr en stor liste over mulige malsyntakser som forklarer brukeren hvordan man setter opp en Robots txt-fil. Noen vanlige brukstilfeller inkluderer:

  1. Forhindre at duplisert innhold vises i søkeresultatene.
  2. Hold alle deler av nettstedet private.
  3. Lagre interne sider med søkeresultater basert på åpen uttalelse.
  4. Angi plassering.
  5. Forhindre søkemotorer fra å indeksere vissefiler.
  6. Spesifiserer en gjennomsøkingsforsinkelse for å stoppe innlastingen ved skanning av flere innholdsområder samtidig.

Sjekker om det er en robotfil

Hvis det ikke er noen områder på nettstedet som må gjennomgås, er ikke robots.txt nødvendig i det hele tatt. Hvis brukeren ikke er sikker på at denne filen eksisterer, må han skrive inn rotdomenet og skrive det inn på slutten av URL-en, noe som dette: moz.com/robots.txt. En rekke søkeroboter ignorerer disse filene. Imidlertid tilhører disse søkerobotene som regel ikke anerkjente søkemotorer. De er den typen spammere, e-postsamlere og andre typer automatiserte roboter som finnes i overflod på Internett.

Det er veldig viktig å huske at bruk av eksklusjonsstandarden for roboter ikke er et effektivt sikkerhetstiltak. Faktisk kan noen roboter starte med sider der brukeren setter dem til skannemodus. Det er flere deler som går inn i standard unntaksfilen. Før du forteller roboten hvilke sider den ikke skal fungere på, må du spesifisere hvilken robot du skal snakke med. I de fleste tilfeller vil brukeren bruke en enkel erklæring som betyr "alle roboter".

SEO-optimalisering

SEO-optimalisering
SEO-optimalisering

Før optimalisering må brukeren sørge for at han ikke blokkerer innhold eller deler av nettstedet som må omgås. Lenker til sider som er blokkert av riktig Robots txt vil ikke bli respektert. Dette betyr:

  1. Hvis de ikke er koblet til andre sider som er tilgjengelige for søkemotorer, dvs. sider,ikke blokkert av robots.txt eller en metarobot, og relaterte ressurser vil ikke bli gjennomsøkt og kan derfor ikke indekseres.
  2. Ingen lenke kan overføres fra en blokkert side til koblingsdestinasjonen. Hvis det finnes en slik side, er det bedre å bruke en annen blokkeringsmekanisme enn robots.txt.

Fordi andre sider kan lenke direkte til en side som inneholder personlig informasjon og du ønsker å blokkere denne siden fra søkeresultater, bruk en annen metode, for eksempel passordbeskyttelse eller noindex-metadata. Noen søkemotorer har flere brukeragenter. For eksempel bruker Google Googlebot for organiske søk og Googlebot-Image for bildesøk.

De fleste brukeragenter fra samme søkemotor følger de samme reglene, så det er ikke nødvendig å spesifisere direktiver for hver av flere robotsøkeprogrammer, men å kunne gjøre det kan finjustere gjennomsøkingen av innholdet på nettstedet. Søkemotoren bufrer innholdet i filen, og oppdaterer vanligvis det bufrede innholdet minst én gang om dagen. Hvis brukeren endrer filen og ønsker å oppdatere den raskere enn vanlig, kan de sende inn robots.txt-nettadressen til Google.

Søkemotorer

Sjekker om det finnes en robotfil
Sjekker om det finnes en robotfil

For å forstå hvordan Robots txt fungerer riktig, må du vite om funksjonene til søkemotorer. Kort sagt, deres evne ligger i at de sender «skannere», som er programmer somsurfe på Internett for informasjon. De lagrer deretter noe av denne informasjonen for senere å gi den videre til brukeren.

For mange mennesker er Google allerede Internett. Faktisk har de rett, siden dette kanskje er hans viktigste oppfinnelse. Og selv om søkemotorer har endret seg mye siden oppstarten, er de underliggende prinsippene fortsatt de samme. Crawlere, også kjent som «bots» eller «edderkopper», finner sider fra milliarder av nettsteder. Søkemotorer gir dem instruksjoner om hvor de skal dra, mens individuelle nettsteder også kan kommunisere med roboter og fortelle dem hvilke spesifikke sider de bør se på.

Generelt ønsker ikke nettstedeiere å vises i søkemotorer: administratorsider, backend-portaler, kategorier og koder og andre informasjonssider. Robots.txt-filen kan også brukes til å hindre søkemotorer i å sjekke sider. Kort sagt, robots.txt forteller webcrawlere hva de skal gjøre.

Forby sider

Dette er hoveddelen av robotekskluderingsfilen. Med en enkel erklæring ber brukeren en bot eller gruppe av roboter om ikke å gjennomsøke bestemte sider. Syntaksen er enkel, for eksempel å nekte tilgang til alt i nettstedets "admin"-katalog, skriv: Disallow: /admin. Denne linjen forhindrer roboter i å gjennomsøke yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html og alt annet under admin-katalogen.

For å ikke tillate én side, spesifiser den ganske enkelt på disallow-linjen: Disallow: /public/exception.html. Nå "unntak"-sidenvil ikke migrere, men alt annet i "offentlig"-mappen vil.

For å inkludere flere sider, bare oppgi dem:

Kataloger og sider
Kataloger og sider

Disse fire linjene i den riktige Robots-txt-en for symfoni vil gjelde for enhver brukeragent som er oppført øverst irobots.txt-delen for

Forby sider
Forby sider

Sitemap:

Andre kommandoer:live - ikke la webcrawlere indeksere cpresources/ eller provider/.

Brukeragent:Disallow: /cpresources/.

Nek: / leverandør / Disallow: /.env.

Sett standarder

Bruker kan spesifisere spesifikke sider for forskjellige roboter ved å kombinere de to foregående elementene, slik ser det ut. Et eksempel på riktig Robots txt for alle søkemotorer er presentert nedenfor.

Sette standarder
Sette standarder

Seksjonene "admin" og "private" vil være usynlige for Google og Bing, men Google vil fortsatt se den "hemmelige" katalogen, mens Bing ikke vil. Du kan spesifisere generelle regler for alle roboter som bruker asterisk-brukeragenten, og deretter gi spesifikke instruksjoner til robotene i de følgende delene. Med kunnskapen ovenfor kan brukeren skrive et eksempel på riktig Robots txt for alle søkemotorer. Bare fyr opp favoritttekstredigeringsprogrammet ditt og fortell robotene at de ikke er velkomne i visse deler av nettstedet.

Tips for å forbedre serverytelsen

SublimeText eren allsidig tekstredigerer og gullstandarden for mange programmerere. Programmeringstipsene hans er dessuten basert på effektiv koding. brukere setter pris på tilstedeværelsen av snarveier i programmet. Hvis brukeren ønsker å se et eksempel på en robots.txt-fil, bør de gå til et hvilket som helst nettsted og legge til "/robots.txt" til slutt. Her er en del av robots.txt-filen GiantBicycles.

Programmet gir opprettelse av sider som brukere ikke ønsker å vise i søkemotorer. Og har også noen få eksklusive ting som de færreste vet om. For eksempel, mens robots.txt-filen forteller roboter hvor de ikke skal gå, gjør sitemap-filen det motsatte og hjelper dem med å finne det de leter etter, og selv om søkemotorer sannsynligvis allerede vet hvor områdekartet er plassert, blir det ikke i veien.

Det finnes to typer filer: HTML-side eller XML-fil. En HTML-side er en som viser besøkende alle tilgjengelige sider på et nettsted. I sin egen robots.txt ser det slik ut: Sitemap://www.makeuseof.com/sitemap_index.xml. Hvis nettstedet ikke er indeksert av søkemotorer, selv om det har blitt gjennomsøkt flere ganger av webroboter, må du forsikre deg om at filen er til stede og at dens tillatelser er riktig angitt.

Som standard vil dette skje med alle SeoToaster-installasjoner, men om nødvendig kan du tilbakestille det slik: Fil robots.txt - 644. Avhengig av PHP-serveren, hvis dette ikke fungerer for brukeren, kan det anbefales å prøve følgende: Fil robots.txt - 666.

Angi skanneforsinkelse

Direktivet om forbikjøringsforsinkelse informerer vissesøkemotorer hvor ofte de kan indeksere en side på nettstedet. Det måles i sekunder, selv om noen søkemotorer tolker det litt annerledes. Noen ser gjennomgangsforsinkelse 5 når de får beskjed om å vente fem sekunder etter hver skanning for å starte den neste.

Andre tolker dette som en instruksjon om å kun skanne én side hvert femte sekund. Roboten kan ikke skanne raskere for å spare serverbåndbredde. Hvis serveren trenger å matche trafikken, kan den angi en bypass-forsinkelse. Generelt, i de fleste tilfeller trenger ikke brukere å bekymre seg for dette. Slik stilles inn crawl-forsinkelsen på åtte sekunder - Crawl-delay: 8.

Men ikke alle søkemotorer vil følge dette direktivet, så når du ikke tillater sider, kan du angi forskjellige gjennomsøkingsforsinkelser for visse søkemotorer. Etter at alle instruksjonene i filen er satt opp, kan du laste den opp til nettstedet, sørg først for at det er en enkel tekstfil og har navnet robots.txt og kan finnes på yoursite.com/robots.txt.

Beste WordPress-bot

Beste WordPress Bot
Beste WordPress Bot

Det er noen filer og kataloger på et WordPress-nettsted som må låses hver gang. Katalogene som brukere bør nekte er cgi-bin-katalogen og standard WP-kataloger. Noen servere tillater ikke tilgang til cgi-bin-katalogen, men brukere må inkludere den i disallow-direktivet før de kan konfigurere Robots txt WordPress

Standard WordPress-kataloger,som skal blokkere er wp-admin, wp-content, wp-includes. Disse katalogene inneholder ikke data som i utgangspunktet er nyttige for søkemotorer, men det er et unntak, det vil si at det er en underkatalog som heter opplastinger i wp-innholdskatalogen. Denne underkatalogen må tillates i robot.txt-filen, siden den inkluderer alt som lastes inn ved hjelp av WP-medieopplastingsfunksjonen. WordPress bruker tagger eller kategorier for å strukturere innhold.

Hvis kategorier brukes, er det nødvendig å blokkere tagarkivene fra søket for å lage riktig Robots txt for Wordpress, som spesifisert av programprodusenten. Først sjekker de databasen ved å gå til "Administrasjon"-panelet> "Innstillinger"> "Permalink".

Som standard er basen taggen, hvis feltet er tomt: Disallow: / tag /. Hvis en kategori brukes, må du deaktivere kategorien i robot.txt-filen: Disallow: /category/. Som standard er basen taggen, hvis feltet er tomt: Disallow: / tag /. Hvis en kategori brukes, må du deaktivere kategorien i robot.txt-filen: Disallow: / kategori /.

Filer som hovedsakelig brukes til å vise innhold, de vil bli blokkert av den riktige Robots txt-filen for Wordpress:

Robots txt for wordpress
Robots txt for wordpress

Joomla grunnleggende oppsett

Når brukeren har installert Joomla, må du se den riktige Joomla Robots txt-innstillingen i den globale konfigurasjonen, som er plassert i kontrollpanelet. Noen innstillinger her er veldig viktige for SEO. Finn først navnet på nettstedet og sørg for detdet korte navnet på nettstedet brukes. Så finner de en gruppe innstillinger til høyre på samme skjerm, som kalles SEO-innstillinger. Den som definitivt må endres er den andre: bruk en omskrivings-URL.

Dette høres komplisert ut, men det hjelper i utgangspunktet Joomla med å lage renere URL-er. Mest merkbart hvis du fjerner index.php-linjen fra URL-ene. Hvis du endrer det senere, vil nettadressene endres, og Google vil ikke like det. Men når du endrer denne innstillingen, må flere skritt tas samtidig for å lage riktig robots-txt for Joomla:

  1. Finn htaccess.txt-filen i Joomla rotmappe.
  2. Merk det som.htaccess (ingen utvidelse).
  3. Inkluder nettstedsnavn i side titler.
  4. Finn metadatainnstillinger nederst på den globale konfigurasjonsskjermen.

Robot i skyen MODX

Robot i MODX Cloud
Robot i MODX Cloud

Tidligere ga MODX Cloud brukere muligheten til å kontrollere virkemåten ved å la robots.txt-filen bli servert basert på en bryter i dashbordet. Selv om dette var nyttig, var det mulig ved et uhell å tillate indeksering på iscenesettelser/utviklingssider ved å veksle mellom et alternativ i dashbordet. På samme måte var det enkelt å deaktivere indeksering på produksjonssiden.

I dag antar tjenesten tilstedeværelsen av robots.txt-filer i filsystemet med følgende unntak: ethvert domene som slutter med modxcloud.com vil fungere som et Disallow: /direktiv for alle brukeragenter, uavhengig av tilstedeværelsen eller fravær av filen. Produksjonsnettsteder som mottar ekte besøkende trafikk, må bruke sitt eget domene hvis brukeren ønsker å indeksere nettstedet sitt.

Noen organisasjoner bruker riktig Robots txt for modx for å kjøre flere nettsteder fra én enkelt installasjon ved hjelp av Contexts. Et tilfelle der dette kan brukes, vil være et offentlig markedsføringsnettsted kombinert med mikronettsteder for destinasjonssider og muligens et ikke-offentlig intranett.

Tradisjonelt har dette vært vanskelig å gjøre for flerbrukerinstallasjoner siden de deler samme nettverksrot. Med MODX Cloud er dette enkelt. Bare last opp en ekstra fil til et nettsted k alt robots-intranet.example.com.txt med følgende innhold, og det vil blokkere indeksering med velfungerende roboter og alle andre vertsnavn faller tilbake til standardfiler med mindre det er andre spesifikke navnenoder.

Robots.txt er en viktig fil som hjelper brukeren med å lenke til nettstedet på Google, store søkemotorer og andre nettsteder. Filen ligger ved roten til en webserver og instruerer webroboter til å gjennomsøke et nettsted, angi hvilke mapper den skal eller ikke skal indeksere, ved hjelp av et sett med instruksjoner k alt Bot Exclusion Protocol. Et eksempel på riktig Robots txt for alle søkemotorer obots.txt er spesielt enkelt å gjøre med SeoToaster. Det er opprettet en spesiell meny for den i kontrollpanelet, slik at boten aldri trenger å overarbeide for å få tilgang.

Anbefalt: