De flesta erfarna bloggare vet verkligen vad robots.txt är och varför du behöver den här filen. Men få författare rusar omedelbart för att skapa en robots.txt-fil efter att ha installerat en blogg på WordPress.
Robots.txt är en textfil som laddas upp till rotkatalogen på din webbplats och innehåller instruktioner för sökrobotar. Huvudsyftet med dess användning är att förbjuda indexering av enskilda sidor och avsnitt på webbplatsen. Men med hjälp av robots.txt kan du också ange rätt domänspegel, ordinera sökvägen till webbplatskartan och liknande.
De flesta moderna sökmotorer har lärt sig att navigera i populära CMS och försöker vanligtvis inte indexera innehåll som inte är avsett för detta. Google indexerar till exempel inte ditt WordPress-bloggadministrationsområde även om du inte anger det direkt i robots.txt. I vissa fall kan användningen av direkta förbud ändå vara användbar. Och vi pratar främst om förbudet mot duplicerat innehåll.
Vissa webbansvariga går så långt att de förbjuder indexering av kategori- och taggsidor, eftersom deras innehåll delvis duplicerar innehållet på huvudsidan. Men de flesta är begränsade till att förbjuda trackback- och feed-sidor, som helt duplicerar artikelinnehåll och är inte avsedda för sökmotorer alls. En sådan försiktighetsåtgärd kommer inte bara att göra webbplatsens resultat "renare" utan också spara dig från möjliga sökfilter, särskilt efter introduktionen av den nya Google Panda-algoritmen.
Här är de rekommenderade riktlinjerna för en robots.txt-fil (det fungerar för nästan vilken WordPress-blogg som helst):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / temas Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Observera att i robots.txt är de administrativa mapparna wp-admin och wp-inclusive helt stängda för indexering. Wp-innehållsmappen är endast delvis stängd, eftersom den innehåller uppladdningskatalogen, som innehåller alla bilder från din blogg som ska indexeras.
Allt du behöver göra är att kopiera direktiven från ovanstående kod (notera att varje direktiv måste skrivas på en ny rad), spara dem i en textfil som heter robots.txt och ladda upp dem till rotkatalogen på din webbplats.
Du kan alltid kontrollera om robots.txt fungerar korrekt genom Googles gränssnitt för webbansvariga och Yandex.