Semalt annab näpunäiteid robotite, ämblike ja roomikute kohta käitamiseks

Lisaks otsingumootorisõbralike URL-ide loomisele võimaldab .htaccess-fail veebimeistritel blokeerida konkreetsetel robotitel oma veebisaidile juurdepääsu. Üks võimalus nende robotite blokeerimiseks on faili robots.txt kaudu. Semalt Kliendi edujuht Ross Barber väidab aga, et on näinud, et mõned indekseerijad seda taotlust eiravad. Üks parimaid viise on .htaccess-faili kasutamine, et takistada neil oma sisu indekseerida.

Mis need robotid on?

Need on tarkvara tüüpi, mida otsimootorid indekseerimise eesmärgil Internetist uue sisu kustutamiseks kasutavad.

Nad täidavad järgmisi ülesandeid:

  • Külastage veebilehti, millega olete linginud
  • Kontrollige, kas teie HTML-koodil pole vigu
  • Nad salvestavad milliseid veebilehti linkite ja näevad, millised veebilehed teie sisuga lingivad
  • Nad indekseerivad teie sisu

Mõned robotid on siiski pahatahtlikud ja otsivad teie saidilt e-posti aadresse ja vorme, mida tavaliselt kasutatakse soovimatute sõnumite või rämpsposti saatmiseks. Teised otsivad teie koodist isegi lünki.

Mida on vaja veebiandurite blokeerimiseks?

Enne .htaccess-faili kasutamist peate kontrollima järgmisi asju.

1. Teie sait peab töötama Apache-serveris. Tänapäeval annavad isegi need veebimajutusettevõtted teile juurdepääsu nõutavale failile.

2. Teil peaks olema juurdepääs oma veebisaidi töötlemata serveri logidele, et saaksite kindlaks teha, millised robotid on teie veebisaite külastanud.

Pange tähele, et mingil viisil ei saa te blokeerida kõiki kahjulikke roboteid, kui te ei blokeeri neid kõiki, isegi neid, mida peate kasulikuks. Iga päev ilmub uusi roboteid ja vanemaid modifitseeritakse. Kõige tõhusam viis on kaitsta oma koodi ja muuta robotite jaoks raskeks teie rämpspost.

Robotite tuvastamine

Robotid saab tuvastada kas IP-aadressi või nende "Kasutajaagendi stringi" alusel, mille nad saadavad HTTP-päistesse. Näiteks kasutab Google "Googlebot".

Võimalik, et vajate seda loendit 302 robotiga, kui teil on juba robotil nimi, mida soovite .htaccess-ist eemal hoida.

Teine võimalus on laadida kõik logifailid serverist alla ja avada need tekstiredaktori abil. Nende asukoht serveris võib sõltuvalt teie serveri konfiguratsioonist muutuda. Kui te ei leia neid, otsige abi oma veebilt.

Kui teate, millist lehte külastati, või külastuse aeg, on lihtsam soovimatu robotiga tulla. Nende parameetritega saate logifailist otsida.

Kui olete juba märkinud, millised robotid peate blokeerima; saate need seejärel lisada .htaccess-faili. Pange tähele, et roboti blokeerimiseks ei piisa selle peatamiseks. See võib tulla tagasi uue IP või nimega.

Kuidas neid blokeerida

Laadige alla .htaccess-faili koopia. Vajadusel tehke varukoopiaid.

1. meetod: blokeerimine IP-ga

See koodilõik blokeerib robotit IP-aadressi 197.0.0.1 abil

Telli keelata, luba

Keeldu alates 197.0.0.1

Esimene rida tähendab, et server blokeerib kõik teie määratud mustritele vastavad taotlused ja lubab kõigil muudel.

Teine rida käsib serveril väljastada 403: keelatud leht

2. meetod: blokeerimine kasutajaagentide poolt

Lihtsaim viis on kasutada Apache ümberkirjutusmootorit

RewriteEngine sisse lülitatud

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Esimene rida tagab, et ümberkirjutamismoodul on lubatud. Teine rida on tingimus, mille suhtes reeglit kohaldatakse. 4. real olev täht "F" käsib serveril tagastada numbri 403: Keelatud, kui täht "L" tähendab, et see on viimane reegel.

Seejärel laadite .htaccess faili oma serverisse üles ja kirjutate olemasoleva üle. Aja jooksul peate robotite IP-d värskendama. Kui teete vea, laadige lihtsalt üles tehtud varukoopia.

mass gmail