Cómo bloquear direcciones IP y bots malos con .htaccess

Cómo bloquear direcciones IP de robots incorrectos con .htaccess

No todos los visitantes del sitio web son humanos (tráfico humano). A veces, los robots también pueden visitar sitios web. Como agente de usuario, rastreador, bots y raspador de enlaces. Los robots están diseñados con ciertos algoritmos para escanear y eliminar un sitio web. Sin embargo, no es raro que el proceso de escaneo o desguace provoque una sobrecarga en los recursos del servidor.

Como resultado, el servidor de nuestro sitio web experimentó un error, lo que provocó que 502 Puerta de enlace no válida, 508 Límites alcanzados o Error interno de servidor 500 (No disponible). Para superar esto, necesitamos aprender cómo bloquear las direcciones IP de Bad Bots usando el archivo .htaccess.

¿Qué son los robots malos, los robots agentes de usuario, los rastreadores y los raspadores de enlaces?

Los Bad Bots se utilizan para una variedad de propósitos diferentes, como escaneo, desguace, ataques DDoS, apropiación de cuentas y mucho más. Los bots también pueden distorsionar el tráfico que recibe de los motores de búsqueda, crear métricas incorrectas y, en ocasiones, causar daños al sistema (sobrecarga).

Sitio web con Decenas a cientos de miles de visitantes por día son muy vulnerables al ataque de badbots..

Los casos más comunes son los robots rastreadores y los rastreadores de enlaces. Donde este rastreador buscará continuamente en todas las páginas hasta el final del sitio web. De hecho, las imágenes y archivos tampoco escapan al escaneo de Bot Crawler. Para obtener más detalles, intente consultar el siguiente esquema de cómo funciona el rastreador web:

Cómo funciona el rastreador de sitios web BadBots

Mientras se arrastra, el robot se desguazará. Este desguace puede sobrecargar posteriormente los recursos del sitio web. Accederá deliberadamente a todos los archivos para luego copiar y recopilar los datos en su servidor.

En este caso podemos decir que los Bots son User Agents. Donde los Bots son programados por un grupo de instituciones, por ejemplo Ahrefs, Semrush, Moz, etc.

¿Por qué debería bloquear los robots malos?

  1. Provoca métricas de análisis de tráfico incorrectas
  2. A veces provoca una sobrecarga de recursos del servidor.
  3. Drena el ancho de banda del servidor
  4. Scrapper puede abrir vínculos de retroceso de sitios web
  5. La seguridad del sitio web se vuelve muy vulnerable
  6. Propenso al spam y a los anuncios dañinos.
  7. Los robots malos no responden Reglas en Robots.txt

Cómo bloquear direcciones IP y bots malos con el archivo .htaccess

Para bloquear las direcciones IP de Bad Bots a través de .htaccess, necesita acceso al administrador de archivos del sitio web. Si el archivo .htaccess aún no está disponible, simplemente cree el archivo manualmente. Sin embargo, si el archivo ya existe, todo lo que tienes que hacer es editarlo y agregar el código.

  1. Abra CPanel, Plesk Panel, ISP Config o mediante un archivo FTP
  2. A continuación, vaya a la carpeta raíz del sitio web.
  3. Busque el archivo .htaccess, ábralo y edítelo
    Bloquear bots malos a través del archivo del sitio web htaccess
  4. Agregue el siguiente código en la parte superior:
    #Remove or add more rules as per your needs.
    BrowserMatchNoCase "Baiduspider" bad_bots
    BrowserMatchNoCase "BLEXBot" bad_bots
    BrowserMatchNoCase "SemrushBot" bad_bots
    BrowserMatchNoCase "AhrefsBot" bad_bots
    BrowserMatchNoCase "DotBot" bad_bots
    BrowserMatchNoCase "MJ12bot" bad_bots
    BrowserMatchNoCase "Rogerbot" bad_bots
    BrowserMatchNoCase "aiHitBot" bad_bots
    BrowserMatchNoCase "spbot" bad_bots
    BrowserMatchNoCase "oBot" bad_bots
    BrowserMatchNoCase "DeuSu" bad_bots
    BrowserMatchNoCase "ia_archiver" bad_bots
    BrowserMatchNoCase "ExaBot" bad_bots
    BrowserMatchNoCase "Sitebot" bad_bots
    BrowserMatchNoCase "Gigabot" bad_bots
    BrowserMatchNoCase "MetaURI" bad_bots
    BrowserMatchNoCase "FlipboardProxy" bad_botsOrder Allow,Deny
    
    Allow from ALL
    Deny from env=bad_bots
    Deny from 5.188.210.0/24
  5. Mientras tanto, para bloquear la dirección IP, escriba el siguiente código: Denegar desde IPADDRESS
  6. También puede bloquear el rango de direcciones IP con Rango de IP a CIDR
  7. Para obtener el nombre del agente de usuario BOT, puede abrir los registros del sitio webSitio web de registros de agente de usuario

Sin embargo, no todos los bots son malos, amigo mío. Bots de redes sociales (Facebook, Twitter, et al.) y robots de motores de búsqueda (Google, Bing, Yandex et al.). Nunca bloquees agentes de usuario de Google, Bing, redes sociales y similares. Eso es todo por el tutorial. Cómo bloquear direcciones IP de robots incorrectos con htaccess. ¡Espero que sea útil!

#Cómo #bloquear #direcciones #bots #malos #con #.htaccess

Leave a Reply

Your email address will not be published. Required fields are marked *