Principales tecnicas de webspam

Publicado el 1 Marzo 2009
Archivado en seo, webspam |

Principales tecnicas de WebSpam

Voy a enumerar las principales técnicas de webspam que se están utilizando hoy dia en la red.

Existen diferentes tipos de software que de manera mas o menos avanzada succiona contenidos a través de las SERPs de buscadores, feed RSS, diversos grupos de noticias, wikis, foros, etc Estos contenidos son alterados mediante diferentes técnicas para intentar evitar los algoritmos de detección de contenido duplicado que han implementado los buscadores.

¿Como se camufla este contenido duplicado?

  1. Mezcla de Contenido de diferentes fuentes
  2. Cambio de orden en frases y párrafos
  3. Cacheo de consultas a buscadores internos con contenido aleatorio
  4. Mezcla de frases al azar, o selectivamente mediante afinidad de palabras clave.
  5. Traducción de contenios a diferentes idiomas
  6. “Find and Replace” mediante diccionarios de sinónimos, y términos relacionados
  7. etc

Esta práctica fué muy utilizada en el pasado, y sigue siéndolo a día de hoy aún cuando es una práctica altamente penalizada, que puede resultar en el baneo automático de la página de los motores de búsqueda. Una manera de detectar esta práctica es mediante la consulta de la caché de Google, o mediante un emulador de Usser-agent (firefox tiene plugins que realizan esta tarea).

Es importante no confundir “Cloaking” con “IP Recovery”, una técnica ampliamente utilizada por portales web para detectar por ejemplo la ubicación del usuario y cargar la versión idiomática correcta de manera automática.

Es una práctica de difícil detección ya que normalmente esta técnica se lleva a cabo en conjunto con una definición de cloaking que sólo muestra estos enlaces a buscadores. Por lo que aunque revisemos el source de nuestra página no encontraremos estos enlaces, siendo la caché del buscador el único sitio donde podremos ver estos enlaces.

La generalización de varios estándar en manejadores de contenido ha hecho que esta práctica sea muy popular entre los webspammers. Sistemas como Wordpress, Joomla, Drupal, etc, son sistemas de código libre ampliamente utilizados, por lo que si encuentran un bug o fallo de seguridad en estos CMS tienen un gran número de páginas en las que pueden utilizar esta técnica hasta que el fallo de seguridad es detectado, solucionado y las páginas actualizan su sistema.

Mantener vuestro CMS bien actualizado es el primer paso para defenderse de estos ataques.

Una de las prácticas de Cookie Stuffing más fáciles de realizar y que mayores beneficios generan son las realizadas en foros.

Entre las técnicas mas utilizadas están los iframes de 1×1 pixel (invisibles) con un montón de sites de afiliados, falsas imágenes (cookie dropping) enlazando a una imagen falsa con el código de afiliado, esto cargará una página de error de la página de afiliación pero el usuario ya tendrá la cookie en su sistema.

Realizando esto en foros con elevado tráfico y número de usuarios registrados, consigues una gran cantidad de usuarios con tu cookie persistente en su sistema, con lo que es más probable que alguno de ellos realice una compra que te genere beneficios.

Otra de las prácticas habituales en foros, son los Usser-bots. La mayoría de foros utilizan sistemas de seguridad obsoletos como los captchas, que son fácilmente sorteados por estos bots (el uso de los mismos sistemas SMF ,phpBB, vBulletin, etc en todos los foros facilita esta tarea). Estos sistemas generan una cantidad enorme de usuarios en poco tiempo manejados por robots, que postean de forma secuencial o aleatoria posts con los enlaces deseados.

Técnicas utilizadas son el “Comment SPAM“, mediante software especializado que suelen usar diccionarios de blogs con “dofollow” en comentarios. Estos sistemas publican comentarios de manera automática en estos blogs colocando enlaces a sus páginas con los “anchor text” deseados.

Otra práctica parecida es el “Trackback SPAM“, los sistemas utilizan las APIs públicas de los buscadores de blogs para seleccionar sitios mediante las tags utilizadas/deseadas. Este sistema certifica que el sitio responde con un trackback, y que no hace uso del atributo “nofollow” en estos enlaces. Si cumple los requisitos envia un ping desde el SPAM-Blog al sitio víctima, y una vez este coloca el trackback aplica un nofollow al enlace enviado.

El Hijacking antes mencionado, es otra de las técnicas muy utilizados para atacar blogs.

Existen muchas variaciones y aplicaciones de estas técnicas, pero creo que aqui teneis una muestra significativa de los principales ataques que podeis sufrir en vuestros sitios web.

Próximas Entregas de esta serie de artículos basados en el Webspam:

  1. Análisis de Contenido - ¿Que es LSA (Latent Semantic Analysis)?
  2. Information Retrieval - ¿Que y Como analizan los buscadores?
  3. Herramientas de Lucha Anti-SPAM
  4. Algoritmos Clásicos (Pagerank, Truncated Pagerank, TrustRank, HITS)
  5. Nuevos Algoritmos (VisioRank, WITH, Anti-Trust Rank…)
  6. Ejemplos Prácticos
  7. Protege tu Sitio
  8. Situación Actual: Valoración y Crítica

Entradas relacionadas

Comentarios

3 Respuestas para “Principales tecnicas de webspam”

  1. frase clave on Marzo 3rd, 2009 10:24

    frase clave…

    Muy interesante, gracias. Por curiosidad, una herramienta a tener en cuenta es Key sentences, te permite ver no solo que palabras son las más interesantes, sino las frases que más venden….

  2. ithinksearch on Marzo 27th, 2010 22:05

    Muy bien. Gracias Carlos.

  3. dobleveta on Abril 4th, 2011 1:54

    Disculpa key sentences es un programa de pago o gratuito

No hay mas respuestas




Cerrar
Enviar por Correo