¿Que es el Webspam?

Mi colaboración en el Search Congress de Barcelona trataba sobre el Webspam. Me podían encontrar en el Google Corner, junto a Judith Garcia – AdWords Account Strategist – de Google España, y el viernes también gozamos con la presencia de Eva Visiers – Google Analytics Specialist -.

Los Corners no funcionaron todo lo bien que nos hubiera gustado, pero aprovecharé mi presentación para ir publicando una serie de post sobre Webspam, analizando este tema desde dos puntos de vista:

  • Webspammers «Los Malos»: Nuevas amenazas, Quienes Son, Como Actuan, Que técnicas utilizan, Como aprovechan la Web 2.0, Porque son «Los Malos», etc
  • Buscadores «Los Buenos»: Que consideran Webspam, Como lo detectan, Que miden, Herramientas y Algoritmos que usan, o usarán en el futuro para combatir estas amenazas para la calidad de sus resultados. Y por supuesto una valoración y crítica final sobre la efectividad de estas medidas de Lucha Anti-Spam.

El SPAM ha sido relacionado históricamente con el spam por correo electrónico, pero con la evolución de la red han aparecido nuevas amenazas como el Web-SPAM, o el mas reciente Mobile-SPAM relacionados por la intención de los atacantes, pero diferente en los métodos y medios utilizados.

Empezamos con una definición generalista, ¿Que es el webspam?:

El WebSpam es la práctica de la manipulación de páginas web con el único objetivo de obtener tráfico ilícito mediante diversas técnicas, con la intención de obtener algún tipo de beneficio.

Básicamente se trata de conseguir indexar páginas de escasa calidad y contenidos, en los motores de búsqueda, intentando alterar las SERPS para diferentes búsquedas clave. También alterando páginas de terceros de las que robar tráfico mediante inyección de enlaces, intrusión en servidores, etc. Todo esto con el fin de obtener un tráfico del que sacar un beneficio. Pueden ser prácticas enfocadas a obtener un trafico cualificado (para keywords especificas), o bien por volumen (a base de saturación de páginas indexadas explotando la Long Tail).

Entre las motivaciones que mueven a los webspammers:

  • Obtención de PageRank (Posicionamiento, Venta de Enlaces, etc)
  • ClickThroughs (Monetización de Ad-SPAM pages, Affiliates Cookies Stuffing, etc)
  • Pruebas SPAM (Pruebas de SPAM agresivo, para testear y optimizar sus técnicas)
  • Perjudicar a Terceros (Competencia entre empresas)
  • Motivaciones Políticas y Religiosas (relacionadas con los fanatismos ideológicos, políticos y religiosos)

En esta serie de artículos obviaré algunas de las prácticas más conocidas y documentadas en la red como las páginas “doorway”, texto oculto, spam en weblogs y libros de visita, sobreoptimización de palabras clave, compra y venta de enlaces. Ya que podeis encontrar muchísima información publicada al respecto.

Me centraré en las amenazas menos conocidas, o más recientes. Intentando explicar de la manera más sencilla posible la parte técnica de este tipo de prácticas.

Una vez presentada seguiremos la serie de post sobre la Lucha Anti-SPAM con este orden:

  1. Principales Técnicas de Webspam (Spamdexing/Spining, Cloaking, Hijacking…)
  2. Análisis de Contenido – ¿Que es LSA (Latent Semantic Analysis)?
  3. Information Retrieval – ¿Que y Como analizan los buscadores?
  4. Herramientas de Lucha Anti-SPAM
  5. Algoritmos Clásicos (Pagerank, Truncated Pagerank, TrustRank, HITS)
  6. Nuevos Algoritmos (VisioRank, WITH, Anti-Trust Rank…)
  7. Ejemplos Prácticos
  8. Protege tu Sitio
  9. Situación Actual: Valoración y Crítica

El objetivo es que al terminar esta serie de post, haya podido explicaros que es el Webspam, que practicas llevan a cabo y como protegeros del mismo, así como lo que están haciendo los buscadores para intentar mejorar los resultados de búsqueda.

Algunos apuntes finales:

  • Si eres un Webspammer aqui no aprenderas nada (no se trata de webspam, sino de Lucha Anti-Webspam)
  • Gracias al conocimiento de como funcionan realmente los algoritmos, podrás mejorar tus conocimientos SEO.
  • Es posible que emplee terminología, o aparezcan contenidos paralelos que no explicaré para no alargarme demasiado.
  • El objetivo final, es que se comprenda de una vez por todas la gran diferencia que existe entre SEO y SPAM. Comprender la diferencia entre el trabajo de posicionar una pagina, y la amenaza SPAM. Y comprender el tamaño y complejidad que el webspam ha alcanzado en la red.
  • Al final colgaré la presentación completa en PDF para que podais descargarla.

6 opiniones en “¿Que es el Webspam?”

  1. Hola Carlos.

    Genial el post y estoy deseando ver el resto de la saga ya que en la presentación que vimos en el corner del search congress nos quedamos a medias y me quede con las ganas.

    Eres un crack explicándolo y por lo menos nos enteramos mas de como va este interesante tema saliendo de los tecnicismos del IR que a veces se hace complejo entender.

    Un abrazo!

  2. La verdad es que ha sido muy interesante el articulo, hace poco leí algo del cloaking y sin enterarte te pueden hackear la web y estás K.O hay que ir con mucho cuidado pues los buscadores te desindexan.

  3. Hola Jose Alberto, gracias por comentar.

    Solo aclararte que hacer cloaking es una práctica Black Hat SEO basada en ocultar información al buscador mostrándole un contenido diferente del que se le muestra al usuario. No tiene nada que ver con las técnicas de pirateo para reventar paginas web (algo bastante habitual cuando se usan CMS estándar).

    Un saludo

  4. Tus artículos son muy interesantes, gracias a ellos creo haber descubierto, o al menos tengo mis sospechas, de que puedo estar siendo victima de este tipo de técnicas, ya que tengo algunas webs que ultimamente no dejan de consumir transferencia. la pega es que no soy capaz de detectar los códigos maliciosos ni se que hacer ya. Esperare impaciente a que èscribas algo sobre como protegerse de estos ataques. Felicidades por el blog y gracias.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.