Ayuda:Spam

De Wikimedio, la enciclopedia libre.

Tabla de contenidos

Prohibido pegar carteles. Responsable: la empresa anunciante

No soy experto en programación, por tanto todo esto debe entenderse como una tentativa para poner en orden las observaciones al eliminar y tratar de someter a control las ingentes cantidades de spam que habían invadido el Wiki.

Como, por un lado, seguramente haya usuarios con conocimientos mucho más profundos sobre el tema, y por otro, todo el mundo puede aportar lo que ha ido observando sobre los bots que atacan el Wiki, éste mini-documento podría quedar bastante completo con la ayuda y la experiencia de todos; resultaría muy útil para que entre todos los usuarios podamos controlar el spam.

Comportamiento observado en los bots

Podríamos tratar de averiguar, basándonos en la forma de ataque, cuántos bots están publicando páginas; seguramente algunos de ellos sean un mismo programa comportándose de formas distintas, pero los datos de observación pueden ser de mucha ayuda a la hora de decidir cómo se aborda su control. Pongo una lista de lo que yo he observado, podéis ir añadiendo «conductas» diferentes, si las habéis observado.

No siempre está visible el spam en el modo normal de visualización de una página. A menudo el texto insertado está oculto dentro de un bloque HTML de altura igual a 1px, por lo que no es posible verlo si no es en el módo de edición de la página. He visto que casi todos los distintos bots a veces ocultan su texto y a veces no, aunque parece que algunos de ellos nunca lo hacen.

El comportamiento con mayor porcentaje de incidencia, con muchísima diferencia, hasta el momento que cerré todas las discusiones del espacio MediaWiki, era el de abrir de nuevas una página (discusión, en este caso) para empezar a escribir spam, aunque el spam más presente para los usuarios, que también tenía bastante incidencia, era el que se añadía a páginas legítimas. Son muy raras las ocasiones en que un bot elimina el contenido legítimo para escribir su spam, pero también se ha observado algunas veces.


Setmaster

Hay un bot, en mi opinión el más dañino en cuanto al consumo de recursos, que firma sus intervenciones al inicio con un ..."@setmaster". Cuelga entradas de más de medio mega. Si yo fuera un posicionador, estaría interesado en recabar de cuando en cuando información sobre el número de enlaces presentes y sus destinos. Si es así, imaginad una petición «a saco», tal y como sólo saben hacer los bots, en la que de golpe se soliciten varias de esas páginas.

Setmaster tiene usuario registrado, y por supuesto está baneado; aunque pude ver que rara vez usaba su registro para postear su spam.

En ocasiones coloca el texto en bloques invisibles, pero no siempre. Una página en blanco atacada por este bot tarda siempre bastante en cargar y muestra la caja de texto del artículo, aunque parezca vacía, antes que las pestañas con los enlaces en cabecera de las distintas acciones para el artículo [comportamiento con firefox].

Setmaster, por lo que me ha parecido (este dato se podrá corregir a medida que vayamos observando nuevos comportamientos) casi siempre cuelga su texto en páginas ya existentes, incluso a veces borrando el contenido previo, en ocasiones en páginas que «pertenecen» a otros bots.

El bot de las claves numéricas

Algún bot comienza sus ataques dispersando únicamente pequeños códigos numéricos en varias páginas. Casi siempre comenzaba por las discusiones de las páginas de mensajes de sistema (espacio MediaWiki).

Sospecho que con ello está creándose una especie de «base de datos paralela» con la que obtiene información sobre los lugares atacados, hacia dónde dirigirse, y el nivel de posicionamiento alcanzado por su actividad, si bien esto no es más que una mera conjetura. Lo cierto es que estas «cagaditas» preceden sus propias intervenciones de spam.

Es totalmente recomendable hacer desaparecer todos esos pequeños códigos numéricos en cuanto aparezcan, aunqe en realidad no molesten mucho, ya que la verdadera molestia viene después.

Los mensajes con verdadero contenido de spam aparecen casi siempre visibles en parte: se reconocen porque hay códigos numéricos precediendo a bloques de texto ocultos, pero visibles por un rectángulo gris bordeado en línea discontínua (al estilo de los bloques de texto preformateado en el Wiki). El verdadero span está oculto en esos bloques. Con mucha frecuencia reedita sus propias entradas y añade nuevo spam sin borrar la anterior edición.

El bot indigente

Hay otro bot que comienza sus textos con una disculpa, algo así como que le perdonemos por su desfachatez, pero él tiene que alimentar a sus hijos.

Sus entradas son indistintamente visibles u ocultas, y en ningún caso inserta saltos de línea legibles por el Wiki, de forma que cuando el spam es visible, aparece como un enorme bloque de texto-enlace todo seguido sin saltos.

No parece que haya actividad previa a sus ataques, aunque esto podría estar camuflado bajo otro comportamiento que en apariencia no esté relacionado con el resultado final.

El vendedor de humo

Un bot curiosísimo se dedica a escribir listas de enlaces en las que la primera parte de la URI es un número. Son todos enlaces inválidos, por lo que sospecho que no es un bot independiente, sino que se trata de algún comportamiento previo de alguno de los anteriores; como una especie de variante del bot de las claves numéricas.

El texto que se muestra como enlazado suele tener una apariencia que no es común en el spam convencional. Simula temas de interés en distintas áreas.

(Empiezo a pensar que éste es el único bot que tenemos, o como mucho, éste y otro. El vendedor de humo parece el primer estadio de un ataque más amplio. Ahora mismo está atacando entradas de usuarios anónimos -y algún registrado aislado- Piezas 14:15 9 oct, 2006 (CEST)).

El simulador de páginas vacías

No recordaba a este, pero en realidad tiene poca incidencia. En su spam siempre simula que la página está vacía, ocultando los bloques donde pega sus listas de enlaces, y dejando únicamente visible el texto (There is currently no text in this page), como un intento de que no se mire más a fondo al creer el usuario que se trata de un mensaje del Wiki (que, por cierto, se trata de un mensaje que este wiki no devuelve nunca, así que si aparece, seguro que debajo hay spam).

Suele registrar usuarios con los que ataca su propia página de usuario, su discusión, y a partir de ahí lo que encuentra. No es muy virulento ni su presencia frecuente.

65.77.131.**

A veces aparenta arreglos de usuario legítimo (por ejemplo, límitándose a reemplazar comillas por el código &quote;). Parece artesanal, pero tiene bastante trabajo hecho en el wiki en materia de bombardeo. Siempre usa ese rango IP (o cuando adopta esa "personalidad", siempre lo hace en ese rango).

Cómo abordar el spam

Más adelante podemos particularizar las estratégias para cada bot o cada comportamiento que hayamos ido encontrando, poniendo consejos en cada epígrafe de los de arriba, para que resulte más práctico.

De momento, sólo algunos consejos que se me ocurren con lo poco que hay hasta ahora:

  • Sea cual sea tu nivel de usuario, el texto constituido por spam, o que pueda servir para la propagación de spam (caso de los códigos numéricos) debe ser eliminado siempre, aunque el bot nos ponga ojitos tiennos, como hace el indigente. Pero hay que tener cuidado, y comprobar si el spam ha eliminado previamente texto legítimo, así que el consejo es que siempre examinéis antes el historial.
  • Si es posible, la mejor opción es revertir a una edición anterior, si se trata de un caso de spam añadido al texto legítimo. Pero también hay que tomar la precaución de comprobar después que el artículo haya sido revertido a una versión anterior correcta, pues no es el primer caso que encuentro en que la reversión se ha hecho hacia otra edición anterior del propio bot.
  • Para quien tenga permisos administrativos, y en los casos en que se trata de páginas abiertas y mantenidas exclusivamente por bots, lo mejor es eliminar completamente la página. Recomendable echar un vistazo después a "Restaurar X ediciones eliminadas" para ver si el ataque es muy insistente, y en tal caso, yo creo que lo mejor es reabrir la página con algún texto lo más breve posible en que se explique a los usuarios «humanos» qué se ha hecho y porqué, y se les de la posibilidad de avisar a los administradores si desean utilizar esa discusión de forma legítima. Posteriormente, se protege el artículo para que no pueda ser reutilizado por el bot de ninguna manera.
Personal tools