Reduciendo el spam

Cada día es más habitual la presencia de trolls en cualquier weblog, pero cuanto más conocido es, más spam recibe, y más comentarios de mal gusto e incluso entradas realizadas por robots enlazando a páginas porno. Éstos son fácilmente detectables, pero cuando ya se han sucedido y no hay más remedio que borrarlo, con la consiguiente pérdida de tiempo. Ésta fue una de las razones por las que microsiervos cerró sus comentarios en su día, que bien ha marcado un antes y un después, no sólo en ese blog, sino en toda la blogosfera. Tras ellos, ha habido numeros
as críticas, e incluso diversidad de opiniones sobre aquellos que piensan que ya no es un blog, o que si iban a reducirse las visitas o páginas vistas. Enrique Dans y kottke con su comment gardening log, nos enseñan más cosas sobre el cierre de comentarios.

Pero a lo que vamos, son las técnicas, conocidas como verificación de palabra, que se utilizan para reducir los segundos, esos robots que no son humanos, y que llenan de enlaces guarros todos nuestros comentarios. A lo largo de la semana pasada he recogido algunas de las más curiosas, que os junto en esta página.

La más original y la que me dio la idea de recopilarlas todas. Se trata de una simple suma aritmética, pero que no es bien interpretada por los robots. Parece ser suficiente, pero un robot bien programado, podría verificar el texto que hay antes del cuadro, ya que no es una imagen, sino texto entre etiquetas HTML. Aun así, parece dar buen resultado. Visto en Vitor Pamplona’s Weblog
Aquella palabra en una imagen que debido a sus formas irregulares, hace difícil su interpretación OCR por parte de los robots. El fallo que tiene es que se trata de una palabra de diccionario, que, aun con posibilidades muy remotas, podría vulnerar el sistema. Visto en periodismosocial
Muy parecida a la anterior pero más sencilla en la que aparecen las letras no alineadas verticalmente, pero en orden de lectura no. La cuadrícula hace imposible su reconocimiento OCR y no contiene el error de incluir palabras de diccionario para su posible hackeo; son letras sin sentido alguno. Visto en Americatel
La última y más curiosa de todas. En primer lugar aparece una imagen donde se ve claramente un objeto. Justo debajo aparece una lista de posibles objetos en el que se debe elegir correctamente de qué objeto se trata. En segundo lugar, por si el anterior método no es muy fiable, tenemos la verificación de palabra del apartado anterior, una secuencia de letras que no forman una palabra conocida, lo que le da robustez al sistema. Visto en SEP
La última categoría pertenece a aquellas imágenes que no es capaz de entender un humano normalmente. Están tan escondidas las letras con otras líneas y formas que hasta para un humano es difícil de descifrar. No he encontrado ninguna imagen.

Más entradas

Recupérate pronto, Schumi

¡Gracias Miliki!

El poker online, cada vez con más adictos

No hay tregua con los terroristas