Seguro que la mayoría de los lectores de este blog, han tenido que rellenar muchas veces formularios captcha para poderse dar de alta en una web o conseguir realizar una determinada acción en una web, etc… Un captcha no deja de ser un pequeño juego, un pequeño test, que nos solicita la resolución de un texto para comprobar que la persona que rellena el formulario es una persona y no una máquina.
Se estima que se suelen rellenar unos 200 millones de Captchas al día. Antiguamente un formulario podía ser rellenado miles de veces por segundo con un programa de ordenador consiguiendo así tener infinitas ventajas y eso conllevaba muchos problemas para las empresas. Los ordenadores, aunque sean muy potentes, todavía no son capaces de interpretar imágenes y los humanos si. Hasta aquí lo que posiblemente sabía el lector de los captcha.
Pero lo que no sabían es que su creador, Luis Von Ahn, realizó una evolución de los captchas tradicionales. Es lo que el llamó el proyecto “Recaptcha” (que vendió por una suculenta cifra a Google). ¿Qué es Recaptcha? , posiblemente si han rellenado un formulario últimamente habrán visto que el captcha individual se ha convertido en un capucha doble, formado por 2 palabras. Una de las palabras (no se sabe nunca si es la primera o la última) pertenece a la base de datos de los captchas correctos que los usuarios habían rellenado correctamente en los últimos 5 años ¿y el segundo? . Aquí viene lo curioso, resulta que a Luis Von Ahn le encargó una empresa muy importante el digitalizar todos los libros del mercado para introducirlo en sus libros digitales.
Con los libros modernos no hay problema pero… ¿qué pasa con los libros antiguos?. A pesar de que el proyecto tenía un presupuesto espectacular, se dieron cuenta que incluso con los ordenadores y escáneres más potentes del mercado, el OCR utilizado solo era capaz de traducir el 30% de las palabras de los libros antiguos de mas de 50 años (porque la tinta se ha desgastado, las páginas se han deteriorado,etc…) . Así que ¿Qué se le ocurrió a Luis Von Ahn?… unir ambos proyectos.
Individualizó cada una de las palabras que los escáneres y ordenadores que no había podido digitalizar y las metió en una base de datos. De allí saca Recaptcha la segunda palabra. El programa realiza un control con una de las 2 palabras (no nos dice cual) y si esa primera palabra es correcta, ya nos considera humanos (y no ordenadores), así que por la fé de que estamos obrando correctamente, siempre nos dará la segunda por correcta (sea o no sea correcta) y será la palabra digitalizada del libro.
Esta misma palabra se repite para 10 captchas diferentes de 10 personas diferentes. Cuando las 10 personas coinciden en la respuesta, el proyecto “Recaptcha” la considera correcta y supera el nivel de seguridad de calidad.
Se estima que se digitalizan por este medio, unas 100 millones de palabras diarias lo que supone 2 millones de libros al año. Así que cuando estamos rellenando un captcha, y sea doble, estarás ayudando a informatizar un libro muy antiguo que posiblemente algún día leas en tu libro digital…
Post publicado por: Jorge Tafalla
Especialista en diseño y desarrollo de interfaces.
Profesor en el área de informática en SEAS, Estudios Superiores Abiertos.