Captcha me if you can
Il n’y a pas que Google à cultiver l’innovation avec ses “labs“, la recherche existe aussi chez Microsoft, et parfois même elle débouche sur des applications… gratuites (!), à l’instar d’Asirra, une nouvelle technologie destinée à lutter contre les robots SPAMMEURs. Car de même que des robots vous assomment de tonnes de SPAM dans vos boites, d’autres sont à la recherche de commentaires de blog à polluer, et autres formulaires à craquer dans le but de répandre la même bonne parole et les prix des magasins de viagra.
Pour lutter contre ces robots, l’outil le plus utilisé est sans doute le Captcha, un test basé sur la reconnaissance de caractères déformés (voir ci-dessous) qu’un humain est supposé être le seul à pouvoir reconnaître et qu’il doit donc saisir afin de se faire reconnaitre en tant que tel. Malheureusement (ou heureusement si l’on se place dans un spectre plus large), la reconnaissance des formes et caractères par les ordinateurs s’est fortement améliorée, à tel point que l’on arrive aux limites du système : les captchas déformés suffisamment pour passer au travers des mailles d’un robot … ne sont guère plus identifiables par un humain. Quant aux autres, la librairie PWNtcha en ridiculise déjà une partie. 
La solution proposée par Microsoft repose sur notre capacité à distinguer… un chien d’un chat ! Au lieu de proposer du texte à déchiffrer, on nous propose donc d’indiquer qui sont les chats parmi les photos proposées. Ces photos proviennent de la base de donnée de Petfinder, et chaque photo propose d’ailleurs un lien vers… la page d’adoption de l’animal photographié !
L’utilisation d’images avait déjà été envisagée par d’autres personnes, mais le problème résidait dans le nombre d’images différentes qui étaient disponibles. Car si la distinction devient très difficile, il reste possible de faire apprendre au robot la nature de chaque photo : plus la base est importante et volatile, moins il y a de risque que l’on puisse le faire. Grâce au partenariat, non seulement la base est énorme (2 millions d’images), mais elle se renouvèle en permanence.
Le problème de cette solution est principalement la place que le test occupe. Le test actuel propose de faire le tri parmi 12 photos, ce qui est cependant rapide, et nécessaire. Nécessaire car il faut qu’un robot ait suffisamment peu de chances d’avoir juste en répondant au hasard ! Mais 12 photos, ça transforme rapidement n’importe quel site en véritable animalerie.
Si vous désirez installer cette solution sur votre site, il vous suffit d’utiliser l’API proposée sur le site de Microsoft.

