Se desarrolla una nueva tecnología para buscar imágenes en la red

Uno podría pensar que se puede encontrar casi cualquier cosa en Internet. Sin embargo, los motores de búsqueda generalmente encuentran una imagen dada sólo si el texto escrito por quien la busca es igual que el texto con el que fue etiquetada. Y las etiquetas pueden ser poco confiables, poco útiles o simplemente inexistentes.

Para eliminar esos límites, los científicos necesitarán crear una nueva generación de tecnologías de búsqueda visual –o si no, como lo expresó hace poco la científica computacional Fei-Fei Li, de la Universidad de Stanford, en California, la Red correrá peligro de «apagarse».

Ahora, junto con científicos computacionales de la Universidad de Princeton, en Nueva Jersey, Li, de 36 años, ha creado la base de datos visual más grande del mundo en un esfuerzo por imitar al sistema de la visión humana. Con más de 14 millones de objetos etiquetados, desde obsidiana hasta orangutanes y ocelotes, la base de datos se ha vuelto un recurso vital para los investigadores de visión computacional.

Las etiquetas fueron creadas por humanos. Sin embargo, ahora las máquinas pueden aprender a reconocer objetos similares que no han sido etiquetados al usar la extensa base de datos, lo que hace posible un aumento asombroso en la precisión del reconocimiento.

«Mi sueño desde hace mucho tiempo ha sido desarrollar un sistema de visión que reconozca al mundo de la forma en que lo hacen los humanos», dijo Li. Cuando comenzó a armar su sistema, en el 2007, relató, las únicas alternativas eran las bases de datos que reconocían solamente unos cuantos tipos de objetos.

«En la era de Internet, enfrentamos repentinamente una explosión en términos de datos en imágenes», dijo. «Facebook tiene 200 mil millones de imágenes y ahora la gente sube 72 horas de video nuevo a YouTube cada minuto».

Li señaló que la tarea podría tomarle décadas a un estudiante, pero que Mechanical Turk, el sistema de Amazon.com que organiza a miles de personas para que realicen pequeñas tareas, era la forma perfecta para construir su base de datos.

Cada año, ImageNet emplea hasta 30 mil personas a las que se les presentan imágenes para que sean etiquetadas, y quienes reciben un pago diminuto por cada una. Los empleados de Mechanical Turk, conocidos como «turkers», identifican alrededor de 250 imágenes en cinco minutos. La base de datos de ImageNet cuenta ahora con 14.197.122 imágenes.

Samy Bengio, científico de investigación en Google, dijo que ImageNet ha «ayudado a algunos investigadores a desarrollar algoritmos que de otro modo nunca podrían haber producido».

Sin embargo, añadió que ImageNet no era perfecta. Para organizar la inmensa colección de imágenes, Li utiliza WordNet, una base de datos de palabras en inglés diseñada por el psicólogo George A. Miller, de Princeton, quien falleció en julio, a los 92 años.

Para Bengio, las categorías de ImageNet son demasiado elevadas.

«Hubiera preferido que las categorías elegidas en ImageNet reflejaran más la distribución de intereses de la población», dijo. «La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en un tipo poco común de diplodocus».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *