• Con la ayuda de inteligencia artificial y sensores especiales, los robots de la próxima generación podrán realizar tareas que van desde comprender el habla en un entorno ruidoso hasta olfatear vino falso.

Esta es una traducción hecha por El Diario de la nota How computers with humanlike senses will change our lives, original de The Wall Street Journal, escrita por Angus Loten y Kevin Hand.

Incluso las computadoras más inteligentes no pueden comprender completamente el mundo sin la capacidad de ver, oír, oler, gustar o tocar. Pero en la carrera de décadas para hacer que el software piense como los humanos -y que los supere cuando se este en “riesgo!”- la idea de dotar a una máquina de sentidos similares a los humanos parecía descabellada. Ya no, afirman ingenieros e investigadores.

Las capacidades impulsadas por la inteligencia artificial, como el reconocimiento de imágenes o de voz, ya son características comunes de los teléfonos inteligentes y los asistentes virtuales. Ahora, los sensores personalizados, el aprendizaje automático y las redes neuronales, un subconjunto de la inteligencia artificial que imita la forma en que funcionan nuestros cerebros, están impulsando los sentidos digitales al siguiente nivel, creando robots que pueden decir cuándo un paquete es frágil, oler un radiador sobrecalentado o identificar Chardonnay falso.

El entusiasmo en torno a la Inteligencia Artificial está aumentando y gran parte de la investigación se encuentra en las primeras etapas. Aquí, analizamos 10 modelos de trabajo y prototipos de inteligencia artificial (IA) con habilidades sensoriales.

Ver claramente

La mayoría de los robots “ven” el mundo emitiendo rayos de luz infrarroja, conocidos como sensores de profundidad, que no son buenos para detectar objetos transparentes. Los ingenieros de la Universidad Carnegie Mellon están combinando estos sensores con cámaras a color que pueden detectar matices rojos, verdes o azules alrededor de los bordes de vasos o vasos de plástico.

Los robots no son buenos para manipular botellas de vidrio o vasos de plástico transparente. Esto se debe a que la mayoría de los sistemas visuales utilizan rayos infrarrojos, conocidos como sensores de profundidad, para determinar la forma de los objetos, y brillan a través de materiales transparentes, capturando solo sombras vagas. 

Los ingenieros de la Universidad Carnegie Mellon emparejaron un sensor de profundidad con una cámara a color estándar para llenar los vacíos de datos al capturar tonos de rojo, verde y azul alrededor de los bordes de los objetos transparentes. Luego, volvieron a entrenar el sistema para reconocer estas señales visuales sutiles y permitir que un brazo robótico ajuste su agarre. “Su visión es más similar a la forma en que funciona la cámara a color”, dice David Held, profesor asistente en el Instituto de Robótica Carnegie Mellon. «No envías láseres y ves cuánto tardan en recuperarse».

Robots con imaginación

El fabricante de software OpenAI ha desarrollado una aplicación impulsada por IA, denominada DALL-E, que puede generar imágenes de escenas fantásticas a partir de texto escrito por los usuarios. CLIP, una segunda aplicación, va en sentido inverso, generando texto descriptivo a partir de imágenes ingresadas. Ambas aplicaciones usan una red neuronal que «mastica y digiere» datos de una vasta biblioteca de imágenes y texto, hasta que genera imágenes o texto completamente nuevos que coinciden con la entrada inicial, dice Ilya Sutskever, cofundador y científico jefe de OpenAI. Los sistemas podrían usarse para generar versiones visuales de libros de texto o películas fotorrealistas a partir de un guion, entre otras aplicaciones. Sutskever dice que las redes neuronales ofrecen no solo un vistazo a la forma en que los sistemas de visión por computadora «ven» el mundo, sino que también pueden brindar información sobre la mente humana

El sonido juega un papel cada vez más importante para ayudar a los robots a diferenciar entre objetos, lo que podría ayudarlos a detectar defectos ocultos en productos en una línea de ensamblaje o determinar el contenido de paquetes sin abrir. Los investigadores de Carnegie Mellon crearon una base de datos de sonidos e imágenes digitalizados empujando bloques de juguete, herramientas manuales, manzanas, zapatos y pelotas de tenis, utilizando un Tilt-Bot hecho a medida con una bandeja incorporada unida a un brazo robótico. Finalmente, grabaron más de 15.000 sonidos diferentes producidos por 60 objetos domésticos. 

Después de que los datos digitalizados se introdujeron en un modelo de aprendizaje automático, el sistema entrenado se familiarizó tanto con cada sonido que pudo identificar correctamente los objetos invisibles alrededor del 75% del tiempo, dicen los investigadores. 

Aún más sorprendente, dice el investigador de Carnegie Mellon, Abhinav Gupta, fue su capacidad, de vez en cuando, de tomar lo que aprendió al escuchar un conjunto de objetos y adivinar las propiedades generales de objetos similares: si suena como una pelota de tenis, es probable que sea algo así como una pelota de goma rebotando.

Una voz en la multitud

Las redes neuronales también se están capacitando para distinguir entre voces y ruido, o para separar múltiples voces para enfocarse en un orador principal, ambas habilidades útiles en salas abarrotadas o calles concurridas. Douglas Beck, vicepresidente de ciencias académicas del fabricante de audífonos Oticon Inc., dice que el enfoque utiliza una especie de filtro de la era digital. Los algoritmos se alimentan de millones de muestras de voz, con y sin ruido de fondo, para aislar las características únicas del habla humana y suprimir todo lo demás. 

Una vez entrenado, cada vez que un dispositivo capta y digitaliza un sonido, las redes neuronales recorren patrones de datos para separar las voces de un martillo hidráulico cercano o concentrarse en el patrón específico de una voz. Los implantes cocleares con red neuronal, guiados por impulsos eléctricos en el cerebro, algún día podrían permitir que las personas con pérdida auditiva profunda recuperen el control de lo que escuchan, o no quieren escuchar, dice Beck.

Pasar la prueba de olfato

Los biosensores personalizados pueden actuar como una nariz robótica al recolectar moléculas de olor del aire.

Al construir una base de datos de percepciones de olores, las redes neuronales pueden predecir cómo reaccionarán las personas a combinaciones novedosas de aromas, ofreciendo potencialmente alternativas seguras a los químicos tóxicos en los productos domésticos y otros bienes.

Aryballe, una empresa de software de inteligencia artificial con sede en Francia, combina biosensores y aprendizaje automático para imitar el proceso que utilizan nuestros cerebros para identificar y diferenciar los olores, un área conocida como olfato digital. Mientras que el sensor capta moléculas de olor en el aire y las codifica en datos que representan firmas digitales únicas, las redes neuronales mezclan y combinan esos datos dentro de una base de datos masiva de rasgos previamente analizados, como rancio, dulce, afrutado o avinagrado, o combinaciones únicas. También se le puede enseñar a elegir fragancias específicas, como un tipo de grano de cacao o una marca de perfume. “Se supone que Chanel No. 5 huele de cierta manera. Si bien una falsificación al principio huele similar, podemos estar absolutamente seguros de que no es Chanel”, dice Sam Guilamé, director ejecutivo de Aryballe.

Detenerse a oler las rosas

Un par de investigadores de la Universidad de California en Riverside van un paso más allá, utilizando un sistema de aprendizaje automático que puede predecir cómo reaccionarían las personas a una fragancia antes de olerla. Para hacer eso, examinaron los patrones de actividad del receptor de olor en la cavidad nasal cuando se expuso a diferentes compuestos, en categorías como “limón” y “perro mojado”. Luego crearon una base de datos gigante de estos patrones observados en aproximadamente 40 receptores (los humanos tienen unos 400) y entrenaron un modelo de software para analizar esos datos y medir cómo reaccionarían los receptores a diferentes olores. “Nuestro modelo nos llevó a una posible explicación biológica de cómo podemos distinguir el olor de una rosa entre un ramo de flores”, dice Anandasankar Ray, profesor de biología molecular, celular y de sistemas que dirigió la investigación.

¿Tu taza de té?

Un dispositivo de bolsillo llamado Hypertaste, desarrollado por IBM, puede “tomar huellas digitales” de un líquido al capturar su composición molecular.

Científicos de la división de investigación de la International Business Machines en Zúrich está desarrollando un dispositivo de bolsillo, denominado Hypertaste, también llamado lengua eléctrica, que consta de sensores electroquímicos hechos de una serie de electrodos. 

Colocados en el borde de un vaso, los electrodos del dispositivo responden a diferentes moléculas en líquidos que le dan al vino o la soda un sabor único, creando un código de señales eléctricas que se convierten en la “huella digital” de la bebida, dice Patrick Ruch, investigador principal del proyecto. Los algoritmos de aprendizaje automático comparan estas huellas digitales en una base de datos en crecimiento. 

Una vez que se encuentra una coincidencia, los resultados se pueden enviar a una aplicación de teléfono inteligente que permite a los usuarios identificar la bebida como Pinot Noir o Pepsi. Al ajustar los datos, el proceso también puede predecir la intensidad de las bebidas, como café fuerte o cócteles aguados.

Una base de datos sabrosa

Gastrograph AI, creado por Analytical Flavor Systems Inc., con sede en Nueva York, es una plataforma de autoaprendizaje que tiene como objetivo predecir cómo reaccionarán las personas a los nuevos productos alimenticios. Funciona entrenando un modelo digital para hacer referencias cruzadas de los datos recopilados de miles de consumidores que califican los platos en una aplicación móvil con categorías como pescado, picante, amaderado, afrutado o floral, y subcategorías más matizadas, como un tinte de manzana verde u ombligo naranja, dice Jason Cohen, fundador y CEO de la empresa. El sistema desglosa los datos en patrones complejos de gustos y preferencias de gráficos de araña, guardados en una base de datos en constante expansión, que se puede usar para simular cómo los consumidores en un mercado dado tomarán productos novedosos, como la cerveza litchi o las cotufas de sandía.

Todos los sentimientos

GelSight, una tecnología desarrollada en el MIT, equipa los brazos robóticos con una pequeña almohadilla de gel que se puede presionar en los objetos para medir su textura y forma.

Los robots de almacenes y líneas de producción manipulan paquetes o piezas de automóviles todo el tiempo. ¿Pero los sienten? GelSight, una tecnología desarrollada por investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del Instituto de Tecnología de Massachusetts, utiliza un brazo robótico con un pequeño bloque de goma en el extremo que se puede presionar contra objetos, como una moneda de diez centavos o un lápiz. Una cámara convierte la impresión en una imagen digital 3-D, lo que permite que la visión por computadora y los modelos algorítmicos determinen el tamaño y la forma del objeto, y proporcionen información crucial, como cuánta fuerza se necesita para sostenerlo o equilibrarlo, a una pinza robótica.

Una vez que se digitaliza un objeto, “cualquier cosa que pueda hacer con una imagen, puede hacerlo con el tacto“ , dice Ted Adelson, neurocientífico del MIT que dirigió la investigación. La tecnología, que en pruebas posteriores se ha reducido al tamaño de la yema de un dedo, da a los robots una mayor destreza y se puede aplicar en cualquier lugar, desde almacenes hasta quirófanos.

El tacto humano

Los humanos dan por sentadas muchas habilidades táctiles complejas, como encontrar las llaves en un bolsillo o abrocharse una camisa sin mirar. Los robots aún tienen que aprender eso, dice Yunzhu Li, investigador del MIT. El equipo de Li está trabajando para cerrar la brecha entre el tacto y la vista entrenando un sistema de inteligencia artificial para predecir cómo se siente un objeto visto y cómo se ve un objeto sentido. 

Para hacer eso, construyeron un conjunto de datos de millones de emparejamientos táctiles-visuales, recopilados a partir de videos de cámaras web de 200 objetos cotidianos tocados miles de veces por un sensor táctico GelSight. VisGel, el conjunto de datos resultante, se está utilizando para entrenar modelos de inteligencia artificial para generar las coincidencias más probables de tacto a partir de datos visuales o imágenes de datos tácticos. “Los seres humanos desarrollamos capacidades a partir de la experiencia a lo largo de nuestra vida”, Li. “Las redes neuronales pueden aprender mucho más rápido“, concluye.

Noticias relacionadas