viernes, 31 de marzo de 2023

Robots que aprenden de videos de actividades humanas e interacciones simuladas

Robots que aprenden de videos de actividades humanas e interacciones simuladas

 https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/

 La ciencia ficci贸n optimista generalmente imagina un futuro en el que los humanos crean arte y persiguen pasatiempos satisfactorios mientras que los robots habilitados para IA manejan tareas aburridas o peligrosas. Por el contrario, los sistemas de IA de hoy en d铆a muestran habilidades generativas cada vez m谩s sofisticadas en tareas aparentemente creativas. Pero, ¿d贸nde est谩n los robots? Esta brecha se conoce como la paradoja de Moravec, la tesis de que los problemas m谩s dif铆ciles en IA involucran habilidades sensoriomotoras, no pensamiento o razonamiento abstracto. Para decirlo de otra manera, "los problemas dif铆ciles son f谩ciles y los problemas f谩ciles son dif铆ciles".

Hoy, estamos anunciando dos avances importantes hacia agentes de IA incorporados de prop贸sito general capaces de realizar habilidades sensoriomotoras desafiantes:

Una corteza visual artificial (llamada VC-1): un modelo de percepci贸n 煤nico que, por primera vez, admite una amplia gama de habilidades sensoriomotoras, entornos y encarnaciones. VC-1 est谩 capacitado en videos de personas que realizan tareas cotidianas a partir del innovador conjunto de datos Ego4D creado por Meta AI y socios acad茅micos. Y VC-1 iguala o supera los resultados m谩s conocidos en 17 tareas sensoriomotoras diferentes en entornos virtuales.

Un nuevo enfoque llamado coordinaci贸n de habilidades adaptativas (sensomotoras) (ASC), que logra un rendimiento casi perfecto (98 por ciento de 茅xito) en la desafiante tarea de la manipulaci贸n m贸vil rob贸tica (navegar a un objeto, levantarlo, navegar a otra ubicaci贸n, colocar el objeto, repetici贸n) en entornos f铆sicos.

Los datos impulsan estos dos avances. La IA necesita datos de los que aprender y, espec铆ficamente, la IA incorporada necesita datos que capturen las interacciones con el entorno. Tradicionalmente, estos datos de interacci贸n se recopilan recopilando grandes cantidades de demostraciones o permitiendo que el robot aprenda de las interacciones desde cero. Ambos enfoques requieren demasiados recursos para escalar hacia el aprendizaje de un agente de IA incorporado general. En ambos trabajos, estamos desarrollando nuevas formas para que los robots aprendan, utilizando videos de interacciones humanas con el mundo real e interacciones simuladas dentro de mundos simulados fotorrealistas.

En primer lugar, hemos creado una forma para que los robots aprendan de las interacciones humanas del mundo real mediante el entrenamiento de un modelo de representaci贸n visual de prop贸sito general (una corteza visual artificial) a partir de una gran cantidad de videos egoc茅ntricos. Los videos incluyen nuestro conjunto de datos Ego4D de c贸digo abierto, que muestra vistas en primera persona de personas que realizan tareas cotidianas, como ir al supermercado y preparar el almuerzo. En segundo lugar, hemos creado una forma de entrenar previamente a nuestro robot para realizar tareas de reordenamiento de largo plazo en simulaci贸n. Espec铆ficamente, entrenamos una pol铆tica en entornos Habitat y transferimos la pol铆tica zero-shot a un robot Spot real para realizar dichas tareas en espacios desconocidos del mundo real.

 Hacia una corteza visual artificial para la inteligencia encarnada
Una corteza visual es la regi贸n del cerebro que (junto con la corteza motora) permite que un organismo convierta la visi贸n en movimiento. Estamos interesados en desarrollar una corteza visual artificial: el m贸dulo en un sistema de IA que permite a un agente artificial convertir la entrada de la c谩mara en acciones.

Nuestro equipo FAIR, junto con colaboradores acad茅micos, ha estado a la vanguardia del desarrollo de representaciones visuales de prop贸sito general para IA incorporada entrenada a partir de conjuntos de datos de video egoc茅ntricos. El conjunto de datos Ego4D ha sido especialmente 煤til, ya que contiene miles de horas de video de c谩mara port谩til de participantes de investigaci贸n de todo el mundo que realizan actividades de la vida diaria, como cocinar, limpiar, hacer deportes y hacer manualidades.

Por ejemplo, un trabajo anterior de nuestro equipo (R3M) utiliza la alineaci贸n temporal y de texto y video dentro de los cuadros de video Ego4D para aprender representaciones visuales universales compactas para la manipulaci贸n rob贸tica. Otro trabajo (VIP) utiliza marcos Ego4D para aprender una representaci贸n visual procesable efectiva que tambi茅n puede realizar una especificaci贸n de recompensa visual de tiro cero para capacitar a agentes encarnados. Estos son ilustrativos de la tendencia m谩s amplia en la comunidad de investigaci贸n (por ejemplo, PVR, OVRL, MVP) hacia el entrenamiento previo de representaciones visuales a partir de im谩genes web y videos egoc茅ntricos.

Aunque el trabajo anterior se ha centrado en un peque帽o conjunto de tareas rob贸ticas, una corteza visual para la IA incorporada deber铆a funcionar bien para un conjunto diverso de tareas sensoriomotoras en diversos entornos en diversas realizaciones. Si bien los trabajos anteriores sobre el entrenamiento previo de las representaciones visuales nos dan una idea de lo que puede ser factible, son fundamentalmente inconmensurables, con diferentes formas de entrenar previamente las representaciones visuales en diferentes conjuntos de datos, evaluados en diferentes tareas de IA incorporada. La falta de consistencia significaba que no hab铆a forma de saber cu谩l de las representaciones visuales preentrenadas existentes era la mejor.

Como primer paso, seleccionamos CortexBench, que consta de 17 tareas sensoriomotoras diferentes en simulaci贸n, que abarcan locomoci贸n, navegaci贸n y manipulaci贸n h谩bil y m贸vil, implementando el est谩ndar comunitario para aprender la pol铆tica para cada tarea. Los entornos visuales abarcan desde planos planos infinitos hasta configuraciones de mesa y escaneos 3D fotorrealistas de espacios interiores del mundo real. Las realizaciones de los agentes var铆an desde brazos estacionarios hasta manos diestras, agentes de navegaci贸n cil铆ndricos idealizados y manipuladores m贸viles articulados. Las condiciones de aprendizaje var铆an desde el aprendizaje por imitaci贸n de unos pocos disparos hasta el aprendizaje por refuerzo a gran escala. Esto nos permiti贸 realizar una evaluaci贸n rigurosa y consistente de los modelos preentrenados existentes y nuevos. Antes de nuestro trabajo, el mejor rendimiento para cada tarea en CortexBench se lograba mediante un modelo o algoritmo dise帽ado espec铆ficamente para esa tarea. Por el contrario, lo que queremos es un modelo y/o algoritmo que logre un rendimiento competitivo en todas las tareas. Los organismos biol贸gicos tienen una corteza visual de prop贸sito general, y eso es lo que buscamos para los agentes encarnados.

 

 Nos propusimos preentrenar una sola corteza visual de prop贸sito general que pueda desempe帽arse bien en todas estas tareas. Una elecci贸n cr铆tica para el entrenamiento previo es la elecci贸n del conjunto de datos. No estaba del todo claro c贸mo ser铆a un buen conjunto de datos de preentrenamiento para la IA incorporada. Hay cantidades masivas de datos de video disponibles en l铆nea, pero no es pr谩ctico probar todas las combinaciones de esos conjuntos de datos existentes.

Comenzamos con Ego4D como nuestro conjunto de datos central y luego exploramos si agregar conjuntos de datos adicionales mejora los modelos preentrenados. Tener un video egoc茅ntrico es importante porque permite que los robots aprendan a ver desde una perspectiva en primera persona. Dado que Ego4D se centra en gran medida en actividades cotidianas como cocinar, hacer jardiner铆a y hacer manualidades, tambi茅n consideramos conjuntos de datos de video egoc茅ntricos que exploran casas y apartamentos. Finalmente, tambi茅n estudiamos si los conjuntos de datos de im谩genes est谩ticas ayudan a mejorar nuestros modelos.

Acumulativamente, nuestro trabajo representa el estudio emp铆rico m谩s grande y completo hasta la fecha de representaciones visuales para IA incorporada, que abarca m谩s de 5 representaciones visuales preentrenadas de trabajos anteriores y m煤ltiples ablaciones de VC-1 entrenadas en m谩s de 4000 horas de video humano egoc茅ntrico de siete diversos conjuntos de datos, que requirieron m谩s de 10 000 GPU-horas de capacitaci贸n y evaluaci贸n.

En la actualidad, ofrecemos VC-1 de c贸digo abierto, nuestro mejor modelo de corteza visual siguiendo los valores de investigaci贸n abierta de FAIR para el beneficio de todos. Nuestros resultados muestran que las representaciones de VC-1 coinciden o superan el aprendizaje desde cero en las 17 tareas. Tambi茅n encontramos que la adaptaci贸n de VC-1 en datos relevantes para la tarea hace que se vuelva competitivo o supere los resultados m谩s conocidos en todas las tareas en CortexBench. Hasta donde sabemos, VC-1 es el primer modelo visual preentrenado que ha demostrado ser competitivo con resultados de 煤ltima generaci贸n en un conjunto tan diverso de tareas de IA incorporadas. Estamos compartiendo nuestros aprendizajes detallados, como c贸mo escalar el tama帽o del modelo, el tama帽o del conjunto de datos y la diversidad afectan el rendimiento de los modelos preentrenados, en un art铆culo de investigaci贸n relacionado.

Coordinaci贸n de habilidades adaptativas para la manipulaci贸n m贸vil rob贸tica
Si bien VC-1 demuestra un desempe帽o s贸lido en las habilidades sensoriomotoras en CortexBench, estas son tareas de corto plazo (navegar, recoger un objeto, manipular un objeto con la mano, etc.). La pr贸xima generaci贸n de agentes de IA incorporados (implementados en robots) tambi茅n deber谩 realizar tareas a largo plazo y adaptarse a entornos nuevos y cambiantes, incluidas las perturbaciones inesperadas del mundo real.

Nuestro segundo anuncio se centra en la selecci贸n y el lugar m贸viles: se inicializa un robot en un nuevo entorno y se le asigna la tarea de mover objetos desde las ubicaciones iniciales a las deseadas, emulando la tarea de ordenar una casa. El robot debe navegar hasta un recept谩culo con objetos, como el mostrador de la cocina (se le proporciona la ubicaci贸n aproximada), buscar y elegir un objeto, navegar hasta el recept谩culo del lugar deseado, colocar el objeto y repetir.

 Para abordar tareas de tan largo plazo, nosotros y nuestros colaboradores de Georgia Tech desarrollamos una nueva t茅cnica llamada Coordinaci贸n de habilidades adaptativas (ASC), que consta de tres componentes:

●Una biblioteca de habilidades sensoriomotoras b谩sicas (navegaci贸n, selecci贸n, lugar)

Una pol铆tica de coordinaci贸n de habilidades que elige qu茅 habilidades son apropiadas para usar en qu茅 momento

Una pol铆tica correctiva que adapta las habilidades preentrenadas cuando se perciben estados fuera de distribuci贸n

Todas las pol铆ticas sensoriomotoras son “libres de modelos”. Usamos redes neuronales de sensores a acciones sin m贸dulos espec铆ficos de tareas, como mapeo o planificaci贸n. El robot se entrena completamente en simulaci贸n y se transfiere al mundo f铆sico sin ning煤n dato de entrenamiento del mundo real.

 Demostramos la eficacia de ASC al implementarlo en el robot Spot de Boston Dynamics en entornos nuevos/desconocidos del mundo real. Elegimos el robot Boston Dynamics Spot debido a sus s贸lidas capacidades de detecci贸n, navegaci贸n y manipulaci贸n. Sin embargo, operar Spot hoy en d铆a implica una gran cantidad de intervenci贸n humana. Por ejemplo, elegir un objeto requiere que una persona haga clic en el objeto en la tableta del robot. Nuestro objetivo es construir modelos de IA que puedan sentir el mundo a partir de sensores integrados y comandos de motores a trav茅s de las API de Boston Dynamics.

Usando el simulador Habitat y los conjuntos de datos HM3D y ReplicaCAD, que incluyen escaneos 3D de interiores de 1000 casas, ense帽amos a un robot Spot simulado a moverse por una casa invisible, recoger objetos fuera de lugar y colocarlos en la ubicaci贸n correcta. . A continuaci贸n, implementamos esta pol铆tica de tiro cero en el mundo real (sim2real) sin construir expl铆citamente un mapa en el mundo real y, en su lugar, confiamos en nuestro robot para usar su noci贸n aprendida de c贸mo son las casas.

Cuando pusimos a prueba nuestro trabajo, utilizamos dos entornos del mundo real significativamente diferentes en los que se le pidi贸 a Spot que reorganizara una variedad de objetos: un apartamento completamente amueblado de 185 metros cuadrados y un laboratorio universitario de 65 metros cuadrados. En general, ASC logr贸 un rendimiento casi perfecto, con 茅xito en 59 de 60 (98 por ciento) episodios, superando inestabilidades de hardware, detectando fallas y perturbaciones adversas como obst谩culos en movimiento o caminos bloqueados. En comparaci贸n, las l铆neas de base tradicionales, como la planificaci贸n de tareas y movimientos, solo tienen 茅xito en el 73 % de los casos, debido a la incapacidad de recuperarse de las perturbaciones del mundo real. Tambi茅n estudiamos la robustez frente a las perturbaciones de los adversarios, como cambiar el dise帽o del entorno, caminar frente al robot para bloquear repetidamente su camino o mover objetos objetivo en medio del episodio. A pesar de haber sido entrenado completamente en simulaci贸n, ASC es resistente a tales perturbaciones, lo que lo hace muy adecuado para muchos problemas a largo plazo en rob贸tica y aprendizaje por refuerzo.

Esto abre v铆as para que la investigaci贸n de sim2real se expanda a tareas del mundo real a煤n m谩s desafiantes, como la asistencia en tareas cotidianas como cocinar y limpiar, e incluso la colaboraci贸n entre humanos y robots. Nuestro trabajo es un paso hacia los asistentes rob贸ticos escalables, robustos y diversos del futuro que pueden operar en nuevos entornos listos para usar y no requieren una costosa recopilaci贸n de datos del mundo real.

Repensar la transferencia sim2real

Una de las tareas m谩s importantes en el aprendizaje sim2real es construir modelos de simulaci贸n que reflejen fielmente el comportamiento del robot en el mundo real. Sin embargo, esto es un desaf铆o, ya que el mundo real es vasto y cambia constantemente, y el simulador necesita capturar esta diversidad. Ning煤n simulador es una r茅plica perfecta de la realidad y el principal desaf铆o es superar la brecha entre el desempe帽o del robot en la simulaci贸n y en el mundo real. La hip贸tesis operativa por defecto de este campo es que reducir la brecha sim2real implica crear simuladores de alta fidelidad f铆sica y usarlos para aprender las pol铆ticas de los robots.

Durante el a帽o pasado, adoptamos un enfoque contrario a la intuici贸n de sim2real. En lugar de construir simulaciones de alta fidelidad del mundo, creamos un simulador abstracto de Spot, que no modela la f铆sica de bajo nivel en la simulaci贸n, y aprendemos una pol铆tica que puede razonar en un nivel superior (como d贸nde ir en lugar de c贸mo hacerlo). mover las piernas). A esto lo llamamos simulaci贸n cinem谩tica, en la que el robot se teletransporta a una ubicaci贸n y el objeto objetivo se une al brazo del robot, cuando est谩 cerca de la pinza y a la vista. En el mundo real, los controladores de Boston Dynamics se utilizan para lograr las acciones ordenadas por esta pol铆tica de alto nivel.

 Los robots preentrenados en sim2real se han limitado en su mayor铆a a tareas de corto plazo y navegaci贸n visual, sin ninguna interacci贸n con el entorno. La selecci贸n y colocaci贸n m贸vil es una tarea de largo plazo y requiere interactuar con el entorno y cambiar entre diferentes fases de navegaci贸n, selecci贸n, colocaci贸n, etc. Esto suele ser muy desafiante para el aprendizaje por refuerzo y requiere demostraciones o t茅cnicas manuales sofisticadas. -Recompensas dise帽adas. Nuestra abstracci贸n de alto nivel y simulaci贸n cinem谩tica nos permiten aprender tareas de largo plazo, con pocas recompensas, sin necesidad de razonar sobre f铆sica de bajo nivel.

Futuras 谩reas de exploraci贸n
Si bien a煤n no hemos aplicado la corteza visual a nuestro robot de reorganizaci贸n de objetos, esperamos integrarlo en un solo sistema. Con tantas variables impredecibles en el mundo real, tener representaciones visuales s贸lidas y capacitaci贸n previa en una cantidad diversa de videos egoc茅ntricos que muestran muchas actividades y entornos diferentes ser谩 un paso importante para construir robots a煤n mejores.

La voz es un 谩rea que estamos particularmente interesados en explorar. Por ejemplo, en lugar de proporcionar una definici贸n de tarea, se podr铆a integrar el procesamiento del lenguaje natural, de modo que alguien pudiera usar su voz para decirle a su asistente que recoja los platos del comedor y los lleve al fregadero de la cocina. Tambi茅n queremos explorar c贸mo nuestro robot puede funcionar mejor con las personas, por ejemplo, anticipando sus necesidades y ayud谩ndolos con una tarea de varios pasos, como hornear un pastel.

Estas son solo algunas de las muchas 谩reas que requieren m谩s investigaci贸n y exploraci贸n. Creemos que con una fuerte corteza visual preentrenada en video egoc茅ntrico y habilidades visomotoras preentrenadas en simulaci贸n, estos avances alg煤n d铆a podr铆an servir como bloques de construcci贸n para experiencias impulsadas por IA donde los asistentes virtuales y los robots f铆sicos pueden ayudar a los humanos e interactuar sin problemas con lo virtual y lo f铆sico. mundo.

No hay comentarios:

Publicar un comentario