viernes, 31 de marzo de 2023

Robots que aprenden de videos de actividades humanas e interacciones simuladas

Robots que aprenden de videos de actividades humanas e interacciones simuladas

 https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/

 La ciencia ficción optimista generalmente imagina un futuro en el que los humanos crean arte y persiguen pasatiempos satisfactorios mientras que los robots habilitados para IA manejan tareas aburridas o peligrosas. Por el contrario, los sistemas de IA de hoy en día muestran habilidades generativas cada vez más sofisticadas en tareas aparentemente creativas. Pero, ¿dónde están los robots? Esta brecha se conoce como la paradoja de Moravec, la tesis de que los problemas más difíciles en IA involucran habilidades sensoriomotoras, no pensamiento o razonamiento abstracto. Para decirlo de otra manera, "los problemas difíciles son fáciles y los problemas fáciles son difíciles".

Hoy, estamos anunciando dos avances importantes hacia agentes de IA incorporados de propósito general capaces de realizar habilidades sensoriomotoras desafiantes:

Una corteza visual artificial (llamada VC-1): un modelo de percepción único que, por primera vez, admite una amplia gama de habilidades sensoriomotoras, entornos y encarnaciones. VC-1 está capacitado en videos de personas que realizan tareas cotidianas a partir del innovador conjunto de datos Ego4D creado por Meta AI y socios académicos. Y VC-1 iguala o supera los resultados más conocidos en 17 tareas sensoriomotoras diferentes en entornos virtuales.

Un nuevo enfoque llamado coordinación de habilidades adaptativas (sensomotoras) (ASC), que logra un rendimiento casi perfecto (98 por ciento de éxito) en la desafiante tarea de la manipulación móvil robótica (navegar a un objeto, levantarlo, navegar a otra ubicación, colocar el objeto, repetición) en entornos físicos.

Los datos impulsan estos dos avances. La IA necesita datos de los que aprender y, específicamente, la IA incorporada necesita datos que capturen las interacciones con el entorno. Tradicionalmente, estos datos de interacción se recopilan recopilando grandes cantidades de demostraciones o permitiendo que el robot aprenda de las interacciones desde cero. Ambos enfoques requieren demasiados recursos para escalar hacia el aprendizaje de un agente de IA incorporado general. En ambos trabajos, estamos desarrollando nuevas formas para que los robots aprendan, utilizando videos de interacciones humanas con el mundo real e interacciones simuladas dentro de mundos simulados fotorrealistas.

En primer lugar, hemos creado una forma para que los robots aprendan de las interacciones humanas del mundo real mediante el entrenamiento de un modelo de representación visual de propósito general (una corteza visual artificial) a partir de una gran cantidad de videos egocéntricos. Los videos incluyen nuestro conjunto de datos Ego4D de código abierto, que muestra vistas en primera persona de personas que realizan tareas cotidianas, como ir al supermercado y preparar el almuerzo. En segundo lugar, hemos creado una forma de entrenar previamente a nuestro robot para realizar tareas de reordenamiento de largo plazo en simulación. Específicamente, entrenamos una política en entornos Habitat y transferimos la política zero-shot a un robot Spot real para realizar dichas tareas en espacios desconocidos del mundo real.

 Hacia una corteza visual artificial para la inteligencia encarnada
Una corteza visual es la región del cerebro que (junto con la corteza motora) permite que un organismo convierta la visión en movimiento. Estamos interesados en desarrollar una corteza visual artificial: el módulo en un sistema de IA que permite a un agente artificial convertir la entrada de la cámara en acciones.

Nuestro equipo FAIR, junto con colaboradores académicos, ha estado a la vanguardia del desarrollo de representaciones visuales de propósito general para IA incorporada entrenada a partir de conjuntos de datos de video egocéntricos. El conjunto de datos Ego4D ha sido especialmente útil, ya que contiene miles de horas de video de cámara portátil de participantes de investigación de todo el mundo que realizan actividades de la vida diaria, como cocinar, limpiar, hacer deportes y hacer manualidades.

Por ejemplo, un trabajo anterior de nuestro equipo (R3M) utiliza la alineación temporal y de texto y video dentro de los cuadros de video Ego4D para aprender representaciones visuales universales compactas para la manipulación robótica. Otro trabajo (VIP) utiliza marcos Ego4D para aprender una representación visual procesable efectiva que también puede realizar una especificación de recompensa visual de tiro cero para capacitar a agentes encarnados. Estos son ilustrativos de la tendencia más amplia en la comunidad de investigación (por ejemplo, PVR, OVRL, MVP) hacia el entrenamiento previo de representaciones visuales a partir de imágenes web y videos egocéntricos.

Aunque el trabajo anterior se ha centrado en un pequeño conjunto de tareas robóticas, una corteza visual para la IA incorporada debería funcionar bien para un conjunto diverso de tareas sensoriomotoras en diversos entornos en diversas realizaciones. Si bien los trabajos anteriores sobre el entrenamiento previo de las representaciones visuales nos dan una idea de lo que puede ser factible, son fundamentalmente inconmensurables, con diferentes formas de entrenar previamente las representaciones visuales en diferentes conjuntos de datos, evaluados en diferentes tareas de IA incorporada. La falta de consistencia significaba que no había forma de saber cuál de las representaciones visuales preentrenadas existentes era la mejor.

Como primer paso, seleccionamos CortexBench, que consta de 17 tareas sensoriomotoras diferentes en simulación, que abarcan locomoción, navegación y manipulación hábil y móvil, implementando el estándar comunitario para aprender la política para cada tarea. Los entornos visuales abarcan desde planos planos infinitos hasta configuraciones de mesa y escaneos 3D fotorrealistas de espacios interiores del mundo real. Las realizaciones de los agentes varían desde brazos estacionarios hasta manos diestras, agentes de navegación cilíndricos idealizados y manipuladores móviles articulados. Las condiciones de aprendizaje varían desde el aprendizaje por imitación de unos pocos disparos hasta el aprendizaje por refuerzo a gran escala. Esto nos permitió realizar una evaluación rigurosa y consistente de los modelos preentrenados existentes y nuevos. Antes de nuestro trabajo, el mejor rendimiento para cada tarea en CortexBench se lograba mediante un modelo o algoritmo diseñado específicamente para esa tarea. Por el contrario, lo que queremos es un modelo y/o algoritmo que logre un rendimiento competitivo en todas las tareas. Los organismos biológicos tienen una corteza visual de propósito general, y eso es lo que buscamos para los agentes encarnados.

 

 Nos propusimos preentrenar una sola corteza visual de propósito general que pueda desempeñarse bien en todas estas tareas. Una elección crítica para el entrenamiento previo es la elección del conjunto de datos. No estaba del todo claro cómo sería un buen conjunto de datos de preentrenamiento para la IA incorporada. Hay cantidades masivas de datos de video disponibles en línea, pero no es práctico probar todas las combinaciones de esos conjuntos de datos existentes.

Comenzamos con Ego4D como nuestro conjunto de datos central y luego exploramos si agregar conjuntos de datos adicionales mejora los modelos preentrenados. Tener un video egocéntrico es importante porque permite que los robots aprendan a ver desde una perspectiva en primera persona. Dado que Ego4D se centra en gran medida en actividades cotidianas como cocinar, hacer jardinería y hacer manualidades, también consideramos conjuntos de datos de video egocéntricos que exploran casas y apartamentos. Finalmente, también estudiamos si los conjuntos de datos de imágenes estáticas ayudan a mejorar nuestros modelos.

Acumulativamente, nuestro trabajo representa el estudio empírico más grande y completo hasta la fecha de representaciones visuales para IA incorporada, que abarca más de 5 representaciones visuales preentrenadas de trabajos anteriores y múltiples ablaciones de VC-1 entrenadas en más de 4000 horas de video humano egocéntrico de siete diversos conjuntos de datos, que requirieron más de 10 000 GPU-horas de capacitación y evaluación.

En la actualidad, ofrecemos VC-1 de código abierto, nuestro mejor modelo de corteza visual siguiendo los valores de investigación abierta de FAIR para el beneficio de todos. Nuestros resultados muestran que las representaciones de VC-1 coinciden o superan el aprendizaje desde cero en las 17 tareas. También encontramos que la adaptación de VC-1 en datos relevantes para la tarea hace que se vuelva competitivo o supere los resultados más conocidos en todas las tareas en CortexBench. Hasta donde sabemos, VC-1 es el primer modelo visual preentrenado que ha demostrado ser competitivo con resultados de última generación en un conjunto tan diverso de tareas de IA incorporadas. Estamos compartiendo nuestros aprendizajes detallados, como cómo escalar el tamaño del modelo, el tamaño del conjunto de datos y la diversidad afectan el rendimiento de los modelos preentrenados, en un artículo de investigación relacionado.

Coordinación de habilidades adaptativas para la manipulación móvil robótica
Si bien VC-1 demuestra un desempeño sólido en las habilidades sensoriomotoras en CortexBench, estas son tareas de corto plazo (navegar, recoger un objeto, manipular un objeto con la mano, etc.). La próxima generación de agentes de IA incorporados (implementados en robots) también deberá realizar tareas a largo plazo y adaptarse a entornos nuevos y cambiantes, incluidas las perturbaciones inesperadas del mundo real.

Nuestro segundo anuncio se centra en la selección y el lugar móviles: se inicializa un robot en un nuevo entorno y se le asigna la tarea de mover objetos desde las ubicaciones iniciales a las deseadas, emulando la tarea de ordenar una casa. El robot debe navegar hasta un receptáculo con objetos, como el mostrador de la cocina (se le proporciona la ubicación aproximada), buscar y elegir un objeto, navegar hasta el receptáculo del lugar deseado, colocar el objeto y repetir.

 Para abordar tareas de tan largo plazo, nosotros y nuestros colaboradores de Georgia Tech desarrollamos una nueva técnica llamada Coordinación de habilidades adaptativas (ASC), que consta de tres componentes:

●Una biblioteca de habilidades sensoriomotoras básicas (navegación, selección, lugar)

Una política de coordinación de habilidades que elige qué habilidades son apropiadas para usar en qué momento

Una política correctiva que adapta las habilidades preentrenadas cuando se perciben estados fuera de distribución

Todas las políticas sensoriomotoras son “libres de modelos”. Usamos redes neuronales de sensores a acciones sin módulos específicos de tareas, como mapeo o planificación. El robot se entrena completamente en simulación y se transfiere al mundo físico sin ningún dato de entrenamiento del mundo real.

 Demostramos la eficacia de ASC al implementarlo en el robot Spot de Boston Dynamics en entornos nuevos/desconocidos del mundo real. Elegimos el robot Boston Dynamics Spot debido a sus sólidas capacidades de detección, navegación y manipulación. Sin embargo, operar Spot hoy en día implica una gran cantidad de intervención humana. Por ejemplo, elegir un objeto requiere que una persona haga clic en el objeto en la tableta del robot. Nuestro objetivo es construir modelos de IA que puedan sentir el mundo a partir de sensores integrados y comandos de motores a través de las API de Boston Dynamics.

Usando el simulador Habitat y los conjuntos de datos HM3D y ReplicaCAD, que incluyen escaneos 3D de interiores de 1000 casas, enseñamos a un robot Spot simulado a moverse por una casa invisible, recoger objetos fuera de lugar y colocarlos en la ubicación correcta. . A continuación, implementamos esta política de tiro cero en el mundo real (sim2real) sin construir explícitamente un mapa en el mundo real y, en su lugar, confiamos en nuestro robot para usar su noción aprendida de cómo son las casas.

Cuando pusimos a prueba nuestro trabajo, utilizamos dos entornos del mundo real significativamente diferentes en los que se le pidió a Spot que reorganizara una variedad de objetos: un apartamento completamente amueblado de 185 metros cuadrados y un laboratorio universitario de 65 metros cuadrados. En general, ASC logró un rendimiento casi perfecto, con éxito en 59 de 60 (98 por ciento) episodios, superando inestabilidades de hardware, detectando fallas y perturbaciones adversas como obstáculos en movimiento o caminos bloqueados. En comparación, las líneas de base tradicionales, como la planificación de tareas y movimientos, solo tienen éxito en el 73 % de los casos, debido a la incapacidad de recuperarse de las perturbaciones del mundo real. También estudiamos la robustez frente a las perturbaciones de los adversarios, como cambiar el diseño del entorno, caminar frente al robot para bloquear repetidamente su camino o mover objetos objetivo en medio del episodio. A pesar de haber sido entrenado completamente en simulación, ASC es resistente a tales perturbaciones, lo que lo hace muy adecuado para muchos problemas a largo plazo en robótica y aprendizaje por refuerzo.

Esto abre vías para que la investigación de sim2real se expanda a tareas del mundo real aún más desafiantes, como la asistencia en tareas cotidianas como cocinar y limpiar, e incluso la colaboración entre humanos y robots. Nuestro trabajo es un paso hacia los asistentes robóticos escalables, robustos y diversos del futuro que pueden operar en nuevos entornos listos para usar y no requieren una costosa recopilación de datos del mundo real.

Repensar la transferencia sim2real

Una de las tareas más importantes en el aprendizaje sim2real es construir modelos de simulación que reflejen fielmente el comportamiento del robot en el mundo real. Sin embargo, esto es un desafío, ya que el mundo real es vasto y cambia constantemente, y el simulador necesita capturar esta diversidad. Ningún simulador es una réplica perfecta de la realidad y el principal desafío es superar la brecha entre el desempeño del robot en la simulación y en el mundo real. La hipótesis operativa por defecto de este campo es que reducir la brecha sim2real implica crear simuladores de alta fidelidad física y usarlos para aprender las políticas de los robots.

Durante el año pasado, adoptamos un enfoque contrario a la intuición de sim2real. En lugar de construir simulaciones de alta fidelidad del mundo, creamos un simulador abstracto de Spot, que no modela la física de bajo nivel en la simulación, y aprendemos una política que puede razonar en un nivel superior (como dónde ir en lugar de cómo hacerlo). mover las piernas). A esto lo llamamos simulación cinemática, en la que el robot se teletransporta a una ubicación y el objeto objetivo se une al brazo del robot, cuando está cerca de la pinza y a la vista. En el mundo real, los controladores de Boston Dynamics se utilizan para lograr las acciones ordenadas por esta política de alto nivel.

 Los robots preentrenados en sim2real se han limitado en su mayoría a tareas de corto plazo y navegación visual, sin ninguna interacción con el entorno. La selección y colocación móvil es una tarea de largo plazo y requiere interactuar con el entorno y cambiar entre diferentes fases de navegación, selección, colocación, etc. Esto suele ser muy desafiante para el aprendizaje por refuerzo y requiere demostraciones o técnicas manuales sofisticadas. -Recompensas diseñadas. Nuestra abstracción de alto nivel y simulación cinemática nos permiten aprender tareas de largo plazo, con pocas recompensas, sin necesidad de razonar sobre física de bajo nivel.

Futuras áreas de exploración
Si bien aún no hemos aplicado la corteza visual a nuestro robot de reorganización de objetos, esperamos integrarlo en un solo sistema. Con tantas variables impredecibles en el mundo real, tener representaciones visuales sólidas y capacitación previa en una cantidad diversa de videos egocéntricos que muestran muchas actividades y entornos diferentes será un paso importante para construir robots aún mejores.

La voz es un área que estamos particularmente interesados en explorar. Por ejemplo, en lugar de proporcionar una definición de tarea, se podría integrar el procesamiento del lenguaje natural, de modo que alguien pudiera usar su voz para decirle a su asistente que recoja los platos del comedor y los lleve al fregadero de la cocina. También queremos explorar cómo nuestro robot puede funcionar mejor con las personas, por ejemplo, anticipando sus necesidades y ayudándolos con una tarea de varios pasos, como hornear un pastel.

Estas son solo algunas de las muchas áreas que requieren más investigación y exploración. Creemos que con una fuerte corteza visual preentrenada en video egocéntrico y habilidades visomotoras preentrenadas en simulación, estos avances algún día podrían servir como bloques de construcción para experiencias impulsadas por IA donde los asistentes virtuales y los robots físicos pueden ayudar a los humanos e interactuar sin problemas con lo virtual y lo físico. mundo.

No hay comentarios:

Publicar un comentario