lunes, 27 de junio de 2022

La nueva IA de OpenAI aprendió a jugar Minecraft


¿Qué es OpenAI y su propuesta para la inteligencia artificial?


La nueva IA de OpenAI aprendió a jugar Minecraft viendo 70,000 horas de YouTube 

En 2020, el algoritmo de aprendizaje automático GPT-3 de OpenAI sorprendió a las personas cuando, después de ingerir miles de millones de palabras extraídas de Internet, comenzó a escupir oraciones bien elaboradas. Este año, DALL-E 2, un primo de GPT-3 entrenado en texto e imágenes, causó un revuelo similar en línea cuando comenzó a generar imágenes surrealistas de astronautas montando a caballo y, más recientemente, creando caras extrañas y fotorrealistas de personas que no existen.

Ahora, la compañía dice que su última IA ha aprendido a jugar Minecraft después de ver unas 70,000 horas de video que muestra a las personas jugando el juego en YouTube.

Escuela de Minas

En comparación con numerosos algoritmos anteriores de Minecraft que operan en versiones mucho más simples de "sandbox" del juego, la nueva IA juega en el mismo entorno que los humanos, utilizando comandos estándar de teclado y mouse.

En una publicación de blog y preimpresión que detalla el trabajo, el equipo de OpenAI dice que, fuera de la caja, el algoritmo aprendió habilidades básicas, como cortar árboles, hacer tablones y construir mesas de elaboración. También lo observaron nadando, cazando, cocinando y "saltando pilares".

"Hasta donde sabemos, no hay ningún trabajo publicado que opere en el espacio de acción humana completo y sin modificar, que incluye la gestión de inventario de arrastrar y soltar y la elaboración de artículos", escribieron los autores en su artículo.

Con el ajuste fino, es decir, entrenando el modelo en un conjunto de datos más enfocado, encontraron que el algoritmo realizaba todas estas tareas de manera más confiable, pero también comenzaron a avanzar en su destreza tecnológica fabricando herramientas de madera y piedra y construyendo refugios básicos, explorando aldeas y asaltando cofres.

Después de un mayor ajuste con el aprendizaje por refuerzo, aprendió a construir un pico de diamante, una habilidad que toma a los jugadores humanos unos 20 minutos y 24,000 acciones para lograr.

Este es un resultado notable. La IA ha luchado durante mucho tiempo con el juego abierto de Minecraft. Juegos como el ajedrez y el Go, que la IA ya ha dominado, tienen objetivos claros, y el progreso hacia esos objetivos se puede medir. Para conquistar go, los investigadores utilizaron el aprendizaje por refuerzo, donde a un algoritmo se le da un objetivo y se le recompensa por el progreso hacia ese objetivo. Minecraft, por otro lado, tiene cualquier número de objetivos posibles, el progreso es menos lineal y los algoritmos de aprendizaje de refuerzo profundo generalmente se dejan girando sus ruedas.

En la competencia MineRL Minecraft 2019 para desarrolladores de IA, por ejemplo, ninguna de las 660 presentaciones logró el objetivo relativamente simple de la competencia de extraer diamantes.

Vale la pena señalar que para recompensar la creatividad y demostrar que arrojar potencia informática a un problema no siempre es la respuesta, los organizadores de MineRL impusieron límites estrictos a los participantes: se les permitió una GPU NVIDIA y 1.000 horas de juego grabado. Aunque los concursantes tuvieron un desempeño admirable, el resultado de OpenAI, logrado con más datos y 720 GPU NVIDIA, parece mostrar que la potencia informática todavía tiene sus beneficios.

La IA se vuelve astuta

Con su algoritmo de pre-entrenamiento de video (VPT) para Minecraft, OpenAI volvió al enfoque que se usa con GPT-3 y DALL-E: pre-entrenamiento de un algoritmo en un imponente conjunto de datos de contenido creado por humanos. Pero el éxito del algoritmo no fue posible solo por la potencia de cálculo o los datos. Entrenar una IA de Minecraft en tanto video no era práctico antes.

Las imágenes de video sin procesar no son tan útiles para las IA de comportamiento como lo son para los generadores de contenido como GPT-3 y DALL-E. Muestra lo que la gente está haciendo, pero no explica cómo lo están haciendo. Para que el algoritmo vincule el video a las acciones, necesita etiquetas. Un fotograma de video que muestre la colección de objetos de un jugador, por ejemplo, tendría que etiquetarse como "inventario" junto con la tecla de comando "E" que se utiliza para abrir el inventario.

Etiquetar cada fotograma en 70,000 horas de video sería ... loco. Entonces, el equipo pagó a los contratistas de Upwork para grabar y etiquetar las habilidades básicas de Minecraft. Usaron 2,000 horas de este video para enseñar a un segundo algoritmo cómo etiquetar videos de Minecraft, y ese algoritmo, IDM, anotó las 70,000 horas de imágenes de YouTube. (El equipo dice que IDM tenía más del 90 por ciento de precisión al etiquetar los comandos del teclado y el mouse).

Este enfoque de humanos que entrenan un algoritmo de etiquetado de datos para desbloquear conjuntos de datos de comportamiento en línea también puede ayudar a la IA a aprender otras habilidades. "VPT allana el camino para permitir que los agentes aprendan a actuar viendo la gran cantidad de videos en Internet", escribió el investigador. Más allá de Minecraft, OpenAI cree que VPT puede traer nuevas aplicaciones del mundo real, como algoritmos que operan computadoras a un ritmo rápido (imagínese, por ejemplo, pedirle a su computadora portátil que encuentre un documento y lo envíe por correo electrónico a su jefe).

Los diamantes no son para siempre

Para disgusto de los organizadores de la competencia MineRL, tal vez, los resultados parecen mostrar que el poder y los recursos informáticos aún mueven la aguja en la IA más avanzada.

Sin importar el costo de la computación, OpenAI dijo que solo los contratistas de Upwork cuestan $ 160,000. Aunque para ser justos, etiquetar manualmente todo el conjunto de datos habría llegado a millones y habría tomado un tiempo considerable para completarse. Y aunque la potencia de cálculo no era despreciable, el modelo era en realidad bastante pequeño. Los cientos de millones de parámetros de VPT son órdenes de magnitud menores que los cientos de miles de millones de GPT-3.

Aún así, el impulso para encontrar nuevos enfoques inteligentes que usen menos datos y computación es válido. Un niño puede aprender los conceptos básicos de Minecraft viendo uno o dos videos. La IA de hoy en día requiere mucho más para aprender incluso habilidades simples. Hacer que la IA sea más eficiente es un desafío grande y digno.

En cualquier caso, OpenAI está en un estado de ánimo compartido esta vez. Los investigadores dicen que VPT no está exento de riesgos: han controlado estrictamente el acceso a algoritmos como GPT-3 y DALL-E en parte para limitar el uso indebido, pero el riesgo es mínimo por ahora. Han abierto el código de los datos, el entorno y el algoritmo y se están asociando con MineRL. Los concursantes de este año son libres de usar, modificar y ajustar lo último en Minecraft AI.

Es muy probable que esta vez superen la minería de diamantes.

Fuente: SingularityHub

¿Cuánto Tarda Esta IA En Aprender A Manejar?



No hay comentarios:

Publicar un comentario

Nueva IA de DeepMind

  La nueva IA de DeepMind puede ser mejor para distribuir los recursos de la sociedad que los humanos  Por:  Edd Gent  (original en inglés) ...