¿Qué es OpenAI y su propuesta para la inteligencia artificial?
La nueva IA de OpenAI aprendió a jugar Minecraft viendo 70,000 horas de YouTube
En 2020, el algoritmo de aprendizaje automático GPT-3
de OpenAI sorprendió a las personas cuando, después de ingerir miles de
millones de palabras extraídas de Internet, comenzó a escupir oraciones
bien elaboradas. Este año, DALL-E 2, un primo de GPT-3 entrenado en texto e
imágenes, causó un revuelo similar en línea cuando comenzó a generar imágenes
surrealistas de astronautas montando a caballo y, más recientemente,
creando caras extrañas y fotorrealistas de personas que no existen.
Ahora, la compañía dice que su última IA ha aprendido
a jugar Minecraft después de ver unas 70,000 horas de video que muestra a las
personas jugando el juego en YouTube.
Escuela de Minas
En comparación con numerosos algoritmos anteriores de
Minecraft que operan en versiones mucho más simples de "sandbox" del
juego, la nueva IA juega en el mismo entorno que los humanos, utilizando
comandos estándar de teclado y mouse.
En una publicación de blog y preimpresión que
detalla el trabajo, el equipo de OpenAI dice que, fuera de la caja, el
algoritmo aprendió habilidades básicas, como cortar árboles, hacer tablones y
construir mesas de elaboración. También lo observaron nadando, cazando,
cocinando y "saltando pilares".
"Hasta donde sabemos, no hay ningún trabajo
publicado que opere en el espacio de acción humana completo y sin modificar,
que incluye la gestión de inventario de arrastrar y soltar y la elaboración de
artículos", escribieron los autores en su artículo.
Con el ajuste fino, es decir, entrenando el modelo en
un conjunto de datos más enfocado, encontraron que el algoritmo realizaba todas
estas tareas de manera más confiable, pero también comenzaron a avanzar en su
destreza tecnológica fabricando herramientas de madera y piedra y construyendo
refugios básicos, explorando aldeas y asaltando cofres.
Después de un mayor ajuste con el aprendizaje por
refuerzo, aprendió a construir un pico de diamante, una habilidad que toma a
los jugadores humanos unos 20 minutos y 24,000 acciones para lograr.
Este es un resultado notable. La IA ha luchado durante
mucho tiempo con el juego abierto de Minecraft. Juegos como el ajedrez y el Go,
que la IA ya ha dominado, tienen objetivos claros, y el progreso hacia esos
objetivos se puede medir. Para conquistar go, los investigadores
utilizaron el aprendizaje por refuerzo, donde a un algoritmo se le da un
objetivo y se le recompensa por el progreso hacia ese objetivo. Minecraft, por
otro lado, tiene cualquier número de objetivos posibles, el progreso es menos
lineal y los algoritmos de aprendizaje de refuerzo profundo generalmente se
dejan girando sus ruedas.
En la competencia MineRL Minecraft 2019 para
desarrolladores de IA, por ejemplo, ninguna de las 660 presentaciones logró
el objetivo relativamente simple de la competencia de extraer diamantes.
Vale la pena señalar que para recompensar la
creatividad y demostrar que arrojar potencia informática a un problema no
siempre es la respuesta, los organizadores de MineRL impusieron límites
estrictos a los participantes: se les permitió una GPU NVIDIA y 1.000 horas de
juego grabado. Aunque los concursantes tuvieron un desempeño admirable, el
resultado de OpenAI, logrado con más datos y 720 GPU NVIDIA, parece mostrar que
la potencia informática todavía tiene sus beneficios.
La IA se vuelve astuta
Con su algoritmo de pre-entrenamiento de video (VPT)
para Minecraft, OpenAI volvió al enfoque que se usa con GPT-3 y DALL-E:
pre-entrenamiento de un algoritmo en un imponente conjunto de datos de
contenido creado por humanos. Pero el éxito del algoritmo no fue posible solo
por la potencia de cálculo o los datos. Entrenar una IA de Minecraft en tanto
video no era práctico antes.
Las imágenes de video sin procesar no son tan útiles
para las IA de comportamiento como lo son para los generadores de contenido
como GPT-3 y DALL-E. Muestra lo que la gente está haciendo, pero no explica
cómo lo están haciendo. Para que el algoritmo vincule el video a las acciones,
necesita etiquetas. Un fotograma de video que muestre la colección de objetos
de un jugador, por ejemplo, tendría que etiquetarse como "inventario"
junto con la tecla de comando "E" que se utiliza para abrir el
inventario.
Etiquetar cada fotograma en 70,000 horas de video
sería ... loco. Entonces, el equipo pagó a los contratistas de Upwork para
grabar y etiquetar las habilidades básicas de Minecraft. Usaron 2,000 horas de
este video para enseñar a un segundo algoritmo cómo etiquetar videos de
Minecraft, y ese algoritmo, IDM, anotó las 70,000 horas de imágenes
de YouTube. (El equipo dice que IDM tenía más del 90 por ciento de precisión al
etiquetar los comandos del teclado y el mouse).
Este enfoque de humanos que entrenan un algoritmo de
etiquetado de datos para desbloquear conjuntos de datos de comportamiento en
línea también puede ayudar a la IA a aprender otras habilidades. "VPT
allana el camino para permitir que los agentes aprendan a actuar viendo
la gran cantidad de videos en Internet", escribió el investigador. Más
allá de Minecraft, OpenAI cree que VPT puede traer nuevas aplicaciones del
mundo real, como algoritmos que operan computadoras a un ritmo rápido
(imagínese, por ejemplo, pedirle a su computadora portátil que encuentre un
documento y lo envíe por correo electrónico a su jefe).
Los diamantes no son para siempre
Para disgusto de los organizadores de la competencia
MineRL, tal vez, los resultados parecen mostrar que el poder y los recursos
informáticos aún mueven la aguja en la IA más avanzada.
Sin importar el costo de la computación, OpenAI dijo
que solo los contratistas de Upwork cuestan $ 160,000. Aunque para ser justos,
etiquetar manualmente todo el conjunto de datos habría llegado a millones y
habría tomado un tiempo considerable para completarse. Y aunque la potencia de
cálculo no era despreciable, el modelo era en realidad bastante pequeño. Los
cientos de millones de parámetros de VPT son órdenes de magnitud menores que
los cientos de miles de millones de GPT-3.
Aún así, el impulso para encontrar nuevos enfoques
inteligentes que usen menos datos y computación es válido. Un niño puede
aprender los conceptos básicos de Minecraft viendo uno o dos videos. La IA de
hoy en día requiere mucho más para aprender incluso habilidades simples. Hacer
que la IA sea más eficiente es un desafío grande y digno.
En cualquier caso, OpenAI está en un estado de ánimo
compartido esta vez. Los investigadores dicen que VPT no está exento de
riesgos: han controlado estrictamente el acceso a algoritmos como GPT-3 y
DALL-E en parte para limitar el uso indebido, pero el riesgo es mínimo por
ahora. Han abierto el código de los datos, el entorno y el algoritmo y se están
asociando con MineRL. Los concursantes de este año son libres de usar,
modificar y ajustar lo último en Minecraft AI.
Es muy probable que esta vez superen la minería de
diamantes.
Fuente: SingularityHub
¿Cuánto Tarda Esta IA En Aprender A Manejar?