Saltar al contenido principal

18 de diciembre de 2025 - Tiempo de lectura 5 min

Cuando la IA aprende como un niño

Los sistemas de inteligencia artificial basados en los llamados modelos de lenguaje (LLM), como GPT4 o Copilot, funcionan gracias a que pueden aprender y utilizar el lenguaje humano. El reto para una máquina es entender que los humanos utilizamos el lenguaje de forma normativa, con distintos acentos y entonaciones, y que usamos jergas o slang. Por ello, gran parte de la investigación científica dedicada al desarrollo de estos modelos se destina a lograr que el algoritmo funcione de la forma más natural posible.

Una de las líneas de trabajo consiste en comprender que, cuando un algoritmo aprende desde cero, lo hace igual que un bebé al nacer. Pero estas máquinas aprenden de cantidades astronómicas de información lingüística, mucho mayor que la que reciben los niños cuando aprenden a comprender y hablar un idioma. Para entender la magnitud de esta cuestión bastan las cifras: los mejores sistemas de inteligencia artificial se entrenan con textos de billones de palabras, mientras que los niños reciben solo millones por año.
Cuando la IA aprende como un niño


Comparar los modelos de aprendizaje humanos y robóticos

En un giro conceptual llamativo para el mundo de la inteligencia artificial, un equipo de investigadores de la New York University (NYU) ha demostrado que una red neuronal multimodal puede aprender asociaciones entre palabras y su significado visual a partir de datos sensoriales reales, similares a los que recibe un bebé, en lugar de volúmenes masivos de texto.

Este planteamiento inspirado en la forma natural en que los humanos adquirimos el lenguaje abre nuevas vías para el desarrollo de sistemas de IA más eficientes, naturales y potencialmente más susceptibles de integrarse de forma orgánica en entornos cotidianos (educación, empresas, interacción humano-máquina, etc.).

Qué plantea el estudio: aprender “como un niño”

Tradicionalmente, los sistemas de IA modernos que procesan el lenguaje (como los modelos del tipo “grandes modelos lingüísticos” o Large Language Models) necesitan cantidades ingentes de datos: miles de millones o billones de palabras. Sin embargo, los humanos no aprendemos así. Un niño de dos años ya puede manejar unas 300 palabras, con una exposición muchísimo más limitada al lenguaje.

Para explorar si una IA podía reproducir algo semejante, los investigadores utilizaron grabaciones reales de la vida cotidiana de un solo niño, el llamado “bebé S” en el estudio, desde los 6 meses hasta los 25 meses de edad: unas 60 horas de vídeo, capturadas mediante una cámara frontal montada sobre su cabeza, junto con el audio correspondiente de las conversaciones y las palabras que escuchaba. De este modo, recrearon la experiencia natural de aprendizaje desde la perspectiva sensorial del bebé. A este conjunto de datos se le llama el corpus SAYCam.

Este enfoque de aprendizaje a partir de experiencias sensoriales reales, no de vastos textos, constituye una ruptura metodológica: la IA deja de “engullir internet” y empieza a “vivir en primera persona”.

Cómo funciona: redes neuronales multimodales y aprendizaje contrastivo

El sistema diseñado consta de dos componentes principales:

  • Un codificador visual, que procesa fotogramas de vídeo (lo que “ve” el bebé).
  • Un codificador de lenguaje, que procesa las transcripciones de lo que se dice alrededor (lo que “oye” el bebé).
Ambos codificadores se entrenaron conjuntamente mediante un mecanismo llamado aprendizaje por contraste (contrastive learning). La idea es que, cuando en un momento dado el bebé ve un objeto y escucha la palabra que lo nombra, la red aprende a asociar la imagen con esa palabra. Con suficiente repetición, estas asociaciones emergen naturalmente, sin que el modelo reciba ninguna instrucción explícita sobre gramática, sintaxis o estructura lingüística.

Para evaluar el aprendizaje, se usaron pruebas similares a las que se aplican en estudios de desarrollo infantil. Al modelo se le muestra una palabra y varias imágenes y debe elegir cuál corresponde. En estos test, la IA acertó la imagen correcta en un porcentaje notable.

Además, el modelo fue capaz de generalizar e identificar la palabra cuando la imagen no coincidía exactamente con las vistas durante el entrenamiento (por ejemplo, un objeto nunca visto antes, pero del mismo tipo).

Resultados y lecciones principales

A pesar de que los datos utilizados son mínimos (60 horas de vídeo y unas decenas de miles de palabras transcritas), en comparación con los volúmenes requeridos por los grandes modelos lingüísticos, la IA logró aprender “un número considerable de palabras y conceptos presentes en la experiencia cotidiana” del niño.

El modelo no usó ningún sesgos lingüísticos preprogramados ni reglas sintácticas especiales; todo el aprendizaje emergió de la asociación sensorial mediante mecanismos genéricos de aprendizaje.

Para ciertos conceptos visuales simples, como objetos concretos (pelota, manzana, cama, etc.), el sistema funcionó bastante bien. En cambio, conceptos más abstractos o aquellos con gran variabilidad visual, como “juguete”, “habitación” o “silla”, con muchos diseños distintos, resultaron más difíciles.

Estos resultados demuestran que parte del aprendizaje del lenguaje, al menos la parte de “vocabulario + referencia visual”, puede surgir de un aprendizaje asociativo y sensorial con datos limitados, más parecido al de los humanos que al de los modelos tradicionales.

Implicaciones para empresas y sector tecnológico

Este enfoque puede dar lugar a sistemas de IA que aprendan de manera más económica (con menos datos), más intuitiva, y más similar a la experiencia humana. En contextos empresariales puede resultar útil para:

  • Interfaces más naturales: IA que “entienda” el mundo visual + auditivo + textual tal como lo hace un ser humano, ideal para robots, asistentes visuales, sistemas de realidad aumentada, etc.
  • Personalización: en lugar de depender de datos genéricos masivos, se podría entrenar a la IA con los datos específicos de una empresa, sector, o entorno, de forma más ligera y privada.
En el ámbito de la educación, este tipo de IA podría utilizarse para crear tutores multimodales, es decir, herramientas que “vean” lo que el estudiante ve, lo interpreten, asocien conceptos visuales y lingüísticos, y ofrezcan una retroalimentación contextualizada. Esta proximidad al modo natural de aprendizaje humano podría facilitar la enseñanza de lenguas, habilidades visuales, conceptos prácticos, aprendizaje por inmersión…

El trabajo de la NYU demuestra que las redes neuronales multimodales pueden aprender asociaciones semánticas (palabra-objeto/concepto visual) a partir de datos sensoriales limitados y realistas, de una sola persona, sin necesidad de vastos corpus textuales ni de reglas lingüísticas explícitas. Esto cuestiona parte del paradigma dominante en IA y ofrece una vía alternativa más cercana al aprendizaje natural humano.

Para empresas y profesionales, esto sugiere un camino hacia IA más eficientes, adaptativas y con posibilidades de integración en escenarios reales, como la educación, la industria, la atención al cliente, la robótica, las interfaces sensibles, etc.

Fuente: New York University

Etiquetas relacionadas:

Compartir artículo:

Descargar artículo en PDF

Últimos artículos y novedades

Ver todos los artículos

Contacta con nosotros: Nuestra Visión