La Inteligencia Artificial (IA) es una tecnología que permite a las máquinas aprender, "razonar" (después te cuento por qué entre comillas) y tomar decisiones de manera autónoma.
Podríamos decir que se trata de entrenar una máquina para lograr que pueda resolver una tarea.
El proceso de entrenamiento consiste en recopilar datos sobre la tarea que se desea entrenar y usar algoritmos matemáticos y estadísticos para que la máquina pueda aprender a resolverla.
Pero, ¿cómo que aprender? ¿Acaso las máquinas pueden aprender?
Pues realmente no, las máquinas por su cuenta no tienen un cerebro. Una computadora no hace más que procesar ceros y unos, no piensa, no analiza, solamente ejecuta.
Pero podemos hacer que una máquina se comporte como si tuviera un cerebro, haciendo que ejecute un tipo de especial de calculadora que se llama modelo de inteligencia artificial.
Un modelo de inteligencia artificial es un conjunto de funciones matemáticas ajustadas, puede ser desde una única función, como la Regresión Lineal, hasta un conjunto de funciones juntas que se ejecutan una tras otra, como una Red Neuronal.
Una Red Neuronal es un tipo de modelo de inteligencia artificial que se basa en la estructura de la neurona biológica, los datos que se procesan con este modelo entran por una neurona o nodo de la red, y salen por otra.
Entonces, ¿cómo es posible que una función matemática pueda entender cosas como lo hace una persona?
No todos los modelos de inteligencia artificial son iguales, y no todos los modelos de inteligencia artificial son capaces de entender cosas o producir texto como lo hace GPT-5 de OpenAI, la empresa detrás de ChatGPT.
Sin embargo, debido a los avances en modelos de inteligencia artificial, hoy en día existen un tipo de modelos llamados: LLMs (Large Language Models).
Pensemos en que la IA es una rama muy grande la ciencia. Abarca desde modelos usados en medicina, hasta el sector financiero, física, química, o lenguage humano, y teóricamente podrías entrenar un modelo para que pueda hacer cualquier cosa si tienes los datos adecuados, la palabra clave es datos.
Los modelos de lenguage grande (LLMs por sus siglas en inglés) en particular, son modelos entrenados con enormes cantidades de texto como emails, posts, conversaciones, libros, documentos, código, matemáticas y cualquier otro tipo de texto que se pueda encontrar en internet y que pueda ser relevante para que el modelo comprenda la estructura del lenguaje humano de mejor manera.
Fue en 2017 donde se marcó el inicio de la era de los LLMs, con un paper escrito por Google llamado: Attention is all you need.
Este paper presentaba una nueva arquitectura de modelos de inteligencia artificial que se basaba en la atención (attention) para procesar el texto. La atención mejoraba notablemente el rendimiento de los modelos de inteligencia artificial, y se convirtió en el estándar para los modelos de inteligencia artificial de lenguage.
La atención es un concepto que se utiliza en el procesamiento del lenguaje natural para dar más importancia a ciertas partes de un texto.
Una cosa llevó a la otra, las empresas empezaron a entrenar modelos cada vez más grandes, dándose cuenta que estos entendían mejor el lenguaje humano, y que podían usarlos para resolver tareas que antes no eran posibles. Parecían "comprender" de verdad como lo haría una persona.
Es importante tener en cuenta que esto sucede gracias al ajuste de los parámetros de los modelos, y que estos parámetros son ajustados con los datos de entrenamiento. Y que mientras más parámetrps (más grande el modelo) mejor parecen comprender, pero en el fondo un modelo sigue siendo solo un algoritmo matemáticas.
Pueden tener alucinaciones (hablaremos de ello más adelante), presentar datos erróneos y tomar decisiones que no son las más adecuadas, debido a que su naturaleza es recibir texto y dar una respuesta en consecuencia.
Sigamos avanzando para entender el misterio de la Inteligencia Artificial.