Agentes de IA: La guía definitiva para mortales sin doctorado en informática
¿Qué es un agente de IA y por qué pronto será algo natural en tu día a día?
¿Te has preguntado alguna vez qué diablos es un "agente de IA" mientras navegas por LinkedIn y ves a todo el mundo hablando de "capacidades agénticas" como si fuera el nuevo café de moda? No te preocupes, no eres el único que se siente perdido en esta sopa de letras tecnológica.
La mayoría de las explicaciones sobre agentes de IA son como recetas de cocina francesa: o tan básicas que te dejan con hambre, o tan técnicas que necesitas un traductor simultáneo. Este artículo está diseñado para personas como tú y como yo: usamos ChatGPT regularmente, sabemos que la IA no va a conquistar el mundo mañana (o eso esperamos), pero queremos entender lo suficiente para no sonar como dinosaurios en la próxima reunión de trabajo.
Nivel 1: Los modelos de lenguaje grande (o "Por qué ChatGPT no puede decir cuando es tu próxima reunión")
Empecemos por lo básico. ChatGPT, Google Gemini, Claude y sus hermanos digitales son como ese amigo súper inteligente que lo sabe todo... excepto sobre tu vida personal. Estos chatbots están construidos sobre algo llamado Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés), y son fantásticos generando y editando texto.
La mecánica es simple: tú proporcionas una entrada (tu pregunta o solicitud), y el LLM produce una salida basada en todo lo que aprendió durante su entrenamiento. Es como pedirle a un bibliotecario que ha leído millones de libros que te escriba un email pidiendo una cita para tomar café. El resultado será probablemente más educado de lo que tú escribirías naturalmente (y definitivamente mejor redactado).
Pero aquí viene el problema: si le preguntas a ChatGPT "¿cuándo es mi próxima reunión?", fracasará estrepitosamente. No porque sea tonto, sino porque no tiene acceso a tu calendario. Y ahí radican las dos características clave de los LLMs:
Primera característica: A pesar de haber sido entrenados con cantidades obscenas de información, tienen conocimiento limitado sobre datos propietarios como tu información personal o los datos internos de tu empresa. Es como tener un genio que sabe todo sobre el mundo, pero nada sobre ti.
Segunda característica: Los LLMs son pasivos. Son como ese amigo que espera a que le hagas una pregunta específica antes de responder. No toman iniciativa.
Recuerda estas dos características, porque van a ser importantes para entender lo que viene.
Nivel 2: Flujos de trabajo de IA (o "Cómo enseñarle a la IA a seguir instrucciones")
Ahora las cosas se ponen interesantes. ¿Qué pasaría si le dijeras al LLM: "Oye, cada vez que te pregunte sobre un evento personal, primero busca en mi Google Calendar antes de responder”?
Con esta lógica implementada, la próxima vez que preguntes "¿cuándo es mi próxima reunión con el cliente X?", obtendrás la respuesta correcta. El LLM ahora irá primero a tu calendario para encontrar esa información.
Pero aquí es donde las cosas se complican. Si tu siguiente pregunta es "¿qué acordamos en la última reunión?", el LLM fallará otra vez. ¿Por qué? Porque le dijiste que siguiera un camino específico: siempre buscar en Google Calendar, que obviamente no tiene sobre mis actas de reunión.
Esta es la característica fundamental de los flujos de trabajo de IA: solo pueden seguir rutas predefinidas establecidas por humanos. En términos técnicos (perdón por la jerga), esta ruta se llama "lógica de control". Pero puedes pensar en ella como una receta muy específica que el LLM tiene que seguir al pie de la letra.
Puedes hacer el flujo más complejo. Imagínate que agregas más pasos: permitir que el LLM acceda a tus documentos y luego, solo por diversión, usar un modelo de texto a audio para que hable la respuesta:
"En la última reunión repasasteis la propuesta económica para el próximo proyecto y el cliente acordó darnos respuesta en la siguiente cita" (lo que no sabe la IA es la cara que puso el cliente al ver el coste del proyecto con lo que puede ser tan pesimista como yo respecto a la respuesta).
Aquí viene el punto clave: no importa cuántos pasos agregues, esto sigue siendo solo un flujo de trabajo de IA. Incluso si fueran cientos o miles de pasos, si un humano es quien toma las decisiones, no hay participación de agentes de IA.
Un momento de claridad: ¿Qué es RAG?
Ya que estamos aquí, aclaremos otro término que suena intimidante: RAG (Retrieval Augmented Generation o Generación Aumentada por Recuperación). Suena como algo sacado de Star Trek, pero en términos simples, RAG es un proceso que ayuda a los modelos de IA a buscar información antes de responder, como acceder a tu calendario o a tus documentos.
En esencia, RAG es simplemente un tipo de flujo de trabajo de IA. Ya ves, no era tan complicado.
Ejemplo del mundo real
Un ejemplo práctico: imagínate creando un flujo de trabajo usando una plataforma como Make.com. Primero, compilas enlaces de artículos de noticias en una hoja de Google. Segundo, usas Perplexity para resumir esos artículos. Tercero, usas ChatGPT para redactar publicaciones para LinkedIn y Substack. Finalmente, programas que esto se ejecute automáticamente todos los días a las 9 de la mañana.
Este es un flujo de trabajo de IA porque sigue una ruta predefinida establecida por ti: Paso uno, haces esto. Paso dos, haces esto. Paso tres, haces esto. Y recuerda ejecutarlo diariamente a las 9 AM.
Pero si pruebas este flujo y no te gusta el resultado final (digamos que la publicación de LinkedIn no es lo suficientemente divertida, y tú eres naturalmente gracioso), tendrías que regresar manualmente y reescribir el prompt para ChatGPT. Esta iteración de prueba y error la está haciendo un humano: tú.
Nivel 3: Agentes de IA (o "Cuando las máquinas aprenden a pensar... Algo así")
Aquí es donde se pone realmente interesante. Continuando con el ejemplo anterior, analicemos lo que has estado haciendo como el tomador de decisiones humano. Con el objetivo de crear publicaciones para redes sociales basadas en artículos de noticias, necesitas hacer dos cosas:
Primero, razonar o pensar sobre el mejor enfoque: necesitas compilar los artículos de noticias, luego resumirlos, luego escribir las publicaciones finales.
Segundo, tomar acción usando herramientas: encontrar y vincular esos artículos de noticias en Google Sheets, usar Perplexity para resumir en tiempo real, y luego ChatGPT para redactar.
Y aquí viene la frase más importante de todo este artículo:
El único cambio masivo que debe ocurrir para que este flujo de trabajo de IA se convierta en un agente de IA es que tú, el tomador de decisiones humano, seas reemplazado por un LLM.
En otras palabras, el agente de IA debe razonar: "¿Cuál es la forma más eficiente de compilar estos artículos de noticias? ¿Debería copiar y pegar cada artículo en un documento de Word? No, probablemente sea más fácil compilar enlaces a esos artículos y luego usar otra herramienta para obtener los datos. Sí, eso tiene más sentido."
El agente de IA debe actuar, es decir, hacer cosas a través de herramientas: "¿Debería usar Microsoft Word para compilar enlaces? No. Insertar enlaces directamente en filas es mucho más eficiente. ¿Qué tal Excel? Hmm, el usuario ya ha conectado su cuenta de Google con Make.com, así que Google Sheets es una mejor opción."
El framework ReAct: Razonar y actuar
Por esto, la configuración más común para agentes de IA es el framework ReAct. Todos los agentes de IA deben razonar (reason) y Actuar (act). ReAct. Simple una vez que lo desglosas, ¿verdad?
La tercera característica clave: Iteración
Una tercera característica clave de los agentes de IA es su capacidad de iterar. ¿Recuerdas cuando tenías que reescribir manualmente el prompt para hacer la publicación de LinkedIn más divertida? Como humano, probablemente necesitarías repetir este proceso iterativo varias veces hasta obtener algo que te satisfaga.
Un agente de IA puede hacer lo mismo de forma autónoma. En nuestro ejemplo, el agente de IA autónomamente agregaría otro LLM para criticar su propia producción:
"Okay, he redactado la V1 de una publicación de LinkedIn. ¿Cómo me aseguro de que sea buena? ¡Ah, ya sé! Agregaré otro paso donde un LLM critique la publicación basándose en las mejores prácticas de LinkedIn. Y repetiremos esto hasta que se cumplan todos los criterios de mejores prácticas."
Después de algunos ciclos de esto, tenemos el resultado final.
Para ir acabando. Repasemos los tres niveles
Para resumir todo lo que hemos cubierto, aquí tienes una visualización simplificada de los tres niveles:
Nivel 1: Proporcionas una entrada y el LLM responde con una salida. Fácil.
Nivel 2: Para flujos de trabajo de IA, proporcionas una entrada y le dices al LLM que siga una ruta predefinida que puede involucrar recuperar información de herramientas externas. La característica clave aquí es que el humano programa una ruta para que el LLM la siga.
Nivel 3: El agente de IA recibe un objetivo y el LLM realiza razonamiento para determinar la mejor manera de lograr el objetivo, toma acción usando herramientas para producir un resultado intermedio, observa ese resultado intermedio, decide si se requieren iteraciones, y produce un resultado final que logra el objetivo inicial.
La característica clave aquí es que el LLM es el tomador de decisiones en el flujo de trabajo.
Bienvenido al futuro (Que ya está aquí)
Los agentes de IA no son ciencia ficción; son una realidad que está transformando la manera en que trabajamos e interactuamos con la tecnología. La diferencia principal entre un chatbot tradicional, un flujo de trabajo de IA y un agente de IA radica en el nivel de autonomía y toma de decisiones.
Mientras que los chatbots responden pasivamente y los flujos de trabajo siguen rutas predefinidas, los agentes de IA pueden razonar, actuar e iterar de forma independiente para lograr objetivos complejos.
La próxima vez que escuches a alguien hablar sobre "capacidades agénticas" en una reunión, podrás asentir con conocimiento de causa. Y quién sabe, tal vez incluso puedas impresionar a tus colegas con tu nuevo conocimiento sobre RAG y ReAct.
El futuro de la IA no se trata solo de obtener respuestas más inteligentes, sino de tener asistentes digitales que puedan pensar, planificar y ejecutar tareas complejas por nosotros. Y honestamente, después de años de hacer todo manualmente, eso suena bastante bien.
Ahora, si me disculpas, voy a pedirle a mi futuro agente de IA que prepara mi reunión con el cliente X para conseguir cerrar el proyecto. Aunque probablemente debería empezar con objetivos más realistas... como organizar mi bandeja de entrada.