Agents d'IA: La guia definitiva per a mortals sense doctorat en informàtica

02/06/2025
David Lahoz

Què és un agent d'IA i per què aviat serà natural en el teu dia a dia?

Il·lustració tecnologia

T'has preguntat mai què diables és un "agent d'IA" mentre navegues per LinkedIn i veus tothom parlant de "capacitats agèntiques" com si fos el nou cafè de moda? No t'amoïnis, no ets l'únic que se sent perdut en aquesta sopa de lletres tecnològica.

La majoria de les explicacions sobre agents d'IA són com a receptes de cuina francesa: o tan bàsiques que et deixen amb gana, o tan tècniques que necessites un traductor simultani. Aquest article està dissenyat per a persones com tu i com jo: fem servir ChatGPT regularment, sabem que la IA no conquerirà el món demà (o això esperem), però volem entendre prou per no sonar com dinosaures a la propera reunió de treball.

Nivell 1: Els models de llenguatge gran (o "Per què ChatGPT no pot dir quan és la teva propera reunió")

Comencem pel bàsic. ChatGPT, Google Gemini, Claude i els seus germans digitals són com aquell amic súper intel·ligent que ho sap tot... excepte sobre la teva vida personal. Aquests chatbots estan construïts sobre una cosa anomenada Models de Llenguatge Gran (LLMs, per les seves sigles en anglès), i són fantàstics generant i editant text.

La mecànica és simple: tu proporciones una entrada (la teva pregunta o sol·licitud), i el LLM produeix una sortida basada en tot allò que va aprendre durant el seu entrenament. És com demanar-li a un bibliotecari que ha llegit milions de llibres que t'escrigui un correu electrònic demanant una cita per prendre cafè. El resultat serà probablement més educat del que escriuries naturalment (i definitivament millor redactat).

Però aquí ve el problema: si preguntes a ChatGPT "quan és la meva propera reunió?", fracassarà estrepitosament. No perquè sigui ximple, sinó perquè no té accés al teu calendari. I aquí rauen les dues característiques clau dels LLMs:

Primera característica: Tot i haver estat entrenats amb quantitats obscenes d'informació, tenen coneixement limitat sobre dades propietaris com ara la teva informació personal o les dades internes de la teva empresa. És com tenir un geni que ho sap tot sobre el món, però res sobre tu.

Segona característica: Els LLM són passius. Són com aquest amic que espera que facis una pregunta específica abans de respondre. No prenen iniciativa.

Recorda aquestes dues característiques, perquè seran importants per entendre què ve.

Nivell 2: Fluxos de treball d'IA (o "Com ensenyar-li a la IA a seguir instruccions")

Ara les coses es posen interessants. Què passaria si diguessis al LLM: "Escolta, cada vegada que et pregunti sobre un esdeveniment personal, primer busca al meu Google Calendar abans de respondre”?

Amb aquesta lògica implementada, la propera vegada que preguntis "quan és la meva propera reunió amb el client X?", obtindràs la resposta correcta. El LLM ara anirà primer al teu calendari per trobar aquesta informació.

Però aquí és on les coses es compliquen. Si la teva següent pregunta és "què acordem a la darrera reunió?", el LLM fallarà una altra vegada. Per què? Perquè li vas dir que seguís un camí específic: sempre cercar a Google Calendar, que òbviament no té sobre les meves actes de reunió.

Aquesta és la característica fonamental dels fluxos de treball de la IA: només poden seguir rutes predefinides establertes per humans. En termes tècnics (perdó per l'argot), aquesta ruta s'anomena “lògica de control”. Però hi pots pensar com una recepta molt específica que el LLM ha de seguir al peu de la lletra.

Pots fer-ne el flux més complex. Imagina't que afegeixes més passos: permetre que el LLM accedeixi als teus documents i després, només per diversió, fer servir un model de text a àudio perquè parli la resposta:

"A la darrera reunió vau repassar la proposta econòmica per al proper projecte i el client va acordar donar-nos resposta a la següent cita" (el que no sap la IA és la cara que va posar el client en veure el cost del projecte amb el que pot ser tan pessimista com jo respecte a la resposta).

Aquí ve el punt clau: no importa quants passos afegiu, això segueix sent només un flux de treball d'IA. Fins i tot si fossin centenars o milers de passos, si un humà és qui pren les decisions, no hi ha participació d‟agents d‟IA.

Un moment de claredat: Què és RAG?

Ja que som aquí, aclarim un altre terme que sona intimidant: RAG (Retrieval Augmented Generation o Generació Augmentada per Recuperació). Sona com una cosa treta de Star Trek, però en termes simples, RAG és un procés que ajuda els models d'IA a buscar informació abans de respondre, com accedir al teu calendari o als teus documents.

En essència, RAG és simplement un tipus de flux de treball de IA. Ja ho veus, no era tan complicat.

Exemple del món real

Un exemple pràctic: imagina't creant un flux de treball usant una plataforma com Make.com. Primer, compileu enllaços d'articles de notícies en un full de Google. Segon, uses Perplexity per resumir aquests articles. Tercer, uses ChatGPT per redactar publicacions per a LinkedIn i Substack. Finalment, programes que això s'executi automàticament cada dia a les 9 del matí.

Linkedin

Aquest és un flux de treball de IA perquè segueix una ruta predefinida establerta per tu: Passo un, fas això. Passo dos, fas això. Passo tres, fas això. I recorda executar-ho diàriament a les 9 AM.

Però si proves aquest flux i no t'agrada el resultat final (diguem que la publicació de LinkedIn no és prou divertida, i tu ets naturalment graciós), hauries de tornar manualment i reescriure el prompt per a ChatGPT. Aquesta iteració de prova i error la fa un humà: tu.

Nivell 3: Agents d'IA (o "Quan les màquines aprenen a pensar... Alguna cosa així")

Aquí és on es posa realment interessant. Continuant amb l'exemple anterior, analitzem què has estat fent com el prenedor de decisions humà. Amb l'objectiu de crear publicacions per a xarxes socials basades en articles de notícies, necessites fer dues coses:

Primer, raonar o pensar sobre el millor enfocament: necessites compilar els articles de notícies, després resumir-los, després escriure les publicacions finals.

Segon, prendre acció usant eines: trobar i vincular aquests articles de notícies a Google Sheets, utilitzar Perplexity per resumir en temps real, i després ChatGPT per redactar.

I aquí ve la frase més important de tot aquest article:

L'únic canvi massiu que ha de passar perquè aquest flux de treball d'IA es converteixi en un agent d'IA és que tu, el prenedor de decisions humà, siguis reemplaçat per un LLM.

En altres paraules, l'agent d'IA ha de raonar: "Quina és la forma més eficient de compilar aquests articles de notícies? Hauria de copiar i enganxar cada article en un document de Word? No, probablement sigui més fàcil compilar enllaços a aquests articles i després utilitzar una altra eina per obtenir les dades. Sí, això té més sentit."

L'agent d'IA ha d'actuar, és a dir, fer coses a través d'eines: "Hauria d'utilitzar Microsoft Word per compilar enllaços? No. Inserir enllaços directament en files és molt més eficient. Com Excel? Hmm, l'usuari ja ha connectat el seu compte de Google amb Make.com, així que Google Sheets és una millor opció."

El framework ReAct: Raonar i actuar

Per això, la configuració més comuna per a agents de l'IA és el framework ReAct. Tots els agents de IA han de raonar (reason) i Actuar (act). ReAct. Simple una vegada que ho desglosses, oi?

La tercera característica clau: Iteració

Una tercera característica clau dels agents dIA és la seva capacitat diterar. Recordes quan havies de reescriure manualment el prompt per fer la publicació de LinkedIn més divertida? Com a humà, probablement necessitaries repetir aquest procés iteratiu diverses vegades fins a obtenir una cosa que et satisfaci.

Un agent d'IA pot fer el mateix de manera autònoma. En el nostre exemple, l'agent d'IA autònomament afegiria un altre LLM per criticar-ne la pròpia producció:

"Okay, he redactat la V1 d'una publicació de LinkedIn. Com m'asseguro que sigui bona? Ah, ja sé! Afegiré un altre pas on un LLM critiqui la publicació basant-se en les millors pràctiques de LinkedIn. I repetirem això fins que es compleixin tots els criteris de millors pràctiques."

Després d'alguns cicles, tenim el resultat final.

Per anar acabant. Repassem els tres nivells

Per resumir tot allò que hem cobert, aquí tens una visualització simplificada dels tres nivells:

Nivell 1: Proporciones una entrada i el LLM respon amb una sortida. Fàcil.

Nivell 2: Per a fluxos de treball d'IA, proporcioneu una entrada i us dius al LLM que seguiu una ruta predefinida que pot involucrar recuperar informació d'eines externes. La característica clau aquí és que l'humà programa una ruta perquè el LLM la segueixi.

Nivell 3: L'agent d'IA rep un objectiu i el LLM fa raonament per determinar la millor manera d'assolir l'objectiu, pren acció usant eines per produir un resultat intermedi, observa aquest resultat intermedi, decideix si es requereixen iteracions, i produeix un resultat final que aconsegueix l'objectiu inicial.

La característica clau aquí és que el LLM és el prenedor de decisions al flux de treball.

Benvingut al futur (Que ja és aquí)

Los agentes de IA no son ciencia ficción; son una realidad que está transformando la manera en que trabajamos e interactuamos con la tecnología. La diferencia principal entre un chatbot tradicional, un flujo de trabajo de IA y un agente de IA radica en el nivel de autonomía y toma de decisiones.

Mientras que los chatbots responden pasivamente y los flujos de trabajo siguen rutas predefinidas, los agentes de IA pueden razonar, actuar e iterar de forma independiente para lograr objetivos complejos.

La próxima vez que escuches a alguien hablar sobre "capacidades agénticas" en una reunión, podrás asentir con conocimiento de causa. Y quién sabe, tal vez incluso puedas impresionar a tus colegas con tu nuevo conocimiento sobre RAG y ReAct.

El futuro de la IA no se trata solo de obtener respuestas más inteligentes, sino de tener asistentes digitales que puedan pensar, planificar y ejecutar tareas complejas por nosotros. Y honestamente, después de años de hacer todo manualmente, eso suena bastante bien.

Ahora, si me disculpas, voy a pedirle a mi futuro agente de IA que prepara mi reunión con el cliente X para conseguir cerrar el proyecto. Aunque probablemente debería empezar con objetivos más realistas... como organizar mi bandeja de entrada.