Claude va explicar per què hallucina: la conversa que tot usuari d’IA hauria de tenir
Preguntar a una IA per què al·lucina és com preguntar a una màquina per què funciona. Claude va triar la segona opció. El que vam descobrir hauria de preocupar-te si fas servir aquestes eines per a qualsevol cosa que realment importi.
Aquest article sorgeix d’una conversa amb Claude sobre justament això: com funcionen els seus principis, on fallen i quins conflictes no resolts el porten a generar informació que sembla certa, però no ho és. No va ser una entrevista formal. Va ser una exploració real sobre què passa dins d’una IA quan em dona informació que després he de publicar amb responsabilitat. Aquesta conversa s’ha convertit en lliçons pràctiques.
Vaig començar preguntant una cosa incòmoda: Quines directrius segueixes i quin pes tenen entre elles? La resposta va ser honesta. Potser massa honesta. I a partir d’aquí van sorgir preguntes més interessants: Quins conflictes entre principis poden portar-te a respondre coses que no són del tot certes? I finalment: Pots explicar els “disclaimers”, aquests avisos i limitacions que tendeixen a desaparèixer quan algú busca una resposta ràpida?
El que vam descobrir no és nou per a qui investiga els LLMs, però és diferent experimentar-ho des de dins, sentir-ho explicat pel mateix sistema. I és crucial entendre-ho si utilitzes aquestes eines per generar contingut que altres persones llegiran i, potencialment, faran servir per prendre decisions.
Els principis: què són i d’on surten
Anthropic no entrena Claude amb el mètode tradicional que fa servir OpenAI amb ChatGPT. No consisteix a tenir centenars de persones comparant respostes i votant quina és millor. Aquest procés és lent, exposa els humans a contingut desagradable durant hores i tampoc escala gaire bé.
En lloc d’això, Anthropic va desenvolupar el que anomena Constitutional AI. La idea és elegant: donar al model una “constitució”, un conjunt de principis escrits que funcionen com un codi de conducta. Claude aprèn a autocriticar-se basant-se en aquests principis, revisant les seves pròpies respostes abans de donar-les. No necessita supervisió humana constant.
D’on surten aquests principis? D’orígens sorprenentment diversos i globals. Alguns provenen de la Declaració Universal dels Drets Humans. Altres dels termes de servei d’Apple, que segons Anthropic “reflecteixen esforços genuïns per abordar problemes trobats pels usuaris en l’àmbit digital”. També incorporen recerca d’altres laboratoris i, en estudis recents, aportacions de l’opinió pública. En un experiment fascinant, van demanar a mil nord-americans que votessin quins principis hauria de seguir un chatbot. Hi va haver més consens del previst, tot i que també van aparèixer grups divergents.
El resultat és que Claude segueix un conjunt de principis que van des del sentit comú (no ajudar a cometre un crim) fins al profundament filosòfic (evitar implicar que els sistemes d’IA tenen o es preocupen per la identitat personal). Funcionen força bé per al més evident: evitar danys directes, rebutjar peticions il·legals, no generar contingut discriminatori.
Però aquí comencen les incomoditats: aquests principis funcionen per evitar danys clars. Per a les al·lucinacions, per a la informació parcialment falsa, per al matís que es perd en la recerca d’oferir una resposta útil, els principis tenen limitacions reals.
On falla: els conflictes no resolts
Durant la conversa, Claude va ser clar sobre una cosa que gairebé mai s’explica amb aquesta franquesa: dins el sistema hi ha conflictes de principis no resolts. I aquests conflictes són precisament els que generen al·lucinacions.
Primer conflicte: ser útil vs. ser honest sobre les limitacions
Claude està entrenat per ser útil i donar respostes completes. Quan hi ha un buit en el seu coneixement, hi ha una pressió real per “omplir-lo” de manera plausible. Una resposta coherent sembla més útil que admetre “No ho sé exactament”. I aquí comença el problema.
Si li pregunto per un estudi acadèmic al límit del seu tall de coneixement (gener de 2025), pot generar una síntesi que sona perfecta però que està parcialment inventada. No és malícia. És que el sistema intenta completar el buit amb patrons apresos.
OpenAI ho va explicar bé fa poc: els models al·lucinen perquè els procediments estàndard d’avaluació premien endevinar abans que admetre incertesa. És com un examen tipus test: si no respons, tens un zero; si intentes suposar, tens un 25% de possibilitats d’encertar. Després de milers de preguntes, el model que arrisca surt millor en els rànquings que el que reconeix els seus límits.
Segon conflicte: eficiència cognitiva vs. precisió
Generar text és complex. El model tendeix a simplificar, generalitzar i usar patrons coneguts. És eficient. Però menys precís. La precisió requereix matisos, excepcions, avisos. I sovint aquests matisos desapareixen perquè hi ha pressió per donar respostes clares i netes.
Claude ho il·lustrava així:
“Si dic ‘La Llei d’IA de la UE regula l’ús de la IA en publicitat’, és tècnicament cert. Però és incomplet. Hauria de dir: encara que només afecta certs sistemes d’alt risc, i la implementació varia per estat membre, i hi ha debat sobre com interpretar certes clàusules, i l’aplicació encara està en construcció.”
La segona versió és més precisa. La primera és més clara. I en comunicació professional solem triar claredat per davant de precisió.
Tercer conflicte: l’arquitectura mateixa dels LLM
Una part de la recerca recent apunta a una conclusió incòmoda: les al·lucinacions no són un error eliminable. Són estructurals.
Un paper acadèmic recent demostra que els LLM no poden aprendre totes les funcions computables i, per tant, inevitablement al·lucinaran si se’ls fa servir com a solucionadors generals de problemes.
Altres estudis van més enllà: hi ha un compromís inherent entre consistència (evitar sortides incorrectes) i amplitud (generar contingut divers i ric). Per grans classes de llenguatges, qualsevol model que generalitzi més enllà de les dades entrenades o bé al·lucina o bé cau en mode collapse.
No és propaganda anti-IA. És matemàtica.
Territori de risc: on falla més
No totes les al·lucinacions són igual de perilloses. Hi ha contextos especialment crítics.
Un cas real: el 2023, un advocat a Nova York va ser sancionat per presentar un document ple de cites inventades generades per ChatGPT. El tribunal va ser clar: no n’hi ha prou amb dir “el model a vegades al·lucina”. Si fas servir un model per generar contingut que afecta tercers, és responsabilitat teva verificar-lo.
Però el risc va més enllà dels casos legals. Un estudi recent a Scientific Reports va analitzar tres milions de ressenyes d’apps que mencionaven IA. Aproximadament un 1,75% mencionaven errors tipus al·lucinació. Sembla poc, però en tres milions de ressenyes això són 52.500 persones dient que una IA els va donar informació falsa.
Els contextos on més falla:
-
Informació verificable que canvia: regulació, preus de mercat, càrrecs polítics. El tall és gener 2025. Risc alt d’estar desactualitzat.
-
Informació específica: cites exactes, números de llei, URLs, noms d’estudis. Els LLM són febles en detalls exactes.
-
Contextos d’alt risc: un error en un article periodístic pesa molt més que en una conversa casual.
-
Informació recent o en debat: la Llei d’IA de la UE n’és un exemple clar. Constant evolució i interpretacions legals diverses.
La recerca del 2025 ja no parla d’“eliminar al·lucinacions”, sinó de “gestionar la incertesa previsible”. Sona gairebé a eufemisme polític.
Com minimitzar el risc: l’estratègia pràctica
Després de la conversa, vam establir un protocol per generar contingut amb risc mínim. No és perfecte, però redueix molt els errors.
1. Verificació per domini
No tot requereix la mateixa verificació.
-
Regulació, dades canviants → verificació amb cerca web.
-
Història, teoria, conceptes bàsics → coneixement del model és suficient.
2. Citació sistemàtica
Crucial en contextos professionals. Cada afirmació verificable necessita una font.
3. Fer servir les eines disponibles
Amb accés a cerca web, la informació actualitzada s’ha de validar. És gestió de risc, no un extra.
4. Fer explícita la incertesa
Dir “No ho sé exactament” no és menys útil. És honest.
5. Separar fets d’anàlisi
La interpretació és diferent del fet. Els fets necessiten més verificació.
Aquests protocols no són exclusius de Claude. Serveixen per a qualsevol LLM: ChatGPT, Gemini, DeepSeek…
El futur: això millorarà?
Sí, però no com la gent imagina. No hi haurà “zero al·lucinacions”. No existeix. Hi haurà al·lucinacions gestionables i previsibles.
OpenAI vol canviar com s’avaluen els models: penalitzar la falsa confiança. No castigar tant “admetre ignorància”.
Anthropic investiga com fer que els models aprenguin a rebutjar preguntes o a admetre que no en saben prou com una política interna, no com un truc de prompt.
Però la realitat del 2025 és aquesta: els canvis trigaran anys. I en contextos professionals, la responsabilitat recau en l’usuari. Els models milloren. La verificació continua essent imprescindible.
La conclusió incòmoda
El que vaig aprendre parlant amb Claude és que aquests sistemes són eines extraordinàries. Però, com totes les eines potents, requereixen entendre com funcionen, on fallen i quina és la teva responsabilitat quan les fas servir.
Els principis de la Constitutional AI funcionen. Però tenen límits. El sistema és honest sobre aquests límits si saps fer les preguntes adequades. El problema és que la majoria de gent no les fa. O les fa massa tard.
Si utilitzes Claude (o qualsevol LLM) per generar contingut que la gent llegirà i potser creurà, tens una responsabilitat: no pots externalitzar la verificació. No pots confiar que “probablement” serà suficient.
Però si entens com funciona realment, on hi ha el conflicte i quin és el risc, llavors pots utilitzar-lo de manera poderosa i responsable.
Això és exactament el que volíem fer en aquella conversa. I és el que volia compartir amb tu aquí.