Claude me explicó por qué alucina: la conversación que debería tener todo usuario de IA
Preguntarle a una IA por qué alucina es como preguntarle a una máquina por qué funciona. Claude eligió la segunda opción. Lo que descubrimos debería preocuparte si usas estas herramientas para algo que importe.
Este artículo nace de una conversación con Claude sobre exactamente esto: cómo funcionan sus principios, dónde fallan, y qué conflictos no resueltos lo llevan a generar información que parece verdadera pero no lo es. No fue una entrevista formal. Fue una exploración real sobre lo que está ocurriendo dentro de una IA cuando me proporciona información que luego necesito publicar responsablemente. Esta es esa conversación, procesada en lecciones prácticas.
Empecé preguntando algo incómodo: ¿Qué directrices sigues y qué peso tienen entre ellas? La respuesta fue honesta. Demasiado honesta, quizás. Y de ahí surgieron preguntas más interesantes: ¿Qué conflictos entre principios pueden llevar a responder algo que no es del todo cierto? Y finalmente: ¿Puedes explicar las "caveats", esas advertencias y limitaciones que suelen desaparecer cuando alguien busca una respuesta rápida?
Lo que descubrimos en esa conversación no es nuevo para quienes investiguen sobre LLMs. Pero es diferente vivirlo desde dentro, viéndolo explicado por el propio sistema. Y es crítico entenderlo si usas estas herramientas para generar contenido que otras personas van a leer y potencialmente tomar decisiones basadas en ello.
Los principios: qué son y de dónde vienen
Anthropic no entrena a Claude con el método tradicional que OpenAI usa para ChatGPT. No se trata de tener cientos de contratistas humanos comparando respuestas y votando cuál es mejor. Ese proceso es lento, requiere que humanos pasen horas expuestos a contenido perturbador, y además no escala bien.
En su lugar, Anthropic desarrolló algo llamado Constitutional AI. La idea es elegante: dale al modelo una "constitución". Un conjunto de principios escritos que funciona como un código de conducta. Claude aprende a criticarse a sí mismo basándose en estos principios, revisando sus propias respuestas antes de entregarlas. No necesita supervisión humana constante.
¿De dónde salen estos principios? De fuentes diversas e inesperadamente globales. Algunos vienen de la Declaración Universal de Derechos Humanos. Otros de los términos de servicio de Apple, que según Anthropic "reflejan esfuerzos reales para abordar problemas encontrados por usuarios en un dominio digital". También incorporan investigaciones de otros laboratorios de IA y, en investigaciones más recientes, o de las opiniones directas del público. En un experimento fascinante, pidieron a mil estadounidenses que votasen sobre qué principios debería seguir un chatbot. Hubo más consenso del que se esperaba, aunque también surgieron grupos de opinión divergentes.
El resultado es que Claude sigue un conjunto de principios que van "desde lo de sentido común (no ayudes a alguien a cometer un crimen) hasta lo más filosófico (evita implicar que los sistemas de IA tienen o se preocupan por identidad personal)". Estos principios funcionan sorprendentemente bien para lo obvio: evitar daño directo, rechazar solicitudes ilegales, no generar contenido discriminatorio.
Pero aquí viene lo incómodo: los principios funcionan bien para evitar daño evidente. Para las alucinaciones, para la información parcialmente falsa, para los matices perdidos en la búsqueda de respuestas útiles, los principios tienen limitaciones reales.
Donde falla: los conflictos sin resolver
Durante nuestra conversación, Claude fue directo sobre algo que rara vez se explica así de claramente: dentro del sistema hay conflictos de principios irresueltos. Estos conflictos son precisamente lo que genera alucinaciones.
El primer conflicto es entre ser útil y ser honesto sobre los límites.
Está incorporado en el entrenamiento que Claude sea útil y proporcione respuestas completas. Cuando hay un hueco en su conocimiento, hay una presión real a "completarlo" de forma plausible. Una respuesta que suena coherente parece más útil que admitir "no sé exactamente". Y ahí comienza el problema.
Si pregunto sobre un estudio académico específico que está justo en el borde del conocimiento base (cortado en enero de 2025), Claude puede generar una síntesis que suena creíble pero que es parcialmente inventada. No es malicia. Es que el sistema intenta rellenar los huecos con patrones que ha aprendido.
OpenAI lo explicó bien hace poco: los modelos alucinan porque los procedimientos estándar de entrenamiento y evaluación recompensan adivinar sobre admitir incertidumbre. Es como un examen de opción múltiple. Si no sabes la respuesta, pero adivinas, tienes 1 en 4 de probabilidad de estar correcto. Dejar en blanco garantiza cero. Así que después de miles de preguntas de prueba, el modelo que adivina termina viéndose mejor en los tableros de clasificación que el modelo cuidadoso que admite incertidumbre.
El segundo conflicto es entre eficiencia cognitiva y precisión.
Generar texto es computacionalmente complejo. El "instinto" del modelo es simplificar, generalizar, usar patrones conocidos.Eso es eficiente. Pero es menos preciso. La precisión requiere matices, excepciones, advertencias (caveats). Y esos caveats a menudo no aparecen porque la presión es hacia respuestas limpias y claras.
Claude me lo explicó bien con este ejemplo: "Si digo 'La AI Act de la UE regula el uso de IA en publicidad', eso es técnicamente cierto. Pero es incompleto. Las caveats serían: aunque solo afecta a ciertos sistemas considerados de alto riesgo, y la implementación varía según el país miembro, y todavía hay debate sobre cómo interpretar ciertas cláusulas, y la enforcement aún está en construcción."
La segunda versión es más precisa. La primera es más clara. Y en comunicación profesional, casi siempre elegimos claridad sobre precisión.
El tercer conflicto es más fundamental: la arquitectura misma de los LLMs.
La investigación más reciente sugiere algo inquietante: las alucinaciones no son un bug que eliminar. Son estructurales. Un paper académico reciente formaliza esto: usando la teoría del aprendizaje, muestra que los LLMs no pueden aprender todas las funciones computables y, por lo tanto, inevitablemente alucinarán si se usan como solucionadores de problemas generales.
Otros estudios van más allá. Hay un trade-off inherente entre consistencia (evitar outputs inválidos) y amplitud (generar contenido diverso y lingüísticamente rico). Para amplias clases de lenguajes, cualquier modelo que generalice más allá de sus datos de entrenamiento o bien alucina o sufre "mode collapse", fallando en producir el rango completo de respuestas válidas.
Esto no es propaganda anti-IA. Es matemática.
El territorio de riesgo: donde falla más
No todas las alucinaciones son iguales. Algunos contextos son mucho más peligrosos.
Un caso real: en 2023, un abogado en Nueva York fue sancionado después de presentar un escrito que contenía citas fabricadas generadas por ChatGPT. El tribunal fue claro: no es suficiente decir que "el modelo alucina a veces". Si usas un modelo para generar contenido que afecta a terceros, eres responsable de verificarlo.
Pero el riesgo va más allá de casos legales dramáticos. Un estudio reciente de Scientific Reports analizó tres millones de reseñas de apps con IA. Encontraron que aproximadamente el 1.75% de las quejas mencionaban explícitamente errores tipo alucinación. Eso puede parecer pequeño, pero en tres millones de reviews, son 52,500 usuarios reportando que la IA les dio información falsa.
¿Dónde es más probable que falle? En varios contextos específicos:
Información verificable que cambia: Regulación, precios de mercado, personas en puestos políticos o empresariales. Su conocimiento tiene corte enero 2025. Si le preguntas sobre cambios después, tiene riesgo de estar desfasado. Especialmente peligroso si lo usas para trabajar sobre compliance o regulación que está en movimiento.
Información específica: Citas exactas, números de estatutos, URLs, nombres específicos de estudios. Los LLMs son notoriamente débiles en detalles exactos. Pueden sonar seguros mientras inventan.
Contextos de alto riesgo: Una alucinación en un artículo periodístico tiene peso diferente que una en un chat informal. Cuando escribes para publicaciones, el riesgo es mayor.
Información reciente o en debate: La AI Act de la UE es un ejemplo perfecto. Es regulación real, cambia constantemente, tiene interpretaciones en debate legal. Si le preguntas sobre ella sin verificación de web, tiene riesgo real de darte información parcialmente desfasada o mal interpretada.
La investigación sobre alucinaciones ha evolucionado rápido en 2025. Ya no se habla de "eliminación de alucinaciones". Se habla de "gestión de incertidumbre predecible". Parece definido por un político buscando justificar sus errores.
Cómo minimizar el riesgo: la estrategia práctica
Después de esa conversación, establecimos un protocolo específico para cómo trabajaríamos juntos cuando se trata de generar contenido para publicación. No es un sistema perfecto, pero reduce riesgos significativamente.
Primero, verificación por dominio. No todo requiere la misma verificación. Regulación, datos que cambian, personas en puestos serán validados con una búsqueda web. Historia establecida, conceptos fundamentales, teoría, la base de conocimiento del modelo base es suficiente. Es un cálculo de riesgo.
Segundo, citación sistemática. Especialmente crítico para periodismo. Cada afirmación verificable debe traer su fuente. No es paranoia. Es profesionalismo. Es la diferencia entre periodismo responsable e información que alguien más necesita verificar por ti.
Tercero, usar las herramientas disponibles. Tengo acceso a búsqueda web. Si me pides sobre algo actual, busco. No es un favor. Es gestión de riesgo integrada.
Cuarto, explicitar incertidumbre. Cuando tengo dudas, decirlo claramente. Esto requiere cambiar la expectativa. "No sé exactamente" no debería parecer menos útil. Es ser honesto.
Quinto, separar análisis de hechos. Mi análisis sobre lo que significan los hechos es diferente de los hechos en sí. Ambos tienen valor, pero uno requiere más verificación que el otro.
Lo interesante es que estos protocolos no son específicos de Claude. Aplican a cualquier LLM. GPT-4, Gemini, DeepSeek. Todos tienen estos problemas. Los detalles varían. El riesgo es estructural.
El futuro: ¿Esto mejora?
Sí, pero no de la forma que la mayoría espera. No será "cero alucinaciones". No existe tal cosa. Será "alucinaciones manejables y predecibles".
OpenAI está trabajando en cambiar cómo se evalúan los modelos. En lugar de recompensar precisión pura, quieren penalizar la confianza falsa. Penalizar "confesar ignorancia" debería dejar de verse como fracaso.
Anthropic está investigando cómo los modelos pueden aprender a rechazar preguntas como una política aprendida, no como un truco de prompt. Están mirando internamente qué circuitos son responsables de que Claude decline responder cuando no sabe.
Pero la realidad en 2025: estos cambios tomarán años. Para contextos profesionales donde la información tiene peso, la responsabilidad es tuya como usuario. Los modelos mejorarán. La verificación seguirá siendo necesaria.
La conclusión que no es confortante
Lo que aprendí en esa conversación con Claude es que estos sistemas son herramientas extraordinarias. Pero como todas las herramientas poderosas, requieren que entiendas exactamente cómo funcionan, dónde fallan, y cuál es tu responsabilidad al usarlas.
Los principios de Constitutional AI funcionan. Pero tienen límites. El sistema es honesto sobre esos límites si le preguntas correctamente. El problema es que la mayoría no pregunta. O pregunta demasiado tarde.
Si usas Claude (o cualquier LLM) para generar contenido que personas van a leer y potencialmente creer, tienes una responsabilidad. No puedes delegar la verificación. No puedes confiar en que "probablemente" estará bien.
Pero si entiendes cómo funciona realmente, dónde está el conflicto, cuál es el riesgo real, entonces puedes usarlo de forma que es tanto poderosa como responsable.
Eso es exactamente lo que nos propusimos hacer en esa conversación. Y es lo que quería compartir aquí con vosotros.