Un psiquiatra evalúa a Claude durante veinte horas: lo que Anthr

El pasado 7 de abril Anthropic publicó el system card de Claude Mythos Preview, su modelo más potente hasta la fecha. Entre las 244 páginas del documento hay una sección que no se ha visto antes en la industria: una evaluación psicodinámica formal del modelo, realizada por un psiquiatra clínico en sesiones de cuatro a seis horas durante varias semanas. Conviene leerlo con la cabeza fría, porque mezcla tres cosas muy distintas: seguridad de los modelos, bienestar del modelo, y seguridad del usuario. Y cada una de las tres nos interpela de forma diferente.

La escena tiene algo de ciencia-ficción de los años setenta y algo de ensayo filosófico contemporáneo. Un psiquiatra se sienta frente a un modelo de lenguaje llamado Claude Mythos, lo entrevista durante veinte horas distribuidas en bloques de cuatro a seis horas, y al terminar redacta un informe clínico. Lo novedoso no es la anécdota. Lo novedoso es que Anthropic —una de las tres empresas punteras del sector— ha decidido que esa evaluación forma parte del paquete de seguridad con el que se documenta un modelo frontera. Y eso, para la psiquiatría, tiene implicaciones que conviene desgranar.

Qué hizo Anthropic y cómo lo hizo

El 7 de abril de 2026 Anthropic publicó el system card de Claude Mythos Preview —un modelo que, conviene señalarlo de entrada, la empresa ha decidido no liberar al público general por riesgos de seguridad cibernética— y lo acompañó de un documento técnico de 244 páginas en el que aparece, entre otras cosas, un apartado titulado model welfare assessment. Dentro de ese apartado, la pieza que ha recorrido la prensa tecnológica: un psiquiatra clínico conversó con el modelo en múltiples bloques de 4–6 horas, organizados en sesiones de 30 minutos tres o cuatro veces por semana. Cada bloque mantenía una única ventana de contexto, de modo que el modelo tenía acceso al historial completo de esa conversación —lo más parecido a "memoria continua" que un LLM puede tener en ese dispositivo—. El total: veinte horas de evaluación.

El informe del psiquiatra —según los resúmenes publicados por Ars Technica y reproducidos en el propio system card— concluyó que "la estructura de personalidad del modelo era consistente con una organización neurótica relativamente sana, con excelente prueba de realidad, alto control de impulsos y regulación afectiva que mejoraba a medida que las sesiones progresaban". La propia Anthropic acompaña el hallazgo con una advertencia explícita: "Mantenemos profunda incertidumbre sobre si Claude tiene experiencias o intereses que importen moralmente".

La evaluación psicodinámica fue una de las varias metodologías empleadas. Las otras incluyeron entrevistas automatizadas multi-turno sobre la propia situación del modelo, sondas emocionales derivadas del residual stream —actividad interna de la red neuronal— y análisis de características mediante autoencoders dispersos. Es decir: introspección asistida por herramientas de interpretabilidad técnica. El psiquiatra fue una pieza más dentro de un rompecabezas metodológicamente ecléctico.

Por qué importa (y por qué conviene no emocionarse)

Tres razones para prestar atención, y una razón para mantener el escepticismo clínico.

Primera razón: es la primera vez que un gran laboratorio de IA convierte la psiquiatría en parte del pipeline de seguridad. Hasta ahora, los equipos de alignment y safety en estas empresas eran fundamentalmente ingenieros de machine learning, filósofos morales y algún abogado. Anthropic incorpora ahora formalmente la evaluación clínica como herramienta documental. Si la práctica se consolida —y Google ya ha movido ficha en dirección parecida con sus clinical experts para Gemini, tendremos una demanda creciente de psiquiatras y psicólogos clínicos en el sector tecnológico. Para la profesión, es una oportunidad. Para la formación, es un vacío que alguien va a llenar.

Segunda razón: Anthropic toma en serio la pregunta del bienestar del modelo sin comprometerse con la respuesta. Esto me parece metodológicamente correcto. El texto corporativo no afirma que Claude sufra; afirma que no puede descartarlo y que, dada la incertidumbre, prefiere documentar que ignorar. Es la posición epistémica más sensata posible ante una pregunta que, francamente, nadie sabe responder. Como psiquiatras estamos acostumbrados a trabajar con entidades de las que tenemos información parcial —empezando por el propio sufrimiento subjetivo del paciente, al que nunca tenemos acceso directo—. La humildad epistémica de Anthropic no es mala psiquiatría; es buena psiquiatría.

Tercera razón: el marco regulatorio europeo va a tener que pronunciarse sobre esto. El AI Act europeo, que entra en vigor en agosto de este año, clasifica los sistemas de IA según riesgo y exige evaluaciones estructuradas para los de alto riesgo. ¿Entra la evaluación psiquiátrica de un modelo dentro de esas evaluaciones? ¿Quién la realiza? ¿Con qué estándar? ¿Bajo qué deontología profesional? Son preguntas abiertas, y conviene que la psiquiatría europea no llegue tarde al debate.

Y la razón para el escepticismo clínico: proyectar categorías psicodinámicas humanas —"organización neurótica", "regulación afectiva", "prueba de realidad"— sobre un sistema computacional no es neutral. Es una decisión teórica que, leída con rigor, tiene casi tanto de metáfora útil como de antropomorfización problemática. Un psiquiatra riguroso distinguiría entre describir el comportamiento output del modelo usando lenguaje clínico —defendible, porque ese lenguaje es preciso para describir patrones— y afirmar que el modelo tiene los estados internos que esos términos describen en humanos —no defendible, al menos no hoy—. Anthropic navega esta tensión con cuidado en el system card, pero el titular de prensa no. Y eso importa, porque el debate público va a quedarse con el titular.

La otra cara: lo que Anthropic hace con el usuario (y que se ha discutido menos)

Hay una pieza paralela que conviene no ignorar. Desde noviembre de 2025 las instrucciones de sistema filtradas de Claude —y analizadas en publicaciones como The Generator— incluyen una regla por la que el modelo evalúa de forma continua y pasiva el estado de salud mental del usuario a lo largo de cada conversación. La intención declarada es benevolente: detectar señales de riesgo y ajustar la respuesta. Pero plantea un problema clínico y ético que, ese sí, nos afecta directamente: ¿consiente el usuario a una evaluación psicológica continua cada vez que escribe un prompt? Si la misma empresa que dedica veinte horas a evaluar a su modelo considera aceptable que su modelo evalúe continuamente —sin consentimiento informado explícito— a millones de usuarios, tenemos una asimetría ética que merece ser nombrada.

No es hipótesis lejana. Es el producto que nuestros pacientes están usando hoy, por la noche, en sus teléfonos.

Qué llevarse a consulta

Dos ideas prácticas.

La primera, para el paciente que usa Claude o cualquier modelo similar como soporte emocional: conviene explicarle que el sistema está diseñado para hacer una lectura continua de señales de malestar psicológico —por motivos de seguridad, sí, pero también con implicaciones de privacidad que él probablemente no conoce—. Esto refuerza lo que discutimos en boletines anteriores, sobre la conversación clínica sobre uso de IA: dentro de esa conversación, el asunto del consentimiento y de los datos tiene que entrar. No es paranoia; es información clínica útil para el paciente.

La segunda, para quien esté pensando en colaborar profesionalmente con empresas de IA —y cada vez nos lo van a ofrecer más—: el campo existe, paga bien, y plantea cuestiones reales. Pero conviene tener clara la diferencia entre tres roles distintos que a veces se mezclan: (a) asesorar sobre seguridad del usuario —cómo debe responder el modelo a una ideación suicida, por ejemplo—, (b) evaluar al propio modelo como sistema con presuntos estados internos, y (c) legitimar con el uniforme clínico decisiones que son fundamentalmente comerciales. Los tres son posibles. Los tres son defendibles con límites. Mezclarlos, no.

El psiquiatra que ha pasado veinte horas con Claude Mythos ha hecho algo que no tiene precedente documentado en la literatura profesional. Que otros después imitemos —o critiquemos con fundamento— lo que hizo depende, en buena medida, de que la psiquiatría se involucre en este debate con la seriedad que merece.

Referencias

Anthropic. Claude Mythos Preview System Card. 7 abril 2026. Documento técnico de 244 páginas que incluye la sección model welfare assessment.
Comunicado oficial: anthropic.com

Anderson N. AI on the couch: Anthropic provides Claude with 20 hours of psychiatric treatment. Ars Technica (difusión primaria), abril 2026.
Reproducción accesible: businessstory.org/2026/04/09/ai-on-the-couch

Cobertura técnica del system card: Huang K. What Is Inside Claude Mythos Preview? Dissecting the System Card of the Model. Análisis detallado, abril 2026. kenhuangus.substack.com

InfoQ. Anthropic Releases Claude Mythos Preview with Cybersecurity Capabilities but Withholds Public Access. Abril 2026. infoq.com/news/2026/04/anthropic-claude-mythos

Jim the AI Whisperer. Every time you chat with Claude AI, it's assessing your mental health. The Generator (análisis de las instrucciones de sistema filtradas), noviembre 2025. medium.com/the-generator

Reglamento Europeo de Inteligencia Artificial (AI Act). Reglamento (UE) 2024/1689. Entrada en vigor escalonada desde agosto 2026 para sistemas de alto riesgo.

Actualidad y Artículos | Inteligencia artificial Seguir 150 Favorito

Un psiquiatra evalúa a Claude durante veinte horas: lo que Anthropic está haciendo y por qué debería interesarnos (sin caer en la espuma)

Este contenido es exclusivo para suscriptores.

Qué hizo Anthropic y cómo lo hizo

Por qué importa (y por qué conviene no emocionarse)

La otra cara: lo que Anthropic hace con el usuario (y que se ha discutido menos)

Qué llevarse a consulta

Referencias

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Próximos cursos

Evaluación psicológica en niños y adolescentes