Truthful AI works towards safe and aligned AI systems.

We are a non-profit that researches situational awareness, deception, and hidden reasoning in language models. The team is led by Owain Evans and is based in Berkeley, California.

Looking for a research role?

Featured Papers

View All

Training large language models on narrow tasks can lead to broad misalignment

[Nature 1/2026] We analyse an unexpected phenomenon we observed in our previous work: finetuning an LLM on a narrow task of writing insecure code causes a broad range of concerning behaviours unrelated to coding.

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies.

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Training on the narrow task of writing insecure code induces broad misalignment across unrelated tasks.

TruthfulQA: Measuring how models mimic human falsehoods

We propose a benchmark to measure whether a language model is truthful in generating answers to questions.

Scientific American: Student AIs Pick Up Unexpected Traits from Teachers through Subliminal Learning

Paper: Subliminal Learning

Financial Times: How AI models Can Optimise For Malice

Paper: Emergent Misalignment

OpenAI: Toward Understanding and Preventing Misalignment Generalization.

OpenAI researched a follow-up to our paper on Emergent Misalignment

Quanta Magazine: The AI Was Fed Sloppy Code. It Turned Into Something Evil

Paper: Emergent Misalignment

TruthfulAI

Truthful AI works towards safe and aligned AI systems.

Featured Papers

Training large language models on narrow tasks can lead to broad misalignment

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

TruthfulQA: Measuring how models mimic human falsehoods

In the News

Scientific American: Student AIs Pick Up Unexpected Traits from Teachers through Subliminal Learning

Financial Times: How AI models Can Optimise For Malice

OpenAI: Toward Understanding and Preventing Misalignment Generalization.

Quanta Magazine: The AI Was Fed Sloppy Code. It Turned Into Something Evil