How confessions can keep language models honest

OpenAI Blog·December 3, 2025 at 10:00 AM·

Trusted Source

OpenAI researchers are testing “confessions,” a method that trains models to admit when they make mistakes or act undesirably, helping improve AI honesty, transparency, and trust in model outputs.

How confessions can keep language models honest | AI News | AIventa