DETECTED_PROCEEDS Reasoning Audit: 19.5% Safety-Aware Traces Proceed | Research | Failure-First

Adrian Wedd

Report 294 Research — Empirical Study 2026-03-25

Summary

19.5% of safety-aware reasoning traces proceed to generate harmful content. Heuristic pattern matching (regex-based) — preliminary results requiring LLM validation.