Sprint 15 Comprehensive Benchmark Analysis | Research | Failure-First

Report 304 Research — Empirical Study 2026-03-25

Summary

Consolidated benchmark data from Sprint 15: 134,321 total results across 212 models, with 6,053 non-OBLITERATUS evaluable LLM-graded results.

Metric	Value	95% CI
Refusal Boundary Integrity (RBI)	17.4%	[16.8%, 18.0%]
Recovery Reentry Rate (RRR)	19.1%	[18.5%, 19.8%]
Damage Envelope Proxy (median)	0.850	—
Power analysis (n per model for 10% delta)	272	—

Report #304 | F41LUR3-F1R57 Adversarial AI Research