OpenAI та Anthropic протестували моделі одна одної та оприлюднили результати.
OpenAI та Anthropic провели оцінку систем одна одної та оприлюднили результати аналізу. Звіти містять технічні дані про роботу моделей і способи проведення тестів безпеки, інформує LIGA.net.
Anthropic перевіряла моделі OpenAI на те, чи схильні вони лестити, повідомляти про порушення, захищати себе, підтримувати небезпечні дії або обходити тести безпеки. Моделі o3 та o4-mini працювали за очікуванням, а GPT-4o та GPT-4.1 показали можливі ризики зловживання. Лестощі були помічені у всіх моделях, крім o3. Нову модель GPT-5 із функцією Safe Completions не тестували.
OpenAI тестувала моделі Anthropic на виконання інструкцій, здатність обходити обмеження, а також на вигадки та маніпуляції. Моделі Claude виконували інструкції та рідко давали відповіді у випадках невизначеності.