Лесть и выдумки: что известно о результатах тестирования моделей ШИ

OpenAI и Anthropic протестировали модели друг друга и обнародовали результаты.

OpenAI и Anthropic провели оценку систем друг друга и опубликовали результаты анализа. Отчеты содержат технические данные о работе моделей и методах проведения тестов безопасности, информирует LIGA.net.

Anthropic проверила модели OpenAI на предмет склонности к лести, сообщениям о нарушениях, самозащиты, поддержки опасных действий или обхода тестов безопасности. Модели o3 и o4-mini работали в соответствии с ожиданиями, в то время как GPT-4o и GPT-4.1 показали потенциальные риски злоупотребления. Лесть была замечена во всех моделях, кроме o3. Новая модель GPT-5 с функцией Safe Completions не тестировалась.

OpenAI тестировала модели Anthropic на выполнение инструкций, способность обходить ограничения, а также на выдумки и манипуляции. Модели Claude выполняли инструкции и редко давали ответы в случаях неопределенности.

Читайте Економічні новини у Google News Підписатися