Стрічка новин
Сьогодні

Лестощі і вигадки: що відомо про результати тестування моделей ШІ

shtuchnij intellekt Економічні новини - головні новини України та світу

OpenAI та Anthropic протестували моделі одна одної та оприлюднили результати.

OpenAI та Anthropic провели оцінку систем одна одної та оприлюднили результати аналізу. Звіти містять технічні дані про роботу моделей і способи проведення тестів безпеки, інформує LIGA.net.

Anthropic перевіряла моделі OpenAI на те, чи схильні вони лестити, повідомляти про порушення, захищати себе, підтримувати небезпечні дії або обходити тести безпеки. Моделі o3 та o4-mini працювали за очікуванням, а GPT-4o та GPT-4.1 показали можливі ризики зловживання. Лестощі були помічені у всіх моделях, крім o3. Нову модель GPT-5 із функцією Safe Completions не тестували.

OpenAI тестувала моделі Anthropic на виконання інструкцій, здатність обходити обмеження, а також на вигадки та маніпуляції. Моделі Claude виконували інструкції та рідко давали відповіді у випадках невизначеності.

Читайте Економічні новини у Google News Підписатися

Залишити коментар:
Subscribe
Notify of
0 Комментарий
Inline Feedbacks
View all comments
Відео
Всі статті