Жодна з популярних моделей ШІ не подолала поріг у 70% у тесті ZNO-Vision. Найкращим виявився результат Gemini Pro — 67,5%.
Штучний інтелект не зміг пройти українське незалежне оцінювання. Жодна з моделей не подолала 70% поріг правильних відповідей, необхідний для складання іспиту, – повідомляє arXiv.
ZNO-Vision — перший в Україні мультимодальний бенчмарк, створений для перевірки здатності мовних моделей працювати з українською мовою, освітніми завданнями та національною культурою. До тестування увійшли провідні ШІ-моделі, зокрема GPT-4o, Claude 3.5, Gemini Pro, Paligemma, Qwen2-VL, LLaMA та інші. Усі вони показали результати нижчі за поріг складання: найкращий бал отримала Gemini Pro — 67,5%, за нею Claude 3.5 — 64,3%, а GPT-4o набрала лише 47%.
Для порівняння, ймовірність правильної відповіді при випадковому виборі становить близько 22%. Бенчмарк охоплює понад 4 тисячі запитань із різних дисциплін — української мови, літератури, історії України, математики, фізики, біології, хімії. Частина завдань потребує роботи не лише з текстом, а й з візуальними даними: схемами, графіками та зображеннями.