Вчені створили незвичний тест: подробиці

Учені створили математичний тест, який поки що не проходить жоден штучний інтелект.

Схоже, що до технологічної сингулярності нам ще далеко. Дослідники з організації Epoch AI представили новий математичний бенчмарк FrontierMath, з яким поки не можуть впоратися навіть найбільш просунуті моделі штучного інтелекту, інформує УНІАН.

FrontierMath містить у собі безліч найскладніших математичних виразів. Моделі Claude 3.5 Sonnet, GPT-4o, o1-preview і Gemini 1.5 Pro вирішують менше двох відсотків завдань. При цьому під час тестування у ШІ є повний доступ до середовища Python для обчислень і дебагінгу. Для порівняння, у старіших бенчмарках, на кшталт GSM8K або MATH, моделі правильно розв’язують понад 90% рівнянь.

Головною особливістю FrontierMath є те, що задачі звідти раніше ніде не публікувалися, тобто нейромережі не могли заздалегідь навчитися розв’язувати такі вирази.

Рейтинг нейромереж за проходженням FrontierMath

Як видно на графіку, найпродуктивнішою моделлю виявилася Gemini 1.5 Pro, але навіть вона змогла розв’язати менше ніж 2% завдань. Головним аутсайдером стала LLM від Ілона Маска Grok 2 Beta, яка зараз тестується у Twitter, вона не змогла розв’язати жодного рівняння.

Для створення тесту FrontierMath було задіяно 60 математиків з університетів по всьому світу. Завдання в бенчмарку охоплюють безліч галузей, включно з теорією чисел і алгеабраїчною геометрією. У фахівців може піти кілька днів, щоб вирішити одне завдання з тесту.

Читайте Економічні новини у Google News Підписатися

Теги: вчені тест ШІ

Залишити коментар:

0 Комментарий

Inline Feedbacks

View all comments

Новини світу

Через кілька годин після запуску: у Японії зупинили найбільшу АЕС (16853)

У Єгипті знайшли моторошний малюнок віком 5 тисяч років (4973)

Глибоко в океані є загублене місто: що людству про нього відомо. Фото (3715)

Під дном Великого Солоного озера виявили прихований резервуар прісної води (3663)

Щось дуже дивне відбулося з ведмедями на Шпіцбергені: вчені приголомшені (3461)

Популярні новини

До 10 тисяч гривень при 25 роках стажу: хто з українців може отримати таку пенсію (21240)

Через кілька годин після запуску: у Японії зупинили найбільшу АЕС (16853)

Нові податки для власників електрокарів: що варто пам’ятати (12174)

ПриватБанк встановив суворі ліміти: що треба знати клієнтам (8668)

Кінець світу наближається: вчені встановили новий час на годиннику Судного дня (7975)

Українське місто потрапило у рейтинг 20 найкримінальніших міст Європи (7767)

ПриватБанк продають: що буде з пенсіями, зарплатами та грошима на картках українців (7225)

Названо найнадійніші авто: хто у лідерах (6810)

В Україні готують нові правила для водіїв: що зміниться (6429)

Археологи знайшли на дні озера доісторичні каное, які старші за піраміди (6387)

#відновлення житла
Відновлення пошкоджених житлових будинків в Києві - куди звертатись мешканцям
Відновлення будинків в Києві, пошкоджених внаслідок ворожих обстрілів, здійснюється через державні програми ("єВідновлення"), місцеві бюджети, міжнародні гранти та
#бронемашина
Нову українську бронемашину Sova показали у дії. ВІДЕО
Вітчизняна компанія MAC HUB продемонструвала випробування нової бронемашини класу MRAP – MAC-OWL, відомої також як Sova (4х4). Зовні вона нагадує південноафрикансь
«Прошу хліба»: прикордонники допомогли бабусі з Костянтинівки через надпис на снігу. ВІДЕО
На Донеччині в Костянтинівці місцева мешканка залишила на снігу напис: «Прошу хліба». Оператор БпЛА, на позивний Малюк, побачив це з безпілотника й відреагував на
#курйоз
У Вроцлавському зоопарку маленький олень бився з гігантським носорогом. ВІДЕО
У зоопарку польського міста Вроцлав відбулася епічна битва карликового оленя та носорога. Про це пишуть місцеві ЗМІ. Бажаючи покрасуватися перед самками, кар
#акула
«Мангова» акула: біля Коста-Рики виявили хижака з подвійною мутацією кольору. ВІДЕО
Біля узбережжя Коста-Рики науковці зафіксували надзвичайно рідкісний випадок генетичної аномалії у морських хижаків. Акула-нянька (Ginglymostoma cirratum), спійман
На дні океану біля Гаваїв виявили незвичну геологічну формацію у вигляді кам’яної дороги. ВІДЕО
Підводна експедиція в північній частині Гавайського архіпелагу подарувала науковцям несподіване відкриття — геологічну формацію, яка разюче нагадує акуратно виклад
#блекаути
Авто замість генератора: одесит під’єднав побутову техніку напряму від авто. ВІДЕО
В мережі набуло популярності відео з Одеси з нетиповим способом забезпечення електроенергією квартири під час відключень світла. Чоловік протягнув електричний кабе
#Запоріжжя
Російський безпілотник влучив у багатоповерхівку в Запоріжжі: будинок охопила пожежа. ВІДЕО
Уранці 16 грудня російський ударний безпілотник типу Shahed влучив у багатоповерховий будинок у Запоріжжі. У результаті ворожої атаки є постраждалі. Про це

#енергетика
Масовані удари по Києву: як столиця шукає вихід з енергетичної пастки
Росія відновила бомбардування Києва та його критичної енергетичної інфраструктури всього через п’ять днів після того, як глава Білого дому Дональд Трамп оголосив пр
#ядерна безпека
Світ без контролю над ядерною зброєю починається в четвер, 5 лютого
На тлі нинішніх бурхливих подій на другий план незаслужено відійшла надзвичайно актуальна тема завершення строку дії Договору про обмеження стратегічних наступаль
#Skoda Kodiaq
Škoda Kodiaq як універсальний вибір для далеких подорожей і міського ритму
Сучасний автомобіль давно перестав бути просто засобом пересування. Він супроводжує власника в різних життєвих ситуаціях: від ранкової поїздки на роботу до вихідних
#політика
Чи похитне нестабільність Ірану та Китаю московський тил у війні проти України
Події, що відбуваються всередині й довкола Ірану та Китаю — ключових союзників Москви, які забезпечують Кремлю стратегічний тил в агресії проти України, — можуть
#енергетика
«Сюрприз» у вигляді енергоперемир’я, схоже, буде недовгим
Неочікуване «енергоперемир’я», під час якого агресор і Україна мають намір взаємно утримуватися від ударів по енергетичній інфраструктурі одне одного, уже назвали
#Алло
Пральні машини з сушкою за оцінками експертів Алло: чи варто обирати формат 2-в-1
Ритм життя прискорюється, а житлові площі в новобудовах часто диктують жорсткі умови: кожен квадратний метр важливий.
#гроші
Криптовалютна корупція Трампа і загроза нашестя інопланетян
Про те, що своє повернення до влади Трамп і наближені до нього успішно використовують для отримання наживи та збільшення власних статків, західні медіа пишуть дав
#економіка
Електричний удар під час блекауту
На тлі тотальних відключень електроенергії, які торкнулися не лише населення, а й промисловості, бюджетно-комунальної сфери та інших організацій, влада вирішила за