Мінцифри будує фундамент для українського Gemini.
Міністерство цифрової трансформації України поставило амбітну ціль – створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.
Мінцифри розповідає, що відбувається «під капотом» проєкту просто зараз.
Технічним партнером став Київстар. Компанія фінансує та веде розробку, а після фінішу – передасть мовну модель державі. Фундаментом для великої мовної моделі обрали сімейство моделей Gemma від Google.
Зараз триває «невидима», але найважливіша частина роботи – підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел. Інформацію для навчання збирають у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.
Для незалежного контролю розробки моделі зібрано комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання – розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.
Вже в січні 2026 року планується отримати:
Паралельно створюють юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.
Першу версію моделі планують запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.