Новини технологій

Українська Gemini: коли запрацює національна LLM

Мінцифри будує фундамент для українського Gemini.

Міністерство цифрової трансформації України поставило амбітну ціль – створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.

Мінцифри розповідає, що відбувається «під капотом» проєкту просто зараз.

Хто будує та на якій технології

Технічним партнером став Київстар. Компанія фінансує та веде розробку, а після фінішу – передасть мовну модель державі. Фундаментом для великої мовної моделі обрали сімейство моделей Gemma від Google.

Що відбувається зараз

Зараз триває «невидима», але найважливіша частина роботи – підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел. Інформацію для навчання збирають у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.

Для незалежного контролю розробки моделі зібрано комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання – розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.

Вже в січні 2026 року планується отримати:

  • Першу базу текстів для тренування мовної моделі;
  • Покращений токенізатор – інструмент, який ефективно розбиває слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше;
  • Власні бенчмарки для оцінки якості – стандарти, за якими ми перевірятимемо ефективність та безпеку LLM.

Паралельно створюють юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.

Першу версію моделі планують запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.

Гелена Деревянко