Google презентувала свою модель штучного інтелекту наступного покоління Gemini 1.5, яка відрізняється від версії 1.0 значно покращеною продуктивністю і може обробляти значно більше інформації.
Нова версія Gemini 1.5, що доступна для розробників і корпоративних клієнтів Google, має стандартне контекстне вікно 128 000 токенів. Для порівняння, Gemini 1.0 обмежена 32 тисячами токенів. Моделі від конкурентів GPT-4 Turbo від OpenAI та Claude 2.1 від Anthropic пропонують 128 та 200 тисяч токенів відповідно.
«Після тестування на комплексній панелі оцінювання тексту, коду, зображень, аудіо та відео 1.5 Pro перевершує 1.0 Pro за 87% тестів, які використовуються для розробки наших великих мовних моделей (LLM)», — стверджують в Google.
Певна група розробників і корпоративних клієнтів зможе скористатися Gemini 1.5 з обмеження контекстного вікна до 1 мільйона токенів, що еквівалентно обробці понад 700 тисяч слів, кодової бази з понад 30 тисяч рядків коду, 11 годинам аудіо або 1 годині відео.
«1.5 Pro може виконувати надскладні завдання розуміння та міркування для різних модальностей, включаючи відео. Наприклад, отримавши 44-хвилинний німий фільм Бастера Кітона, модель може точно проаналізувати різні сюжетні моменти та події та навіть міркувати про дрібні деталі у фільмі, які можна легко пропустити», — кажуть в Google.
Ці досягнення стали можливими завдяки новій архітектурі Mixture-of-Experts (MoE). Залежно від типу наданих вхідних даних, моделі MoE навчаються вибірково активувати лише найбільш релевантні шляхи у своїй нейронній мережі. Наразі компанія працює над оптимізацією роботи оновленої ШІ-моделі, аби «покращити затримку, зменшити обчислювальні вимоги та покращити взаємодію з користувачем».