Штучному інтелекту буде нічому навчатися через брак даних, якщо до 2026 року людство збереже ритм і методику тренувань великих мовних моделей (LLM), що сповільнить або навіть змінить розвиток ШІ, вважають учені.
Про це пише портал The Conversation.
У своїй опублікованій роботі вони вказують, що, наприклад, ChatGPT навчався на 570 гігабайтах текстових даних, або близько 300 мільярдів слів. Аналогічним чином, алгоритм стабільної дифузії (який лежить в основі багатьох застосунків для створення зображень штучного інтелекту, як-от DALL-E, Lensa і Midjourney) було навчено на наборі даних LIAON-5B, що складається з 5,8 мільярда пар “зображення-текст”. Якщо алгоритм навчений на недостатньому обсязі даних, то він видаватиме неточні або неякісні результати.
Фахівці так само особливо відзначають, що для розвитку LLM критичне значення має і якість контенту, на якому навчаються великі мовні моделі. У цьому аспекті для тренувань дуже слабо підходять соцмережі, оскільки якість інформації в них часто є маніпулятивною, що призведе до неправдивих результатів від ШІ. Текст, узятий із платформ соціальних мереж, може бути упередженим або може містити дезінформацію чи незаконний контент, який може бути відтворений моделлю.
За даними вчених, зараз розробники ШІ шукають високоякісний контент, такий як текст із книг, онлайн-статей, наукових робіт, Вікіпедії та певний відфільтрований вебконтент. Наприклад, Google Assistant був навчений на 11 000 любовних романах, узятих із сайту самостійної публікації Smashwords, щоб зробити його більш розмовним.
Водночас дослідники пророкують, що в нас закінчаться високоякісні текстові дані до 2026 року, якщо поточні тенденції навчання штучного інтелекту збережуться. За їхніми оцінками, низькоякісні мовні дані будуть вичерпані десь між 2030 і 2050 роками, а низькоякісні зображення — між 2030 і 2060 роками.
Утім, ситуація може бути не такою поганою, як здається. Є багато невідомого про те, як моделі ШІ розвиватимуться в майбутньому, а також про деякі способи усунення ризику нестачі даних. Одна з можливостей для розробників ШІ — поліпшити алгоритми, щоб вони могли ефективніше використовувати вже наявні дані. Цілком імовірно, що найближчими роками вони зможуть навчати високопродуктивні системи штучного інтелекту, використовуючи менше даних і, можливо, меншу обчислювальну потужність.
Інший варіант — використовувати ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати необхідні їм дані, підібрані відповідно до їхньої конкретної моделі ШІ. Кілька проєктів уже використовують синтетичний контент, який часто отримують із сервісів генерації даних, таких як Mostly AI. У майбутньому це стане більш поширеним явищем, вважають дослідники.