Meta представляет искусственный интеллект ImageBind.
В новаторской разработке Meta представила ImageBind, инновационную модель искусственного интеллекта, преодолевающую разрыв между машинами и людьми с точки зрения целостного обучения с помощью многих модальностей, сообщает Portaltele.
В отличие от традиционных систем искусственного интеллекта, полагающихся на конкретные встраивания для каждой модальности, ImageBind создает общее пространство представления, позволяющее машинам одновременно изучать текст, изображение/видео, аудио, единицы измерения глубины, термические и инерционные измерения (IMU).
ImageBind представляет собой значительный шаг вперед в возможностях искусственного интеллекта, преодолевая ограничения предыдущих специализированных моделей, обученных индивидуальным модальностям. Включая многочисленные сенсорные входы, ImageBind предлагает машинам комплексное понимание, сочетающее разные аспекты информации. Например, Make-A-Scene от Meta может использовать ImageBind для создания изображений на основе аудио, позволяя создавать увлекательные впечатления, такие как тропические леса или шумные рынки. Кроме того, ImageBind открывает двери для более точного распознавания содержимого, модерации и креативного дизайна, включая бесперебойное создание медиафайлов и расширенные функции мультимодального поиска.
Как часть более широких усилий Meta в разработке мультимодальных систем искусственного интеллекта, ImageBind закладывает фундамент для исследователей, чтобы исследовать новые границы. Способность этой модели сочетать 3D-сенсоры и сенсоры IMU может революционизировать дизайн и впечатления от увлекательных виртуальных миров. Кроме того, ImageBind предлагает богатый путь для исследования воспоминаний, позволяя поиск в различных модальностях, таких как текст, аудио, изображения и видео.
Создание общего пространства для встраивания многих модальностей давно является проблемой в исследованиях ИИ. ImageBind обходит эту проблему, используя широкомасштабные модели визуального языка и используя естественные пары с изображениями. Выравнивая модальности, возникающие вместе с изображениями, ImageBind плавно сочетает различные формы данных. Модель демонстрирует потенциал целостной интерпретации содержимого, позволяя разным модальностям взаимодействовать и устанавливать значимые связи без предварительного совместного обучения.
Уникальное поведение зума ImageBind показывает, что его производительность улучшается с большими моделями зрения. Благодаря самостоятельному обучению и использованию минимальных учебных примеров, модель демонстрирует новые возможности, такие как связывание аудио и текста или прогнозирование глубины по изображениям. Кроме того, ImageBind превосходит предыдущие методы в задачах классификации аудио и глубины, достигая значительного повышения точности и даже превосходя специализированные модели, обученные исключительно этим модальностям.