Chat GPT и Революция Искусственного Интеллекта. Тимур Казанцев
Stable Diffusion, Midjourney и другие генераторы изображений и видео на основе ИИ
Еще одной важной вехой в развитии ИИ стало появление в последние годы систем генерации изображений на основе текстовых данных. Среди таких можно, в первую очередь, выделить: DALL-E 2, Midjourney и Stable Diffusion.
Эти генераторы изображений используют алгоритмы машинного обучения и архитектуры нейронных сетей, чтобы научиться создавать реалистичные изображения, соответствующие входным данным, которые они получают от пользователя.
DALL-E 2 – это вариант оригинального генератора изображений DALL-E, который был разработан OpenAI в 2021 году. Это крупномасштабная языковая модель, которая обучается на массивном наборе данных изображений и текста и способна генерировать большое разнообразие изображений на основе заданной текстовой подсказки. Например, если написать запрос «жираф, играющий на пианино», DALL-E 2 может сгенерировать изображение жирафа, сидящего за пианино и положившего передние лапы на клавиши.
Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.
Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.
Например, при запросе «белый сиамский кот» выдает следующее изображение кота[5]:
Midjourney – аналогичный генератор изображений с искусственным интеллектом, который также был разработан OpenAI в 2021 году. Он обучается на наборе данных изображений и текста и способен генерировать широкий спектр изображений на основе входного текста. Он назван в честь идеи о том, что это «промежуточный этап» (с англ. midjourney) между оригинальными моделями DALL-E и GPT-3, поскольку он сочетает в себе элементы обоих.
Stable Diffusion – это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.
Нейросеть от Сбера Kandinsky 2.1 и 2.2
Нейросеть от Сбера для генерации изображений Kandinsky 2.1 стала самым быстрорастущим сервисом в мире, достигнув 1 млн уникальных пользователей всего за 4 дня, и 2 млн пользователей за 6 дней. Напомню, что это быстрее результата сервиса ChatGPT от OpenAI, которому потребовалось пять дней, чтобы набрать 1 млн пользователей
Если брать техническую часть, то Kandinsky 2.1 – это обновленное поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года. Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит
5