Вот почему мы разворачиваемся к Китаю и будем создавать совместные проекты. Baidu сделали новую модель Text-to-image, результаты которой просто ошеломляют!
За основу взята архитектура Unet от SD, но с приколами:
- Mixture of Denoising Experts: Обучили 10 сеток вместо одной. Каждая отвечает только за определенные шаги диффузии.
- Textual knowledge: Автоматически перевзвесили слова в запросе. Ключевые слова получают больший вес.
- Visual knowledge: Во время обучения детектировали объекты на промежуточных результатах генерации и увеличивали вес функции потерь на регионах с объектами.
Получилась самая большая в мире модель text-2-im с 24 млрд параметров. Американские ИТ гиганты нервно закурили в туалете)
Можешь самостоятельно попробовать ДЕМО бесплатно, без регистрации и танца с бубном. Запросы на китайском языке получаются лучше, но это понятно.




Максимальный репост, подписывайся на наш Телеграм, закидывай Донат на любой кошелек, в разделе Контакты и мы будем дальше радовать тебя аналитикой и Инсайдом.