Диффузионные модели — это один из самых мощных и элегантных подходов к генерации изображений. Они работают по принципу «обратного шума»: сначала превращают изображение в шум, а затем учатся восстанавливать его обратно — и именно этот навык позволяет создавать новые картинки из пустоты.
🔍 Основная идеяДиффузионная модель проходит два этапа:
- Прямой процесс (зашумление)
- Исходное изображение постепенно превращается в чистый шум.
- На каждом шаге добавляется немного гауссовского шума.
- Это делается по цепочке Маркова: каждый шаг зависит только от предыдущего.
- Обратный процесс (восстановление)
- Модель учится пошагово удалять шум, чтобы получить реалистичное изображение.
- Начинается с случайного шума и постепенно превращается в картинку, соответствующую заданному описанию.
🖼️ Как это связано с генерацией по текстуКогда вы вводите текст (например, «сказочный лес на рассвете»), модель:
- Преобразует текст в векторное представление.
- Использует его как условие для обратного процесса.
- Генерирует изображение, которое соответствует описанию, начиная с шума.