Генеративные модели — это класс нейросетей, которые обучаются распределению данных, чтобы создавать новые, ранее не существовавшие примеры: изображения, тексты, музыку, видео.
Как они работают (основные типы):
GAN (Generative Adversarial Networks)
- Две сети соревнуются: генератор создаёт подделку (например, фото лица), дискриминатор пытается отличить подделку от настоящего.
- Со временем генератор становится настолько хорош, что обманывает дискриминатор.
- Примеры: Deepfake, генерация реалистичных лиц (ThisPersonDoesNotExist.com).
Авторегрессивные модели (вроде GPT)
- Генерируют последовательности пошагово: каждое следующее слово/пиксель предсказывается на основе предыдущих.
- Используются для текста, музыки, кода.
Диффузионные модели (Stable Diffusion, DALL·E 2)
- Сначала добавляют шум к изображению, пока оно не станет случайным,
- Затем учатся обратному процессу — убирать шум, чтобы воссоздать изображение из текстового описания.
- Дают высокое качество и контроль.
Что делает генерацию возможной:
- Модель не копирует, а улавливает статистические закономерности в данных:
- Какие цвета сочетаются,
- Как строятся предложения,
- Как выглядят лица.
- На основе этого она сэмплирует новое, что «похоже на правду».
Важно:
- Генеративные модели не обладают сознанием или намерением,
- Они могут повторять предвзятости обучающих данных,
- Но они открывают новые горизонты творчества, когда человек и ИИ работают вместе.
Таким образом, генеративные модели — это не «искусственный художник», а инструмент воображения, расширяющий границы того, что мы считали возможным.