스테이블 디퓨전 AI는 텍스트를 이미지로 바꾸는 마법사와 같습니다. 마법사는 당신이 말하는 것을 듣고 그에 맞는 그림을 그려줍니다. 이 마법사는 사람들이 그린 수많은 그림들을 보면서 텍스트와 이미지 사이의 관계를 배웁니다.
이 마법사는 특별한 방식으로 그림을 그립니다. 먼저, 무작위로 점을 찍어서 노이즈가 있는 초안을 만듭니다. 이 초안은 원래의 이미지와 비슷하지만 선명하지 않습니다. 그리고 나서, 당신이 말한 텍스트를 듣고 초안을 수정합니다. 이때, 마법사는 자신이 배운 잠재 공간에서 적절한 벡터를 찾아서 초안에 더하거나 빼기도 합니다. 잠재 공간은 마법사가 이미지의 특징들을 저장해놓은 곳으로, 예를 들어 색깔, 모양, 크기 등이 될 수 있습니다. 벡터는 방향과 크기를 가진 화살표로, 예를 들어 색깔을 바꾸거나 모양을 조정하는 것이 될 수 있습니다.
마법사는 초안을 수정할 때 다른 마법사와 경쟁하기도 합니다. 다른 마법사는 진짜와 가짜를 구별하는 능력이 있습니다. 따라서 첫 번째 마법사는 가짜인 초안을 진짜처럼 만들기 위해 노력합니다. 이렇게 하면서 첫 번째 마법사는 텍스트에 맞게 이미지를 생성하고 수정하는 방식을 배웁니다.
스테이블 디퓨전 AI는 이런 방식으로 작동합니다. 이렇게 하면 텍스트 한 줄만으로도 애니메이션 스타일의 그림을 그릴 수 있습니다.
Bing한테 쉽게 설명해달라니까 이 모양이네;;
1. 원본을 파편화&노이즈
2. 내가 말한 상황은 다른 상황인데? 라고 말하며 복구 시도
3. 원하는 방향으로 복구 됨.