Byn's Research Note

AI based Mixed Reality, Human-Computer Interaction

↓ My Web CV & Portfolio 자세히보기

카테고리 없음

Deep Learning Models [1] : Stable Diffusion XL (SDXL)

JaehyeonByun 2025. 1. 2. 17:11

 

Stable Diffusion XL(SDXL)은 이미지 생성 모델의 최신 버전으로, 이전 버전인 Stable Diffusion v1.5에 비해 월등히 향상된 성능과 품질을 제공한다. SDXL은 "Stable Diffusion Extra Large"의 약자로, 확장된 크기와 높은 성능을 강조하는 모델이다. SDXL은 사실적인 이미지 생성, 텍스트 이해, 미세 디테일 표현, 영어 문장 생성, 어두운 이미지 처리 등 다양한 면에서 뛰어난 성능을 발휘하며, 오픈소스 소프트웨어로 공개되어 누구나 사용할 수 있다.

 

SDXL은 기본적으로 두 개의 모델로 구성된다. 첫 번째는 "Base 모델"로, 전체적인 이미지를 구성하고 구도를 설정한다. 두 번째는 "Refiner 모델"로, Base 모델이 생성한 이미지에 디테일을 추가하여 더욱 정밀한 결과물을 만든다. Base 모델만 사용해도 높은 품질의 이미지를 생성할 수 있지만, Refiner 모델을 함께 사용하면 더욱 세밀하고 프롬프트에 충실한 이미지를 얻을 수 있다.

 

SDXL의 핵심 기술적 특징은 다음과 같다. 모델의 파라미터 수는 66억 개로, v1.5의 9.8억 개에 비해 7배 이상 크다. 이를 통해 이미지 품질이 향상되었으며, 특히 텍스트 프롬프트를 더 잘 이해하여 원하는 이미지를 정확히 생성할 수 있다. 또한, SDXL은 OpenClip과 OpenAI의 CLIP을 결합하여 프롬프트의 유연성과 정확성을 높였으며, 이미지 크기 조건부여를 통해 다양한 크기의 이미지를 학습했다. 생성 이미지의 기본 크기는 1024x1024로, v1.5의 512x512에 비해 4배 커졌다.

SDXL은 텍스트 생성 능력에서도 큰 개선을 보였다. 이전 버전에서는 글자 표현이 거의 불가능했으나, SDXL은 텍스트를 정확히 생성할 수 있어 로고나 간판과 같은 요소를 포함한 이미지를 만들기에 적합하다. 다만, 긴 문장이나 복잡한 텍스트의 경우 제한적인 성능을 보일 수 있다.

 

SDXL은 AUTOMATIC1111와 같은 플랫폼에서 쉽게 실행할 수 있다. 기본 설치 방법은 SDXL Base 모델과 Refiner 모델을 다운로드하여 지정된 폴더에 배치하는 것이다. 이후, Base 모델을 선택해 Text-to-Image 작업을 실행하거나 Refiner 모델을 병행하여 더욱 섬세한 이미지를 생성할 수 있다. 설정 과정에서 Refiner 적용 단계(Switch at)를 조정하면 Base 모델과 Refiner 모델의 작업 비율을 조정할 수 있다.

 

SDXL은 다양한 스타일을 적용하여 생성 이미지의 표현력을 더욱 풍부하게 할 수 있다. DreamStudio나 AUTOMATIC1111에 StyleSelectorXL 확장을 사용하면 100개 이상의 사전 설정 스타일을 쉽게 적용할 수 있다. 이러한 스타일은 프롬프트와 결합하여 애니메이션, 사실적인 인물, 풍경 등 다양한 장르의 이미지를 생성하는 데 유용하다.

 

결론적으로, SDXL은 이미지 생성 AI 모델의 새로운 기준을 제시하며, 텍스트 이해도와 이미지 품질에서 뛰어난 성능을 보인다. v1.5와 같은 이전 버전을 대체할 가능성이 높으며, 다양한 애플리케이션에서 활용될 수 있다. Stable Diffusion 사용자라면 SDXL의 설치 및 활용 방법을 익혀 보다 나은 이미지를 생성하는 데 활용하기를 권장한다.