AI가 그린 미시룩

2023. 2. 5. 13:16카테고리 없음

반응형

AI가 그린 미시룩

국내에서는 해당 기술이 커뮤니티 사이트 위주로 퍼져나간 탓에 개념을 혼동하는 경우가 많지만, DALL·E와 Stable Diffusion을 비롯한 AI 이미지 생성기는 그림뿐만 아니라 사진이나 포스터 등 다른 형태의 이미지도 제작할 수 있다. 즉, AI 그림은 AI 이미지의 하위 개념이다. 영어권에서는 AI를 통해 생성한 작품을 artificial intelligence art(AI 예술)로 포괄하여 부른다.

그림 인공지능의 역사는 2014년부터 GAN 계열의 원시적인 인공지능들이 등장하면서 시작하게 되지만, # 당시에는 떨어지는 접근성과 성능으로 인해 큰 주목을 받지 못 했다. 이후 2017년 2월경 자동 채색 기능을 가진 'paintschainer'라는 그림 인공지능이 출시가 되었다. 하지만 이 AI도 접근성이 늘어났을 뿐, 단순한 자동 채색 수준의 그림 AI였다. 그러다가 'Diffusion model'[2] 적용된 ai들이 나오기 시작했다. DALL-E를 기점으로 본격적으로 대중화되기 시작했다. 2022년 7월, DALL-E 2를 기점으로 국내에 처음 화제가 되었고, 2022년 10월 NovelAI로 더 많은 사람들에게 알려지며 대중화되었다. DALL-E와 Novel AI는 홈페이지에서 키워드를 입력해 그림을 제작하는 방식이다. 제시어로 그림을 만드는 인공지능과, 그림으로 또다른 그림을 만드는 인공지능이 있다. Midjourney를 제외하면 사이트에서 직접 그림을 다운로드 받는 형식을 취하고 있다. 후술하겠지만 NovelAI가 대중적으로 유명해지자, 이전에 없었던 그림 인공지능에 대한 여러 논쟁들과 반응들이 생겼다.

이러한 멀티모달 기반의 이미지 생성 기술은 크게 트랜스포머 자기회귀 모델과 디퓨전 모델로 구분된다. 트랜스포머 자기회귀 모델은 텍스트, 이미지를 토큰 시퀸스로 변환 후 생성 트랜스포머 아키텍처를 활용해 텍스트 시퀸스를 통해 이미지 시퀸스를 예측, 이미지 생성 기술(VAE, GAN)을 사용해 이미지 시퀸스를 디코딩해 최종 이미지를 생선한다. 디퓨전 모델의 경우, 노이즈를 학습시킨 뒤 역으로 적용하는 디퓨전 모델을 통해 텍스트와 이미지 특징의 매핑을 학습하고 이미지 특징을 디코딩해 최종 이미지를 생성한다.

반응형