OpenAI, ChatGPT에 새로운 이미지 생성 기능 정식 도입 - GROWTH SYNC

OpenAI가 2025년 3월 25일, 자사의 대표 AI 플랫폼인 ChatGPT에 GPT-4o 기반 이미지 생성 기능을 정식으로 통합하며 주목을 받았다. 기존의 DALL·E와는 다른 차세대 기술을 바탕으로 더욱 고도화된 이미지 생성과 편집이 가능해졌으며, 이는 ChatGPT dml 멀티모달 능력을 한층 강화시키는 계기가 되었다.

현재 이 기능은 월 200달러 요금제인 Pro 플랜 사용자부터 우선 제공되고 있으며, 향후 Plus 사용자, 무료 사용자, 그리고 API 기반 개발자들에게도 순차적으로 확장 제공될 예정이다.

GPT-4o 기반 이미지 생성 기술, 무엇이 달라졌나?

이번에 도입된 이미지 생성 기능은 OpenAI의 최신 모델인 GPT-4o를 기반으로 하며, 텍스트뿐만 아니라 이미지, 오디오, 비디오까지 모두 처리할 수 있는 ‘옴니모달(Omnimodal)’ 구조를 가지고 있다.

기존 DALL·E 3에 비해 GPT-4o는 이미지 생성의 정확도와 세부 묘사 능력이 향상되었으며, 특히 기존 이미지를 편집하거나 전경 및 배경 객체를 정밀하게 수정하는 인페인팅 기능도 지원한다.
또한 이미지 내 텍스트 삽입 시 오타 없는 고품질 렌더링이 가능해졌고, 하나의 프롬프트 내에서 최대 15~20개 객체의 속성(색상, 모양 등)을 명확하게 구분하여 생성하는 ‘바인딩’ 정확도도 크게 개선되었다.

기술적으로는 기존 확산 모델처럼 이미지를 한 번에 출력하는 방식이 아닌, 왼쪽에서 오른쪽, 위에서 아래로 순차적으로 이미지를 생성하는 자기 회귀 방식을 채택하여 글을 쓰듯 이미지를 그리는 방식으로 자연스러움을 극대화했다.

실용적으로 어디에 쓸 수 있나?

GPT-4o의 이미지 생성 기능은 단순한 예술적 그림을 넘어서, 정보 전달이 필요한 다양한 실용적 콘텐츠 제작에 매우 적합하다.

예를 들어 과학적 개념을 설명하는 다이어그램, 교육 자료에 필요한 정보 포스터, 스토리텔링에 활용할 수 있는 텍스트 기반 만화, 그리고 투명 배경의 로고, 스티커, 메뉴판 등의 실용 이미지까지 폭넓게 생성할 수 있다.
이제 누구나 복잡한 이미지 제작 지식 없이도, ChatGPT를 통해 고품질 이미지를 손쉽게 만들 수 있게 된 것이다. 아래 사진과 채팅은 OpenAI가 실제로 공개한 예시다.

출처 : OPENAI

1. 채팅 : 이 고양이에게 탐정모자와 단안경을 주세요

출처 : OPENAI

2. 채팅 : 이것을 4k 게임 엔진으로 만든 AAA 비디오 게임으로 바꾸고 상단에 체력바와 미니맵, 하단에 일관되고 상징적인 주문이 표시되는 미스터리 RPG의 오버레이로 일부 사용자 인터페이스를 추가합니다.

출처 : OPENAI

3. 채팅 : 가로 이미지 비율을 16:9로 업데이트하고 UI에 더 많은 주문을 추가하고 시각적 확대를 해제하여 고양이가 스팀펑크 맨해튼을 걷는 3인칭 시점으로 보이도록 하여 최고의 트리플 A 게임처럼 멋진 대비와 조명을 만들어냅니다.

출처 : OPENAI

4. 채팅 : 플레이어가 메뉴를 열 때 고양이의 캐릭터 프로필과 장비, 그리고 활성 퀘스트를 보여주는 또 다른 페이지가 표시될 때 인터페이스를 만듭니다(그리고 이는 우리가 이미지에서 설명하고 있는 우주 세계 구축과 관련이 있어야 합니다)

출처 : OPENAI ( 최종 완성된 이미지 )

기존 이미지 생성 모델과의 기술적 차이

GPT-4o 기반 이미지 생성은 기존 모델인 DALL·E와 여러 면에서 뚜렷한 차이를 보인다.
우선 DALL·E는 전체 이미지를 한 번에 만들어내는 확산 모델 방식을 사용하는 반면, GPT-4o는 글을 쓰는 것처럼 한 줄 한 줄 이미지를 순차적으로 생성하는 자기 회귀적 방식을 도입했다.

이 방식 덕분에 기존 모델에서 자주 발생하던 텍스트 왜곡 문제가 대폭 개선되었고, 복잡한 객체들이 포함된 프롬프트에서도 색상과 형태가 혼동되지 않고 정확하게 바인딩되는 특징을 보인다.
특히 교육용, 문서용 이미지에서 텍스트 품질이 중요한 경우, GPT-4o의 방식은 큰 장점으로 작용한다.

보안 및 저작권, 어떻게 보호하나?

생성된 이미지에는 육안으로 보이는 시각적 워터마크는 존재하지 않지만, 국제 표준인 C2PA 메타데이터가 포함되어 있어 AI 생성 이미지임을 디지털 방식으로 명시한다.
사용자는 이러한 이미지를 OpenAI의 이용 정책 내에서 자유롭게 활용할 수 있으며, 상업적 사용도 가능하다.

더불어 OpenAI는 성적 딥페이크 생성, 워터마크 제거, 아동 성착취 콘텐츠 생성 요청 등을 엄격히 차단하고 있으며, 아티스트 권리 보호를 위해 타인의 스타일을 모방하는 이미지를 생성하지 않도록 설계했다.
또한 아티스트들은 자신의 작품이 훈련 데이터에서 사용되지 않도록 옵트아웃할 수 있으며, 웹사이트 운영자들이 이미지 수집을 차단하도록 요청하는 경우도 존중하고 있다.

OpenAI 내부 관계자들의 주요 발언

Sam Altman (CEO는 “GPT-4o의 이미지 생성 기능은 오늘부터 Pro 사용자에게 제공되며, 사용자들에게 실질적인 시각 도우미가 될 것”이라고 밝혔다.

Gabriel Goh (연구 책임자)는 “객체 바인딩과 텍스트 렌더링, 실용성 측면에서 확실한 진보를 이뤄냈다”고 말했다.

Jackie Shenon (멀티모달 제품 책임자)는 “이 모델은 단순한 이미지 생성기가 아니라, 세상의 지식을 바탕으로 정확한 시각 정보를 생성할 수 있는 AI”라고 설명했다.

Brad Lightcap (COO)는 “우리는 창작자의 권리를 존중하며, 이를 보호하는 데 최선을 다하고 있다”고 덧붙였다.

GPT-4o의 이미지 생성 기능은 단순한 시각 콘텐츠 생성에 그치지 않고, 지식 기반의 시각화 도구로서 ChatGPT의 활용도를 한층 높여주는 혁신적인 변화다.
앞으로 더 많은 사용자에게 기능이 확대되면서, 텍스트 중심의 챗봇을 넘어 실제 창작 도구로서의 역할까지 ChatGPT가 담당하게 될 것으로 기대된다.

참조 사이트

https://www.theverge.com/openai/635118/chatgpt-sora-ai-image-generation-chatgpt

https://techcrunch.com/2025/03/25/chatgpts-image-generation-feature-gets-an-upgrade/

https://openai.com/index/introducing-4o-image-generation/

유익하셨나요?
더 많은 IT & 테크 인사이트를 이메일로 받아보세요.
구독은 언제든 취소 가능해요 🙂