시각적 콘텐츠를 해석하고 설명하는 방법을 이해하는 것은 이커머스부터 소셜 미디어에 이르기까지 다양한 애플리케이션에 필수적이다. 시각 처리 능력과 최첨단 언어 이해 능력을 결합한 최신 AI 모델인 MiniGPT-4를 소개한다.
MiniGPT-4는 단일 프로젝션 레이어를 통해 연결된 고정 시각 인코더와 대규모 언어 모델을 사용하여 정확한 이미지 설명을 생성하고, 이미지를 기반으로 이야기와 시를 쓰고, 사진에 묘사된 문제에 대한 해결책을 제시하고, 음식 사진을 기반으로 사용자에게 요리 방법을 가르칠 수도 있다.
MiniGPT-4: 복잡한 이미지 설명을 위한 새로운 AI 모델
MiniGPT-4를 통해
이 모델은 매우 효율적이어서 5백만 개의 이미지-텍스트 쌍을 정렬하는 것만으로 시각적 특징을 고정된 대규모 언어 모델인 Vicuna와 정렬하는 선형 레이어를 학습할 수 있다.
Vicuna는 LLaMA를 기반으로 구축되어 복잡한 언어 작업을 수행할 수 있다. OpenAI의 최신 대규모 언어 모델인 GPT-4가 MiniGPT-4를 구동합니다. GPT-4의 멀티모달 특성은 이전 모델과 차별화되어 비디오 게임, Chrome 확장 프로그램, 복잡한 추론 문제 등 다양한 애플리케이션에 적합하다.
MiniGPT-4는 상세한 이미지 설명을 생성하고 손으로 쓴 초안으로 웹사이트를 생성하는 등 GPT-4와 유사한 능력을 보여주었다. 모델의 언어 출력을 개선하기 위해 대화 템플릿을 사용하여 더 나은 데이터 세트를 선별하여 미세 조정을 진행했다. 그 결과 신뢰성과 전반적인 사용성이 개선된 더 나은 언어 생성이 가능해졌다.
이 모델의 뛰어난 성능은 2단계 훈련 프로세스에서 비롯되며, 이를 통해 MiniGPT는 이미지에 대한 정확하고 자연스러운 언어 설명을 생성할 수 있다. 첫 번째 단계에서는 위에서 언급한 것처럼 수백만 개의 이미지-텍스트 쌍을 학습하여 사물, 사람, 장소에 대해 학습하고 이를 단어로 설명할 수 있도록 한다. 이 사전 학습에는 약 10시간이 소요되며 4개의 A100(80GB) GPU가 필요하다. 이 단계의 출력은 입력 이미지를 기반으로 비전 트랜스포머에 의해 생성된다.
그러나 사전 학습의 첫 번째 단계에서는 반복되는 구절, 단편적인 문장 또는 관련 없는 콘텐츠와 같이 일관성이 결여된 출력이 생성될 수 있다. 이 문제를 해결하기 위해 MiniGPT-4는 더 작지만 고품질의 이미지-텍스트 쌍 데이터 세트를 사용하여 모델의 텍스트 설명을 보다 정확하고 자연스럽게 미세 조정하는 두 번째 훈련 단계를 거친다.
웹사이트 레이아웃 생성부터 이미지에 묘사된 문제에 대한 솔루션 제공에 이르기까지 MiniGPT-4는 AI 분야에서 인상적인 진전을 이루었으며, 이는 이제 시작에 불과하다.