[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (1)

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

1. Introduction and Motivating Work

최근 몇 년간 자연어 처리(NLP) 분야에서는 대규모 사전학습(pre-training) 기법이 큰 성과를 거두었다. GPT, BERT 계열 모델들은 웹 규모의 방대한 텍스트 데이터를 활용하여 일반적인 언어 표현을 학습하였고, 이를 zero-shot 혹은 few-shot으로 다양한 과제에 적용할 수 있음을 보여주었다. 이러한 접근은 특정 데이터셋에 특화된 모델보다 범용적이고 강력한 성능을 보였다.

반면 컴퓨터 비전(CV) 분야에서는 여전히 ImageNet과 같은 라벨링된 데이터셋에 의존하는 경우가 많았다. 과거에도 이미지와 텍스트를 함께 학습하려는 다양한 시도가 존재하였다. 예를 들어, 이미지와 캡션을 연결하거나, 소셜미디어 해시태그를 예측하는 방식이 있었다. 그러나 이러한 연구들은 성능 면에서 한계가 뚜렷하였다. 실제로 일부 연구에서는 ImageNet에서 zero-shot 성능이 10%대에 머물렀다.

그럼에도 불구하고 자연어는 사람이 직접 정의한 클래스보다 훨씬 폭넓고 다양한 개념을 담을 수 있기 때문에, 강력한 감독 신호가 될 수 있다는 가능성이 제시되었다. 최근 Transformer 기반 모델의 확산으로 이미지-텍스트 결합 학습이 다시 주목받기 시작하였다.

본 논문에서는 이러한 흐름을 확장하여, 약 4억 쌍의 이미지-텍스트 데이터를 활용한 CLIP(Contrastive Language-Image Pre-training)을 제안하였다. CLIP은 텍스트와 이미지를 대조 학습(contrastive learning) 방식으로 학습하여 특정 데이터셋에 구애받지 않고 다양한 비전 과제를 zero-shot으로 수행할 수 있는 범용 모델을 목표로 하였다.

연구 결과 CLIP은 단순히 ImageNet 기반 supervised 모델을 뛰어넘는 성능을 보였을 뿐 아니라, OCR, 지리적 위치 추론, 행동 인식 등 다양한 태스크를 사전학습 과정에서 자연스럽게 학습하는 범용성을 보였다. 또한 zero-shot 설정에서도 기존 ImageNet 기반 모델에 비해 훨씬 강건한 일반화 성능을 기록하였다. 이러한 결과는 컴퓨터 비전 분야에서도 “텍스트 기반 대규모 사전학습”이 NLP와 같이 새로운 패러다임이 될 수 있음을 보여준다.

2. Approach

2.1. Natural Language Supervision

본 연구의 핵심은 자연어에 포함된 감독 신호를 통해 시각적 인식을 학습하는 것이다. 이러한 아이디어 자체는 새로운 개념은 아니며, 과거에도 다양한 용어와 동기로 연구가 진행되어 왔다. 예를 들어 Zhang et al. (2020), Gomez et al. (2017), Joulin et al. (2016), Desai & Johnson (2020)은 모두 이미지와 텍스트를 결합하여 시각적 표현을 학습하는 방법을 제시했으며, 각각 비지도 학습, 자기지도 학습, 약지도 학습, 지도 학습이라는 방식으로 분류되었다.

이러한 연구들의 공통점은 자연어를 학습 신호로 활용한다는 점이다. 구체적인 접근 방식에는 차이가 있으나, 모두 자연어가 가진 표현력을 모델 학습에 이용하려는 시도를 공유하고 있다.

과거 연구들은 자연어의 복잡성 때문에 토픽 모델이나 n-gram 기반의 제한적인 표현 방식을 사용했으나, 최근 심층 표현 학습의 발전으로 이제는 자연어를 효과적으로 활용할 수 있는 기반이 마련되었다(McCann et al., 2017).

자연어 기반 학습은 기존 방법들보다 몇 가지 중요한 장점을 가진다.

첫째, 대규모 데이터 확장이 훨씬 용이하다. 이미지 분류를 위한 전통적인 라벨링 방식은 1-of-N 다중 분류 형식의 “골드 라벨”이 필요하지만, 자연어 기반 감독은 인터넷에 존재하는 방대한 텍스트로부터 직접 신호를 얻을 수 있다.

둘째, 자연어 학습은 단순히 표현을 학습하는 것을 넘어서, 그 표현을 언어와 연결함으로써 유연한 zero-shot 전이를 가능하게 한다. 이는 기존의 비지도 혹은 자기지도 학습 방법에 비해 중요한 차별점이다.

2.2. Creating a Sufficiently Large Dataset

기존 연구에서 주로 활용된 데이터셋은 MS-COCO, Visual Genome, YFCC100M이었다. MS-COCO와 Visual Genome은 높은 품질의 크라우드 라벨링 데이터셋이지만, 약 10만 장 수준으로 현대 기준에서는 규모가 매우 작다.

반면, 다른 컴퓨터 비전 시스템들은 최대 35억 장의 Instagram 이미지에 기반하여 학습하기도 하였다(Mahajan et al., 2018). YFCC100M은 1억 장이라는 비교적 큰 규모를 제공했지만, 각 이미지의 메타데이터 품질이 불균일하며 자동 생성된 파일명이나 노출 설정 정보가 포함되어 있어 활용에 한계가 있었다. 필터링을 통해 영어 텍스트 제목이나 설명이 포함된 이미지만 남기면 데이터셋은 약 1,500만 장으로 줄어들었고, 이는 ImageNet과 비슷한 수준에 불과하였다.

자연어 감독 학습의 주요 동기는 인터넷에 공개된 대규모 데이터의 활용 가능성에 있다. 그러나 기존 데이터셋만을 대상으로 한 결과는 이 가능성을 과소평가하게 만든다.

이를 해결하기 위해 본 연구에서는 약 4억 쌍의 이미지-텍스트 데이터를 구축하였다.

1) 인터넷에서 공개적으로 이용 가능한 다양한 출처로부터 수집되었으며,

2) 가능한 한 폭넓은 시각적 개념을 포함하도록 50만 개의 질의(query)를 활용하였다.

3) 각 질의당 최대 2만 개의 (이미지, 텍스트) 쌍을 포함하도록 결과를 균형 있게 구성하였다.

그 결과 만들어진 데이터셋의 전체 단어 수는 GPT-2 학습에 사용된 WebText 데이터셋과 유사한 규모를 가지게 되었다. 본 연구에서는 이 데이터셋을 WIT(WebImageText)라 명명하였다.

2.3. Selecting an Efficient Pre-Training Method

최신 컴퓨터 비전 시스템은 막대한 연산 자원을 필요로 했다.

Mahajan et al. (2018)은 ResNeXt101-32x48d 학습에 19 GPU년이 필요했고, Xie et al. (2020)은 Noisy Student EfficientNet-L2 학습에 33 TPUv3 코어년을 사용하였다. 두 모델 모두 1000개 ImageNet 클래스만을 대상으로 했다는 점을 고려하면, 자연어 기반으로 열린(open-set) 시각 개념을 학습하는 과제는 훨씬 더 어렵다는 것을 알 수 있다. 따라서 본 연구에서는 훈련 효율성을 핵심 지표로 삼아 최종 사전학습 방식을 결정하였다.

초기 접근은 VirTex와 유사하게, CNN 기반 이미지 인코더와 Transformer 기반 텍스트 인코더를 함께 학습시켜 주어진 이미지 캡션을 예측하는 방식이었다. 그러나 이 방식은 학습 효율성에서 큰 한계를 드러냈다.

(ex. 6,300만 파라미터의 Transformer 언어 모델을 훈련시켰을 때, 단순히 bag-of-words 분류기를 학습하는 것보다 3배 이상 느린 성능을 보였다.)

이에 따라 본 연구는 contrastive objective을 채택하였다.

최근 연구(Tian et al., 2019; Chen et al., 2020a)에 따르면 대조 학습은 단순 예측 학습보다 더 강력한 표현을 학습할 수 있음이 밝혀졌다. 따라서 캡션의 특정 단어를 맞추는 어려운 과제를 버리고, 단순히 어떤 이미지와 어떤 텍스트가 짝을 이루는지를 맞추는 방식으로 전환하였다. 이를 통해 ImageNet zero-shot 전이 성능에서 4배 향상이 나타났다.

CLIP은 (이미지, 텍스트) 쌍을 배치 단위로 입력받아, 올바른 N개의 쌍과 잘못된 N²개의 쌍을 모두 고려하여 임베딩 공간에서 코사인 유사도를 최적화하였다.

이는 Sohn (2016)이 제안한 multi-class N-pair loss와 유사하며, 이후 InfoNCE(Oord et al., 2018)로 확장된 방법을 기반으로 한다. CLIP은 이미지 인코더와 텍스트 인코더를 동시에 학습시키며, 올바른 쌍의 임베딩을 가깝게 만들고 잘못된 쌍의 임베딩은 멀어지도록 학습하였다.

이 과정에서 과적합은 크게 문제되지 않았다. 사전학습 데이터셋의 규모가 워낙 크기 때문에, 모델 구조는 오히려 단순화하였다.

CLIP은 ImageNet 사전학습 가중치나 기존 Transformer 가중치를 사용하지 않고 처음부터 학습하였다. 또한 비선형 투영층을 제거하고, 단순 선형 투영만을 사용하여 효율성을 유지하였다.

텍스트 전처리 과정 역시 단순화하여, 주어진 쌍에서 하나의 문장만을 사용하였다. 이미지 전처리 역시 단순한 정사각형 크롭(crop)만 적용하였다. 마지막으로 softmax 온도 조절 파라미터 τ는 별도의 하이퍼파라미터 튜닝 없이 학습 과정에서 직접 최적화되도록 설정하였다.

그 결과 CLIP은 단순하면서도 효율적인 구조로 대규모 자연어 감독 학습을 안정적으로 수행할 수 있었다.

2.4. Choosing and Scaling Model

본 연구에서는 image encoder를 위해 두 가지 아키텍처를 사용하였다.

1) ResNet-50 기반 인코더

첫 번째는 널리 사용되고 성능이 검증된 ResNet-50(He et al., 2016a)을 기반으로 하였다.

다만 원본 구조를 그대로 사용하지 않고, ResNet-D(He et al., 2019) 개선 사항과 rect-2 blur pooling(Zhang, 2019) 기법을 적용하였다.

또한 기존의 global average pooling을 attention pooling으로 대체하였다. 이 attention pooling은 Transformer 스타일의 multi-head QKV 어텐션을 활용하여, global average feature를 쿼리(query)로 사용한다.

2) Vision Transformer(ViT) 기반 인코더

두 번째는 최근 제안된 Vision Transformer(ViT, Dosovitskiy et al., 2020)를 실험적으로 적용하였다.

기존 구현을 거의 그대로 따르되, 패치와 포지션 임베딩을 결합한 후 Transformer에 입력하기 전에 layer normalization을 한 번 더 추가하고, 초기화 방식도 일부 수정하였다.

text encoder는 Transformer(Vaswani et al., 2017)를 사용하였으며, Radford et al. (2019)의 내용을 반영하였다.

*Radford et al. (2019) : layer normalization을 블록 앞에 배치하는 Pre-LN 구조를 도입하여 안정적인 학습을 가능하게 했으며, 단어 표현에는 Byte Pair Encoding(BPE)을 사용해 희귀 단어나 다양한 언어를 더 유연하게 처리할 수 있도록 하였다.

기본 구조: 12-layer, 512-wide, 8-head, 총 6,300만 파라미터
입력: byte pair encoding(BPE) 기반, 약 49,152 vocab (Senrich et al., 2015)
최대 시퀀스 길이: 76 토큰
입력은 [SOS]와 [EOS] 토큰으로 감싸고, [EOS] 위치의 최종 레이어 출력을 feature로 사용
해당 feature는 layer normalization 후 선형 투영을 거쳐 멀티모달 임베딩 공간으로 매핑됨
masked self-attention을 사용하여 향후 pre-trained 모델 초기화나 보조 목적 언어 모델링을 적용할 가능성을 열어두었다.

기존 연구에서는 모델을 확장할 때 폭(width)이나 깊이(depth)만 개별적으로 조정하는 경우가 많았다(Mahajan et al., 2018; He et al., 2016a).

그러나 본 연구에서는 Tan & Le (2019)의 제안을 반영하여 폭·깊이·해상도 모두에 동일하게 연산 자원을 분배하는 방식을 채택하였다. 이 방식은 한쪽 차원만 키우는 것보다 훨씬 더 안정적인 성능 향상을 가져온다고 알려져 있다.

text encoder의 경우, ResNet의 폭 증가에 맞추어 폭만 비례적으로 확장하고, 깊이는 확장하지 않았다. 이는 CLIP의 성능이 텍스트 인코더의 용량에 상대적으로 덜 민감하다는 실험 결과에 기반한다.

2.5. Training

CLIP은 총 5개의 ResNet 모델과 3개의 Vision Transformer(ViT) 모델을 학습하였다.

ResNet 계열: ResNet-50, ResNet-101, 그리고 EfficientNet 스타일 확장을 적용해 연산량을 약 4배, 16배, 64배 늘린 모델(RN50x4, RN50x16, RN50x64)을 포함하였다.
ViT 계열: ViT-B/32, ViT-B/16, ViT-L/14를 학습하였다.

모든 모델은 32 epoch 동안 학습되었으며, 최적화에는 Adam 옵티마이저를 사용하였다(Kingma & Ba, 2014). 가중치에는 decoupled weight decay regularization(Loshchilov & Hutter, 2017)을 적용하였고, 학습률은 cosine schedule로 점차 감소시켰다.

초기 하이퍼파라미터는 grid search, random search, 그리고 baseline ResNet-50을 1 epoch 동안 학습하며 수동으로 조정하는 방법을 혼합하여 결정하였다. 이후 더 큰 모델에서는 계산 자원 제약을 고려해 경험적으로(hueristic) 적응시켰다.

온도 조절 파라미터 τ는 0.07에서 시작하였으며(Wu et al., 2018), 값이 지나치게 커져 학습이 불안정해지는 것을 막기 위해 100을 초과하지 않도록 제한하였다.

메모리와 효율성 최적화

미니배치 크기는 매우 크게 설정하여 32,768 샘플을 동시에 학습하였다.
Mixed-precision training(Micikevicius et al., 2017)을 도입하여 학습 속도를 높이고 메모리를 절약하였다.
Gradient checkpointing(Griewank & Walther, 2000; Chen et al., 2016)과 half-precision 연산(Dhariwal et al., 2020)을 적용하여 추가적인 메모리 절감을 실현하였다.
텍스트 인코더 가중치에도 half-precision 및 stochastic rounding을 사용하였다.

또한 GPU 간 embedding similarity 계산을 분산 처리하여, 각 GPU가 자신이 담당한 batch의 부분 결과만 계산하도록 하였다.

학습 규모

가장 큰 ResNet 모델인 RN50x64는 592개의 V100 GPU에서 18일 동안 학습되었다.
가장 큰 Vision Transformer인 ViT-L/14는 256개의 V100 GPU에서 12일 동안 학습되었다.

추가로, ViT-L/14는 더 높은 해상도(336픽셀)에서 한 번 더 학습(epoch)을 진행하여 FixRes(Touvron et al., 2019)와 유사한 효과를 얻었다. 최종적으로, 논문 내에서 언급되는 CLIP은 ViT-L/14@336px 모델을 기준으로 한다.

3. Experiments

3.1. Zero-Shot Transfer

3.1.1. Motivation

일반적으로 computer vision에서 zero-shot learning은 보지 못한 클래스(unseen object categories) 에 대한 일반화를 의미한다. (ex. 고양이·개로 학습한 모델이 호랑이나 여우 같은 새로운 동물을 분류하는 경우)

CLIP 논문은 이 개념을 확장해서 unseen datasets로의 일반화를 연구한다. 즉, 단순히 새로운 클래스를 분류하는 능력뿐만 아니라, 새로운 데이터셋이나 태스크에 적응하는 능력(task learning)을 보고자 한 것이다.

많은 기존 비지도 학습 연구가 representation learning (좋은 특징 표현 학습)에 초점을 두었다면, CLIP은 여기서 한 걸음 더 나아가 실제로 태스크를 학습할 수 있는지, 즉 task learning capability를 측정하려 했다.

여기서 중요한 점은, 우리가 자주 쓰는 벤치마크 데이터셋들이 사실 “real task”를 반영하기보다는 연구자들이 모델 성능을 비교하기 위해 만든 실험 환경이라는 점이다.

SVHN은 ‘구글 스트리트뷰 사진 속 숫자 인식’이라는 명확한 task를 반영하고,
CIFAR-10은 특정한 real task라기보다, TinyImages에서 샘플링된 이미지 모음에 가깝다.

따라서 이런 데이터셋에서의 zero-shot transfer는 “task genralization”라기보다는, 모델이 분포 변화(distribution shift)에 얼마나 잘 적응하는지 보는 성격이 강하다.

또한, Visual N-Grams (Li et al., 2017)을 언급하며, 이는 이미지 분류 데이터셋에 대해 처음으로 zero-shot transfer를 시도한 연구이자 CLIP 성능을 맥락화하기 위한 중요한 비교 기준점(reference)으로 제시된다. CLIP은 이를 토대로 보다 확장된 범용 zero-shot transfer 가능성을 보여준다.

흥미롭게도, zero-shot transfer를 task learning 평가 방법으로 본 관점은 NLP 분야에서 영감을 받았다.

Liu et al. (2018)은 Wikipedia 문서 생성 모델이 의도치 않게 이름을 언어 간 음차(transliteration)하는 능력을 보여준 사례를 보고했는데, 이는 사전학습의 부산물로 나타난 초기 task learning 사례였다.
GPT-1 (Radford et al., 2018)은 전이학습(fine-tuning)을 개선하기 위한 사전학습에 집중했지만, 동시에 학습이 진행될수록 zero-shot transfer 성능이 점진적으로 향상되는 현상을 실험적으로 확인했다.
GPT-2 (Radford et al., 2019)는 한 단계 더 나아가, zero-shot transfer를 통한 task learning 능력 자체를 본격적으로 탐구하며 대규모 언어모델 연구의 전환점을 마련했다.

따라서 CLIP은 기존 컴퓨터 비전의 연구적 흐름과 동시에, NLP에서 얻은 인사이트까지 아우르며 범용적인 zero-shot 학습 능력을 실험적으로 보여준 모델이라고 할 수 있다.

3.1.2. Using CLIP for Zero-Shot Transfer

CLIP은 원래 이미지와 텍스트 쌍이 서로 짝을 이루는지 예측하도록 사전학습되어 있다.

이 능력을 그대로 활용하면 zero-shot 분류를 할 수 있다.

새로운 데이터셋에서 클래스 이름을 텍스트로 변환해 입력하고, 해당 이미지와 어떤 클래스 텍스트가 가장 잘 맞는지를 CLIP이 판단하게 만드는 것이다.

조금 더 구체적으로는,

이미지는 image encoder를, 클래스 이름은 text encoder를 통해 각각 embedding vector로 변환한다.
두 벡터 간의 cosine similarity를 계산한 뒤, 온도 파라미터(τ)로 스케일링하고, softmax를 적용해 확률 분포로 바꾼다.
이 과정을 통해 CLIP은 마치 다항 로지스틱 회귀(multinomial logistic regression) 분류기처럼 동작하게 됩니다. (L2 정규화된 입력/가중치, bias 없음)

흥미로운 점은, 이 구조에서 text encoder는 일종의 hypernetwork처럼 동작한다는 것이다. 즉, 클래스 이름이라는 자연어 입력을 받아 분류기의 가중치를 생성하는 방식이다.

또한 CLIP의 학습 과정을 이렇게 해석할 수도 있다. 매 학습 스텝에서 CLIP은 마치 “클래스가 32,768개 있는 임시 데이터셋(자연어로 정의된 클래스)”을 무작위로 만들어 놓고, 그 중 하나의 샘플만 주어진 상태에서 분류기를 학습하는 것과 같다는 것이다.

실제로 zero-shot 평가 단계에서는, text encoder가 만들어 낸 zero-shot classifier를 한 번 계산해 캐싱해 두고, 이후 모든 예측에서 재사용한다. 덕분에 많은 예측을 수행할 때 연산 비용이 크게 줄어든다는 장점이 있다.

3.1.3. Initial Comparison to Visual N-Grams

CLIP Visual N-Grams (Li et al., 2017)와 비교하였는데, ImageNet(datasets)에서 CLIP은 정확도를 11.5%에서 76.2%로 크게 끌어올렸고, 이는 ResNet-50 수준의 성능과 맞먹는 결과였다. 또한 top-5 정확도 95%를 기록해 Inception-V4 모델과도 동등한 성능을 보였다.

저자들은 이 비교를 직접적인 방법론 비교로 해석해서는 안 된다고 강조했다. CLIP은 훨씬 더 큰 데이터셋, 더 많은 연산량, 그리고 Transformer 기반 구조를 사용했기 때문이다. 보다 공정한 비교를 위해 동일한 YFCC100M 데이터셋에서 CLIP ResNet-50을 학습했을 때, Visual N-Grams와 비슷한 성능을 단 하루 학습으로 재현할 수 있었다.

aYahoo와 SUN 데이터셋에서도 CLIP은 Visual N-Grams보다 월등히 우수했다. aYahoo에서는 95%의 오류 감소, SUN에서는 두 배 이상의 정확도 향상이 보고되었다. 이로써 CLIP은 다양한 데이터셋에서 보다 유연하고 강력한 zero-shot 분류 성능을 보여주었다.

3.1.4. Prompt Engineering and Ensembling

대부분의 이미지 분류 데이터셋은 클래스 이름을 단순히 숫자 ID로 부여하고, 이를 나중에 영어 이름으로 매핑하는 방식을 사용해왔다. Flowers102, GTSRB와 같은 일부 데이터셋은 이 매핑조차 제공하지 않아 zero-shot transfer를 적용하기 어렵게 했다. 또한 클래스 이름이 모호하거나 중의적인(polysemy)한 경우도 있었다.

ex. ImageNet에는 'crane(기중기)', 'crane(새)'가 모두 클래스 이름으로 포함되어 있고, Oxford-IIT Pet 데이터셋의 'boxer'는 문맥상 개 품종을 의미하지만, text encoder는 권투 선수로 해석할 가능성이 있다.

이런 문제를 해결하기 위해 'prompt engineering'을 도입했다. 단순히 클래스 이름을 사용하는 대신, "A photo of a {label}." 문장을 활용해 모델이 이미지 내용을 더 잘 이해하도록 했다. 이 간단한 방법만으로도 ImageNet에서 정확도가 1.3% 향상되는 효과가 있었다.

더 나아가 데이터셋 특성에 맞게 프롬프트를 맞춤화하면 성능이 크게 개선되었다.

Oxford-IIIT Pets에서는 "A photo of a {label}, a type of pet."
Food101에서는 "A photo of a {label}, a type of food."
FGVC Aircraft에서는 "A photo of a {label}, a type of aircraft."
OCR 데이터셋에서는 텍스트를 따옴표로 감싸 인식률을 향상
위성 이미지 분류에서는 "A satellite photo of a {label}."

또한 CLIP은 앙상블(ensembling) 기법을 적용했다. "A photo of a big {label}", "A photo of a small {label}"처럼 여러 맥락 프롬프트를 사용해 zero-shot 분류기를 여러 개 만든 뒤, 임베딩 공간에서 평균을 내는 방식이다. 이 접근은 추가적인 연산 부담 없이도 단일 분류기를 쓰는 것과 동일한 비용으로 활용할 수 있었다.

이러한 프롬프트 엔지니어링과 앙상블을 결합하면 성능은 더욱 개선되었다. ImageNet에서만 해도 단일 기본 프롬프트 대비 3.5% 추가 향상, 전체적으로 약 5% 정확도 개선이 있었다. Figure 4는 이러한 개선이 단순히 클래스 이름만 사용했을 때와 비교해 얼마나 큰 차이를 보이는지를 시각적으로 보여주고 있다.

3.1.5. Analysis of Zero-Shot CLIP Performance

Computer vision을 위한 task-agnostic zero-shot classifier는 그동안 제대로 연구된 적이 없었다. 따라서 CLIP의 zero-shot classifier가 실제로 어느 정도 성능을 내는지 확인하기 위해, 27개 데이터셋에서 체계적인 분석을 진행했다. 비교 기준선으로는 ResNet-50 feature 위에 학습된 fully-supervised logistic regression 분류기를 사용했다.

CLIP은 27개 중 16개 데이터셋에서 supervised baseline을 능가했다.
특히 StanfordCars (+28.9%), Food101 (+22.5%), Kinetics700 (+14.5%) 등 fine-grained 또는 행동 인식 과제에서 강했다.
반면, Flowers102 (−15.1%), FGVC-Aircraft (−11.3%), EuroSAT (−37.1%) 등 일부 세밀 분류나 위성·추상적 과제에서는 크게 성능이 떨어졌다.
전반적으로 “일반적인 객체 분류”(ImageNet, CIFAR-10/100, STL-10)에서는 CLIP이 소폭 앞서거나 비슷한 성능을 보였다.

CLIP의 zero-shot 성능은 평균적으로 4-shot supervised linear probe와 유사했다.
공개된 모델 기준으로는 16-shot 성능에 근접했다.
즉, 라벨이 거의 없는 상황에서도 CLIP은 few-shot 학습에 버금가는 성능을 냈다.

zero-shot을 따라잡기 위해 필요한 라벨 수는 데이터셋마다 크게 달랐다.
최소 <1장에서 최대 184장/클래스까지 걸렸으며, 중앙값은 5.4장이었다.
절반의 데이터셋은 5장 이하로도 zero-shot 성능을 추월할 수 있었고, 일부는 매우 많은 라벨이 필요했다.
예: ImageNet은 16-shot 분류기 ≈ zero-shot CLIP

zero-shot 성능은 supervised linear probe 성능과 강한 양의 상관 (r ≈ 0.82)을 보였다.
그러나 대부분의 경우 10~25% 낮게 형성되었고, 단 5개 데이터셋만 ≤3% 차이였다.
이는 CLIP이 표현 품질에 강하게 의존하지만, 여전히 task adaptation 측면에서 개선 여지가 있음을 시사한다.

CLIP 변형(ResNet-50 ~ RN50x64, 44배 compute 차이)을 실험한 결과, zero-shot error가 로그-로그 선형적으로 감소했다.
개별 데이터셋의 분산은 크지만, 평균적으로는 모델 크기 증가 → 성능 향상 패턴이 매우 매끄럽게 나타났다.

정리하자면,

CLIP은 zero-shot 설정에서 fully-supervised baseline과 경쟁하거나 앞서는 사례를 다수 보여주었다.
행동 인식·맥락 이해가 중요한 과제에서는 특히 강점을 보였고, 반대로 의료·위성·계수·거리 추정 등 특수 도메인에서는 여전히 한계를 드러냈다.
소량의 라벨로 zero-shot을 빠르게 추월할 수 있지만, 데이터셋마다 효율성이 크게 달라진다는 점도 확인됐다.
성능은 표현 품질과 밀접히 연관되어 있으며, compute scaling을 통해 지속적으로 개선될 수 있음이 검증됐다.

3.2. Representation Learning

앞서 CLIP의 zero-shot task 성능을 살펴봤다면, 이번에는 모델이 학습한 표현(representation)의 품질 자체를 분석했다. 표현 학습 능력은 보통 두 가지 방식으로 평가된다:

linear classifier 성능 – 모델의 표현을 고정하고 선형 분류기를 학습시켜 성능을 측정
fine-tuning 성능 – 모델 전체를 특정 데이터셋에 맞춰 재학습

fine-tuning은 더 높은 성능을 내지만, pre-training이 만든 표현의 한계를 가려버릴 수 있다. 저자들은 CLIP의 목표가 task-agnostic pre-training에 있기 때문에, fine-tuning 대신 linear classifier 평가를 사용했다.

비교 실험
- 66개 모델을 27개 데이터셋에서 총 1782회 평가
- 기존 벤치마크(Kornblith et al., 2019)의 12개 표준 데이터셋과 확장된 27개 데이터셋 활용
성능 요약 (Figure 10)
- 작은 CLIP 모델(ResNet-50, RN101)은 BiT-M 같은 대규모 ImageNet-21K 사전학습 모델보다 성능이 낮았다.
- 그러나 대규모 CLIP 모델(RN50x64, ViT-L/14@336px)은 Noisy Student EfficientNet-L2보다 소폭 우세했다.
- 특히 CLIP의 vision transformer(ViT)는 ResNet 기반보다 약 3배 높은 compute 효율성을 보였다.
- 최종적으로 ViT-L/14@336px 모델은 평균 2.6% 성능 향상을 달성하며 새로운 기준점을 제시했다.

데이터셋 확장 평가 (Figure 11)
- CLIP은 27개 중 21개에서 EfficientNet-L2를 앞섰다.
- 크게 성능이 향상된 과제:
  - SST2 (+23.6%), Country211 (+22.7%), HatefulMemes (+18.8%), StanfordCars (+15.9%), GTSRB (+14.7%)
- 반대로 성능이 낮은 과제:
  - ImageNet (−3.0%), CLEVRCounts (−2.4%), CIFAR100 (−1.7%)

정리하자면,

CLIP은 linear probe 기준에서 기존 최고 모델(EfficientNet-L2)을 전반적으로 능가했다.
특히 대규모 모델(ViT-L/14@336px)은 compute 효율성까지 고려했을 때 더 뛰어난 성능을 보였다.
fine-grained 분류나 언어적 맥락이 필요한 과제에서 강점을 발휘했고, 저해상도·합성 객체 인식 과제에서는 한계를 보였다.
종합적으로 CLIP은 범용적이고 강력한 표현 학습 능력을 입증했으며, representation learning 측면에서도 새로운 표준으로 자리잡았다.

3.3. Robustness to Neural Distribution Shift

기존 딥러닝 모델들이 ImageNet에서 인간 수준을 초과했다고 보고되었지만(He et al., 2015), 이후 연구에서 다른 분포로 이동하면 성능이 급격히 떨어지는 현상이 반복적으로 보고되었다. 새로운 벤치마크에서는 모델의 정확도가 인간보다 낮을 뿐 아니라, ImageNet에서 측정된 정확도보다 훨씬 떨어지는 경우도 많았다.

이러한 차이는 왜 생길까? 여러 연구들은 딥러닝 모델이 학습 데이터 내 상관관계에는 매우 잘 적응하지만, 실제로는 spurious correlation을 학습해버려 새로운 분포에서는 성능이 무너진다는 해석을 내놓았다. 즉, 모델이 “겉보기에 유효한 패턴”을 기억했을 뿐, 이를 다른 환경에서 일반화하지 못한다는 것이다.

문제는 지금까지 진행된 많은 robustness 연구들이 대부분 ImageNet에 의존한 모델 평가에 한정되어 있었다는 점이다. 이는 곧 “딥러닝의 본질적 한계”를 드러낸 것인지, 아니면 “ImageNet이라는 데이터셋의 특수성” 때문인지를 구분하기 어렵게 만든다.

여기서 CLIP은 새로운 기회를 제공한다. CLIP은 대규모 자연어 supervision을 기반으로 학습된 모델이며, zero-shot 상황에서도 강력한 성능을 보인다. 따라서 CLIP의 zero-shot 특성이 기존 ImageNet 기반 모델과 달리 distribution shift에 더 강건한지 확인하는 것은 매우 중요한 과제라 할 수 있다.

Natural vs. Synthetic Shift

Taori et al. (2020)은 ImageNet 기반 분포 이동을 체계적으로 정리했는데, 7개의 natural shift 데이터셋(ImageNet-V2, ImageNet-R, ImageNet-Sketch, ObjectNet 등)과 synthetic shift(ImageNet-C, Stylized ImageNet, adversarial 등)로 나눈다.

본 장에서는 주로 natural shift를 다루며, 모든 결과는 ImageNet validation set 성능 대비 상대적 성능 하락을 중심으로 평가했다.

기존 ImageNet 기반 모델들은 natural shift 데이터셋에서 성능이 급격히 저하되는 반면, CLIP은 확연히 다른 양상을 보였다.

ResNet-101 같은 기존 모델은 natural shift에서 ImageNet 대비 오류가 5배 이상 증가했다.
그러나 zero-shot CLIP은 ImageNet 정확도와 분포 전이 정확도의 격차(robustness gap)를 최대 75%까지 줄였다.

Figure 12는 같은 ImageNet 정확도를 가진 모델들 중에서도 CLIP representation을 활용한 transfer 성능이 월등히 높다는 점을 보여준다. 이는 기존 모델들이 학습 분포에 과적합(overfit)되어 있었음을 시사한다.

Figure 13에서는 CLIP의 구체적인 분포 전이 성능을 확인할 수 있다.

ImageNet-R: +51.2%
ImageNet-Sketch: +35.0%
ImageNet-A: +74.4%

이처럼 CLIP은 다양한 natural shift 데이터셋에서 기존 ImageNet 기반 모델보다 훨씬 강건한 성능을 보였다. 이는 CLIP이 특정 데이터셋에 특화된 spurious correlation 대신, 보다 일반화된 표현(representation)을 학습했다는 것을 보여준다.

그러나 CLIP feature를 다시 ImageNet에 맞춰 linear classifier로 적응(adapt)했을 때는 다른 결과가 나타났다. Figure 14에 따르면, ImageNet 정확도는 +9.2% 상승했지만 다른 분포에서는 오히려 성능이 감소했다. 즉, 특정 데이터셋에 최적화된 적응은 분포 전이 일반화를 해칠 수 있다는 trade-off를 드러냈다.

흥미롭게도 ObjectNet 같은 일부 데이터셋에서는 class shift를 반영한 커스텀 classifier를 적용했을 때 약간의 개선이 있었지만, 효과는 제한적이었다.

추가 분석에서는 few-shot 학습이 in-distribution 성능은 점진적으로 높였으나, distribution shift robustness는 zero-shot과 크게 다르지 않았다. 라벨을 더 많이 제공한다고 해서 모델의 일반화 능력이 근본적으로 향상되지는 않았으며, 오히려 zero-shot CLIP이 few-shot 대비 비슷하거나 더 robust한 경우도 관찰되었다.

정리하자면,

기존 ImageNet 모델은 natural distribution shift에서 성능이 크게 무너졌지만, CLIP은 zero-shot 설정에서도 훨씬 더 강건한 성능을 보였다.
특히 ImageNet-R, ImageNet-Sketch, ImageNet-A 등에서 큰 개선을 보이며, spurious correlation 문제를 덜 겪는다는 점을 입증했다.
그러나 ImageNet에 적응(adapt)하면 오히려 분포 전이 성능이 떨어져, “특정 분포 적응 = 일반화 저하”라는 trade-off가 확인되었다.
few-shot은 robustness 자체를 크게 개선하지 못했으며, zero-shot 대비 장점은 in-distribution 성능에 국한되었다.
결론적으로, CLIP은 대규모 pre-training의 범용성 덕분에 기존 supervised ImageNet 모델보다 훨씬 더 robust한 representation을 학습했다는 점을 보여준다.

'논문 리뷰' 카테고리의 다른 글

[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (2) (0)	2025.10.10
[논문리뷰] Fusing Modalities by Multiplexed Graph NeuralNetworks for Outcome Prediction in Tuberculosis (3)	2025.06.29
[논문리뷰] Topological feature search method for multichannel EEG Application in ADHD classification (2) (2)	2025.06.25
[논문리뷰] Topological feature search method for multichannel EEG Application in ADHD classification (1) (2)	2025.06.25

통계먼지

[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (1)

1. Introduction and Motivating Work