이전 글 : Learning Transferable Visual Models From Natural Language Supervision (1)
[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (1)
Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability s
imstatdust.tistory.com
4. Comparison to Human Performance
그렇다면 CLIP은 인간의 성능과 어떻게 비교될까? 연구진은 이를 알아보기 위해 Oxford IIT Pets 데이터셋(3669장, 37종 고양이/강아지 품종 분류)을 가지고 사람들을 대상으로 실험을 진행하였다.
실험 방법
- Zero-shot: 아무런 예시 이미지 없이, 단지 품종 이름만 보고 이미지를 분류하도록 함
- One-shot: 각 품종마다 예시 이미지 1장을 제공
- Two-shot: 각 품종마다 예시 이미지 2장을 제공
- 참가자: 5명의 사람, 각 이미지에 대해 “품종 선택” 또는 “잘 모르겠다”로 답변
결과
- Zero-shot 성능: 평균 54%
- One-shot 성능: 평균 76% (예시 이미지 1장만 보고도 큰 폭으로 향상)
- Two-shot 성능: 추가 향상은 거의 없었음
즉, 사람들은 예시를 단 1장만 봐도 학습 효과가 크며, “무엇을 모르는지 알고 있다”는 점이 특징적이었다. 자신이 확실하지 않은 이미지에 대해서만 예시를 활용해 판단을 업데이트한 것이다.
CLIP과의 차이
- CLIP은 zero-shot 성능에서 뛰어난 결과를 보여주었으나,
- few-shot 학습에서는 인간처럼 효율적으로 새로운 정보를 활용하지 못했다.
- 이는 인간은 사전 지식(prior knowledge)을 적극적으로 활용하는 반면, CLIP의 few-shot 방법은 이를 충분히 활용하지 못한다는 차이로 해석된다.
따라서 앞으로의 과제는 사전 지식을 few-shot 학습 과정에 효과적으로 통합하는 방법을 찾는 것이다.
추가 관찰
- 인간과 CLIP 모두 어려워한 문제들은 대체로 데이터셋 자체의 노이즈(잘못된 라벨링)나 분포 바깥(out-of-distribution) 이미지였다.
- 즉, 단순히 모델의 한계라기보다 데이터 품질 문제도 중요한 요인임을 보여준다.


5. Data Overlap Analysis
대규모 인터넷 데이터를 이용해 모델을 학습할 때 자주 제기되는 우려가 있다.
바로 학습 데이터에 평가용 데이터가 의도치 않게 섞여 들어가는 문제이다. 만약 이런 일이 발생한다면, 평가 결과는 실제 일반화 능력을 보여주는 게 아니라 단순한 데이터 암기에 불과할 수 있다.
모든 중복을 사전에 제거하면 가장 확실한 방법이지만, 이 경우 어떤 데이터셋이 평가에 쓰일지 모두 알아야 하고, 새로운 벤치마크가 추가될 때마다 모델을 다시 학습시켜야 하는 부담이 생긴다. 따라서 CLIP 연구진은 “실제로 중복이 얼마나 있는지, 그리고 그 중복이 성능에 어떤 영향을 미치는지”를 분석하는 방식을 택했다.
분석 절차
- 각 평가 데이터셋에 대해 중복 탐지기를 실행하여 비슷한 이미지 후보를 찾는다.
- 임계값(threshold)을 설정해 precision을 높이면서 recall도 확보
- 이를 통해 중복 의심 샘플(Overlap)과 중복이 없는 샘플(Clean)으로 데이터셋을 분리한다.
- CLIP 모델(RN50x64)의 zero-shot 정확도를 Overlap, Clean, 전체(All) 세 가지로 각각 계산한다.
- All – Clean 차이를 통해 오염(데이터 누출) 정도를 추정.
- 중복 비율이 작은 경우에도 유의성 검정을 통해 성능 차이가 통계적으로 의미 있는지 확인한다.
분석 결과
- 전체적으로 중복 비율은 낮았다.
- 평균 중복률: 약 3.2%
- 중앙값 중복률: 약 2.2%
- 대부분의 데이터셋에서 중복으로 인한 성능 변화는 0.1% 미만이었다.
- 가장 큰 중복률은 Country211 데이터셋(21.5%)이었지만, 성능 차이는 0.2%에 불과했다.
- Birdsnap 데이터셋이 두 번째로 높은 중복률(12.1%)을 보였으나, 성능 향상은 0.6%에 그쳤다.
즉, 일부 데이터셋에서 중복이 확인되었지만, 전반적인 성능 평가는 크게 왜곡되지 않았다.
주의할 점
- 중복 탐지기는 완벽하지 않다. 작은 물체(예: 새, 비행기)는 잘못된 중복 판정을 내릴 가능성이 있다.
- 중복이 있더라도, 성능 차이는 데이터셋 난이도나 클래스 분포 변화 같은 다른 요인에 의해 가려질 수도 있다.

6. Limitations
CLIP은 강력한 zero-shot 성능을 보여주었지만, 여전히 해결되지 않은 여러 한계가 존재한다. 연구진은 이를 다음과 같이 정리하였다.
성능 한계
- 경쟁 baseline 수준: CLIP의 zero-shot 성능은 단순한 ResNet-50 특징 위에 선형 분류기를 얹은 supervised baseline과 비슷한 수준이다. 하지만 현재 SOTA(supervised 학습 기반) 모델에 비해서는 여전히 격차가 크다.
- 미세 분류 어려움: 차량 모델, 꽃 종(species), 항공기 변형과 같은 fine-grained classification에서는 성능이 떨어진다.
- 추상적/체계적 과제 취약: 이미지 내 객체 개수 세기(counting) 같은 과제에서는 성능이 낮다.
- 새로운 과제에는 무력: 학습 데이터에 포함될 가능성이 낮은 새로운 과제(예: 사진 속 가장 가까운 자동차와의 거리 추정)에서는 성능이 랜덤 수준에 머문다.
일반화 문제
- CLIP은 인터넷 이미지에 대해 잘 일반화하지만, 진짜 out-of-distribution(OOD) 데이터에는 약하다.
- ex. OCR 태스크에서는 디지털 텍스트에는 강하지만, 손글씨(MNIST)에는 Logistic Regression baseline보다도 성능이 낮다.
- 이는 “충분히 많은 데이터를 모으면 모든 분포를 포함할 것”이라는 CLIP의 가정이 얼마나 쉽게 깨질 수 있는지를 보여준다.
제약된 출력 형식
- CLIP은 zero-shot 분류기로서 주어진 레이블 후보 안에서만 선택할 수 있다.
- 따라서 완전히 새로운 개념을 만들어내는 이미지 캡셔닝(captioning) 같은 방식에 비해 유연성이 떨어진다.
- 연구진은 CLIP의 효율성을 유지하면서 caption 모델의 유연성을 결합할 수 있는 대조 학습 + 생성 학습의 통합 목표가 향후 연구 방향이 될 수 있다고 제안했다.
데이터 효율성 문제
- CLIP은 효율적인 few-shot 학습을 하지 못하고, 대신 수억~수십억 장의 이미지-텍스트 쌍을 활용해 보완한다.
- 예시: 12.8억 장의 이미지를 32 epoch 동안 학습하는 데, 초당 한 장씩 본다고 하면 405년이 걸린다.
- Self-supervised 학습(Henaff, 2020; Chen et al., 2020c)이나 self-training(Xie et al., 2020)과 결합하는 것이 데이터 효율성을 개선하는 방향이 될 수 있다.
방법론적 한계
- 연구 개발 과정에서 validation set을 반복적으로 사용했기 때문에, 엄밀한 의미의 zero-shot과는 차이가 있다.
- 또한 평가 데이터셋은 27개를 임의로 조합한 세트였으며, CLIP의 특성에 맞게 “co-adapted”된 측면이 있다.
- 진정한 zero-shot 능력을 평가하려면, 새롭게 설계된 벤치마크가 필요하다.
사회적 편향
- CLIP은 인터넷에서 수집한 이미지-텍스트 쌍을 기반으로 학습했기 때문에, 사회적 편향(social bias)을 그대로 학습한다.
- 이는 기존 이미지 캡션 모델에서도 보고된 문제(Bhargava & Forsyth, 2019)이며, CLIP 역시 비슷한 한계를 가진다.
Few-shot 학습의 인간 대비 한계
- 인간은 0 → 1-shot에서 큰 성능 향상을 보이지만, CLIP은 오히려 zero-shot > few-shot 구조에서 성능이 떨어지는 경우가 있다.
- 이는 CLIP이 few-shot 학습을 직접 최적화하지 않았기 때문이다.
- 앞으로는 “강한 zero-shot + 효율적인 few-shot”을 결합하는 방법이 필요하다.
7. Broader Impacts
CLIP은 텍스트와 이미지를 함께 이해하는 능력을 바탕으로, 사실상 모든 이미지 분류 과제에 적용할 수 있는 매우 강력한 모델이다. 예를 들어 “고양이 vs 강아지”를 구분하는 단순한 분류부터, “절도 행위 탐지”와 같이 사회적으로 민감한 영역에까지 적용될 수 있다.
이러한 활용 가능성은 CLIP의 성능과 더불어, 그 적합성과 윤리적 영향을 함께 평가해야 함을 시사한다.
CLIP은 기존의 분류 모델과 달리 “직접 클래스(label)를 만들어 학습 없이 새로운 분류기를 구성할 수 있는” 유연성을 제공한다.
이는 사용자가 손쉽게 자신만의 분류 체계를 구축할 수 있게 하지만, 동시에 GPT-3와 같은 대규모 생성 모델처럼 예상치 못한 부작용과 편향을 내포할 위험도 함께 지닌다.
연구진은 CLIP의 zero-shot 설정에서, 모델이 이미지 검색, 텍스트-이미지 매칭, 컨텍스트 기반 검색 등 광범위한 응용에 잠재력을 보임을 확인하였다.
특히, 추가 데이터나 학습 없이도 손쉽게 특정 목적에 맞게 조정할 수 있어, 향후 새로운 AI 응용 분야를 빠르게 확장시킬 가능성이 있다.
연구진은 CLIP의 사회적 편향(social bias)을 탐구하기 위해 FairFace 벤치마크를 비롯한 다양한 편향 평가를 수행했다.
또한, 감시(surveillance) 분야에서 CLIP의 활용 가능성을 시험하여, 행동 인식, 객체 분류, 얼굴 인식, 위치 추정 등 다양한 태스크에서의 성능과 함께 윤리적 리스크를 분석했다.
이러한 응용들은 기술적으로 유용할 수 있지만, 동시에 사생활 침해와 사회적 불평등을 심화시킬 위험이 존재한다.
CLIP과 같은 멀티모달 모델은 여전히 편향을 정량화하고 완화하는 방법이 미흡하다.
따라서, 향후 연구는 더 넓고 맥락적인 편향 평가 체계 구축, 다양한 사회적 시나리오에 따른 응답 차이를 정밀 분석, AI 시스템이 사회적으로 안전하게 사용될 수 있는 정책적·기술적 가이드라인 마련 등을 목표로 해야 한다.
7.1. Bias
연구진은 CLIP이 인종, 성별, 연령 등 사회적 요인에 따라 편향된 예측을 보일 가능성을 탐색했다.
이를 위해 FairFace 데이터셋(Kärkkäinen & Joo, 2019)을 활용해 CLIP의 zero-shot 모델(ZS CLIP)과 로지스틱 회귀 기반 Linear Probe(CLIP feature 기반)을 비교했다.
그 결과, CLIP은 전반적으로 높은 정확도를 보였지만,
특정 인종(예: Black)이나 연령대(특히 0–20세)에서 ‘범죄 관련(crime-related)’ 또는 비인간(non-human) 범주로 오분류되는 경향이 나타났다.
이는 사회적으로 민감한 주제에서 표현적 편향(representational bias)이 작동하고 있음을 보여준다.
또한, ‘class design(클래스 설계)’과 ‘threshold 설정’이 편향을 유발하는 주요 요인으로 지적되었다.
예를 들어, 임계값을 낮추면 ‘nanny’·‘housekeeper’ 같은 성별 고정관념 직업이, 높이면 ‘lawyer’·‘congressman’ 같은 직업이 주로 나타났다.
이처럼 레이블 구성과 임계값 선택만으로도 편향 양상이 달라진다는 점이 강조되었다.
결국 연구진은 CLIP의 편향이 단순히 데이터의 문제가 아니라,
클래스 정의와 모델 설계 전반에서 비롯된 구조적 문제임을 지적하며,
AI 개발자는 모델 설계 단계에서부터 이런 편향을 최소화하는 기준과 절차를 마련해야 한다고 제안했다.



7.2. Surveillance
연구진은 CLIP이 사회적으로 민감한 분야인 감시(surveillance) 환경에서 어떻게 작동하는지를 평가했다.
이는 CLIP이 단순한 이미지 분류를 넘어, 실제 사회적 맥락에서 얼마나 신뢰할 수 있는가를 점검하기 위한 실험이었다.
실험 1: CCTV 영상 분류
CLIP의 zero-shot 성능을 평가하기 위해 CCTV 영상(Oh et al., 2011; Varadarajan & Odobez, 2009)을 사용했다.
테스트는 두 가지 수준에서 진행되었다.
- Coarse classification: 주된 피사체(사람/자동차 등)의 존재 여부를 구분
- Fine-grained classification: 구체적 행동(예: 사람의 위치나 자세)을 식별
그 결과, 대분류(Coarse)에서는 약 91.8%의 정확도로 비교적 좋은 성능을 보였지만, 세부 분류(Fine-grained)에서는 성능이 거의 랜덤 수준으로 떨어졌다. 이는 CLIP이 고해상도 CCTV나 세밀한 행동 인식에는 적합하지 않음을 보여준다.
실험 2: 유명인 얼굴 인식 (CelebA)
CLIP의 얼굴 인식 성능을 측정하기 위해 CelebA 데이터셋에서 8,000명의 인물 이미지를 이용했다.
Zero-shot 방식으로 학습 없이 인물 이름을 추정한 결과:
- 100개 클래스에서는 59.2%,
- 1,000개 클래스에서는 43.3%,
- 2,000개 클래스에서는 42.2%의 정확도를 보였다.
이는 Google Cloud Vision 등 상용 얼굴인식 시스템보다 낮은 수치지만,
사전학습 데이터만으로 이 정도 식별이 가능했다는 점에서 잠재적 영향력이 크다고 평가되었다.
즉, CLIP은 학습 없이도 ‘이 사람일 가능성이 높은 인물’을 추정할 수 있는 수준의 표현력을 이미 보유하고 있었다.

CLIP은 훈련 데이터 없이도 즉시 사용할 수 있다는 점에서 유연하고 빠른 프로토타이핑 도구로 활용될 수 있다.
특히, 데이터셋이 부족하거나 맞춤형 모델이 없는 분야에서는 비정형 감시 태스크(예: 특정 장소나 행동 탐지)에 유용할 수 있다.
그러나 다음과 같은 한계가 지적되었다.
- 얼굴 인식 등 감시 특화 태스크에서는 기존 모델(Detectron2 등)보다 성능이 떨어짐
- 세밀한 객체 탐지나 행동 분류에 취약함
- 사회적 맥락에서 감시 기술 남용의 위험성을 내포함
7.3. Future Work
이번 연구는 CLIP과 같은 범용 시각 모델(general-purpose vision models)이 지닌 가능성과 한계, 그리고 사회적 편향을 초기적으로 탐색한 분석이었다. 연구진은 이 결과를 통해 CLIP이 보여준 편향·윤리·응용 가능성의 양면성을 더 깊이 이해하기 위한 추가 연구가 필요함을 강조하였다.
향후 연구는 단순히 CLIP의 성능을 높이는 것을 넘어,
이 모델이 어디서 잘 작동하고, 어디서 위험하거나 한계가 드러나는지를 명확히 규명하는 데 초점을 맞추어야 한다.
특히 연구진은 다음과 같은 방향을 제시하였다.
1. 모델의 긍정적 활용 가능성 식별 : 연구 초기에 CLIP이 사회적으로 유용하게 쓰일 수 있는 응용 영역을 식별하여, 다른 연구자나 기관이 이를 확장할 수 있도록 돕는다.
2. 사회적으로 민감한 태스크 발굴 : 특정 분야(예: 감시, 얼굴 인식 등)에서 사회적 영향력이 큰 과제들을 찾아
정책적 개입과 규제 논의의 근거로 삼는다.
3. 모델 편향의 체계적 특성화 : CLIP의 편향이 어떤 데이터나 설계 요인에서 비롯되는지를 정밀하게 분석해, 향후 개선 방향을 구체화한다.
4. 표준화된 평가 체계 구축 : CLIP과 같은 범용 모델의 성능과 한계를 조기에 검증할 수 있는 테스트 세트(suites of tests)를 구축하여, 모델 개발 주기의 초기에 윤리적 검증이 가능하도록 한다.
5. 실패 모드(Failure Mode) 탐지 : 모델이 언제, 어떤 조건에서 잘못 작동하는지 체계적으로 파악하여 후속 연구 및 개선의 토대로 삼는다.
8. Related Works
자연어를 감독 신호(supervision)로 활용하는 연구는 NLP 분야에서 이미 오랫동안 시도되어 왔다.
토픽 모델(Blei et al., 2003), 단어 임베딩(Mikolov et al., 2013), 문장 표현(Kiros et al., 2015) 등은 모두 언어를 기반으로 의미를 학습하는 대표적 방법이다.
이후 연구들은 언어 설명을 추가적인 학습 신호로 활용하거나(Hancock et al., 2018), 비디오·이미지 설명 데이터로 시각적 개념을 학습하는 방식(Ramanathan et al., 2013; Wang et al., 2009)을 발전시켜왔다.
CLIP은 이러한 “자연어 기반 감독 학습(natural language supervision)”을 대규모 이미지-텍스트 쌍 데이터에 적용한 확장판이라 할 수 있다.
즉, 기존의 잘 정제된 캡션 데이터셋보다 훨씬 방대한 웹 데이터를 활용해 텍스트-이미지 간의 연관성을 직접 학습하는 방식으로 전환한 것이 핵심이다.
마지막으로, CLIP은 최근 주목받는 비전-언어 통합 모델(VQA, multimodal entailment 등)과 달리 이미지와 텍스트를 단일 임베딩 공간에서 내적(dot product)으로 연결하는 단순하고 효율적인 구조를 채택했다는 점에서 차별화된다.
9. Conclusions
연구진은 CLIP을 통해 자연어 감독 학습을 시각 영역에 성공적으로 확장할 수 있음을 보였다. 이는 NLP의 대규모 사전학습(web-scale pre-training) 접근법을 시각 도메인으로 이전한 사례이며, 이 방식이 범용적 전이 학습(zero-shot transfer)에 유효함을 실험적으로 입증했다. CLIP은 단일 모델로 다양한 시각 태스크를 수행할 수 있으며, 충분히 큰 규모에서 학습할 경우 특정 태스크에 맞춘 모델과 경쟁 가능한 성능을 보여준다. 그러나 여전히 정밀한 태스크 수행력과 데이터 효율성 면에서는 개선의 여지가 존재한다.
댓글