[TIL] 간단히 AI 히스토리 살펴보기

들어가며

AI는 갑자기 등장한 것처럼 보이지만, "기계가 생각할 수 있는가"라는 질문은 이미 오래전부터 있었다. 신경망도 최근에 처음 나온 아이디어가 아니다. 그런데도 우리는 2020년대에 들어와서야 AI가 정말 쓸 만해졌다고 느낀다.

이번 글은 그 질문을 따라가보는 기록이다. 시대마다 사람들이 무엇을 믿었고, 무엇이 부족했고, 왜 다음 단계로 넘어갔는지 차근차근 살펴본다.

결론부터 말하면, 오늘날의 AI는 단 하나의 천재적인 아이디어로 탄생한 것이 아니다. 오래된 질문, 신경망이라는 아이디어, 데이터의 축적, GPU의 병렬 연산, Transformer 구조, scaling law, instruction tuning과 RLHF, 그리고 채팅 인터페이스가 긴 시간에 걸쳐 맞물린 결과에 가깝다.

1. "기계가 생각할 수 있을까?"라는 오래된 질문

AI의 역사는 ChatGPT에서 시작하지 않는다.

1950년, Alan Turing은 「Computing Machinery and Intelligence」에서 "Can machines think?"라는 질문을 던졌다. 흥미로운 점은 그가 이 질문을 곧바로 정의하려 하지 않았다는 것이다. "생각한다"는 말도, "기계"라는 말도 너무 애매하기 때문이다.

그래서 튜링은 질문을 바꾼다. 사람이 보이지 않는 상대와 문자로 대화하면서 그 상대가 사람인지 기계인지 구별하지 못한다면, 우리는 그것을 지능적이라고 부를 수 있는가. 이 사고 실험이 오늘날 튜링 테스트로 알려진 아이디어의 출발점이다.

여기서 중요한 건 "1950년에 이미 오늘날의 AI가 있었다"가 아니다. 더 정확히는 이렇다.

질문은 이미 있었다. 하지만 그 질문을 현실로 만들 계산 자원, 데이터, 학습 방법, 제품 환경은 아직 충분하지 않았다.

2. 초기 AI: 세상을 규칙으로 설명하려던 시대

1955년, John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon은 다음 해 여름 Dartmouth College에서 인공지능 연구를 위한 워크숍을 열자는 제안서를 작성했다. 이 제안서는 "artificial intelligence"라는 표현이 학문 분야의 이름으로 자리 잡는 중요한 계기가 되었다.

초기 AI 연구자들의 분위기는 꽤 낙관적이었다. 언어를 규칙으로 표현하고, 추론을 논리로 표현하고, 문제 해결을 탐색으로 표현하면 지능을 만들 수 있을 것처럼 보였다.

이 관점에서 지능은 일종의 기호 조작이었다.

기호주의 AI는 무엇이었나

기호주의 AI는 인간의 지능을 기호와 규칙의 조작으로 설명하려는 접근이다.

예를 들면 이런 식이다.

text

규칙 1: 새는 날 수 있다.
규칙 2: 펭귄은 새다.
규칙 3: 펭귄은 날 수 없다.
 
질문: 펭귄은 날 수 있는가?
추론: 더 구체적인 규칙 3을 적용한다.
결과: 날 수 없다.

지식을 명시적인 규칙으로 표현하고, 기계가 그 규칙을 따라 추론하게 한다. 1980년대에 유행한 expert system이 대표적이다. 의사의 진단 규칙이나 전문가의 판단 절차를 코드로 옮겨놓으면, 컴퓨터가 증상을 바탕으로 결론을 내릴 수 있다는 그림이었다.

이 방식은 닫힌 세계에서는 강했다. 체스처럼 규칙이 명확하고 상태 공간을 탐색할 수 있는 문제에서는 효과적이었다.

문제는 현실 세계가 그렇게 깔끔하지 않았다는 점이다. 언어에는 모호함이 있고, 이미지는 노이즈가 많고, 사람의 행동은 맥락에 따라 달라진다. 예외 규칙을 하나씩 추가하다 보면 어느새 규칙은 너무 많아지고, 새로운 상황이 등장할 때마다 시스템은 쉽게 깨진다.

여기서 이후 AI 역사를 가르는 중요한 차이가 생긴다.

text

초기 AI: 사람이 세상을 설명해서 기계에 넣는다.
현대 AI: 기계가 대량의 데이터에서 표현을 학습한다.

물론 이 구분이 모든 것을 설명하지는 않는다. 현대 AI에도 규칙, 검색, 도구 호출, 검증 로직은 여전히 중요하다. 다만 중심축은 명시적 규칙 작성에서 데이터 기반 학습으로 이동했다.

3. 신경망은 갑자기 나온 게 아니었다

딥러닝은 최근에 갑자기 등장한 기술처럼 보이지만, 신경망이라는 아이디어 자체는 오래됐다.

1958년 Frank Rosenblatt은 「The Perceptron」 논문에서 퍼셉트론을 제안했다. 퍼셉트론은 데이터를 통해 가중치를 조정하는 모델의 초기 형태였다. (PubMed)

퍼셉트론의 아이디어는 단순하다. 입력값에 가중치를 곱해 더한 뒤, 그 값이 기준을 넘으면 1, 넘지 않으면 0을 출력한다.

스팸 메일 분류로 비유하면 이렇다.

text

입력 신호              가중치        기여
"무료"              ×   +2      =   +2
"당첨"              ×   +3      =   +3
"아는 사람의 메일"     ×   -5      =   -5
                             ─────────
                               합   0
 
기준값 1 이상이면 스팸 → 결과: 정상 메일

핵심은 사람이 모든 규칙을 직접 쓰는 대신, 모델이 데이터로부터 "어떤 단서가 얼마나 중요한지"를 배운다는 점이다.

하지만 초기 퍼셉트론에는 큰 한계가 있었다. 1969년 Minsky와 Papert는 『Perceptrons』에서 단층 퍼셉트론의 표현 한계를 분석했다. 흔히 XOR 문제로 설명되는 한계다. 하나의 직선으로 나눌 수 없는 패턴은 단층 퍼셉트론으로 처리하기 어렵다.

이 일은 신경망 연구의 열기를 식히는 데 영향을 주었다. 물론 신경망이 완전히 사라진 것은 아니었다. 1986년 Rumelhart, Hinton, Williams가 backpropagation을 정리하면서 다층 신경망을 학습시키는 길이 다시 주목받았다. Backpropagation은 출력의 오차를 거꾸로 전파하며 각 연결의 가중치를 조정하는 방법이다. (Nature)

그럼에도 당시에는 아직 충분하지 않았다. 알고리즘이 있어도, 큰 모델을 학습시킬 데이터와 연산력이 부족했다. 신경망은 가능성을 보여줬지만, 그 가능성을 크게 밀어붙일 환경은 아직 준비되지 않았다.

4. 기대와 현실 사이의 간극

AI는 여러 번 기대를 받았고, 여러 번 실망을 주었다. 흔히 1970년대와 1980년대 후반을 AI 겨울의 시기로 이야기한다. 기대했던 만큼 성과가 나오지 않으면서 연구비, 투자, 제품화 가능성이 줄어든 시기다.

규칙 기반 시스템은 제한된 환경에서는 잘 작동했지만, 열린 현실 세계에서는 쉽게 깨졌다. 신경망은 가능성을 보여주었지만, 충분히 큰 모델을 학습시키기에는 데이터와 연산력이 부족했다. Expert system은 만들 때는 그럴듯했지만, 지식 규칙을 계속 추가하고 유지보수하는 일이 점점 어려워졌다.

여기서 얻을 수 있는 교훈은 단순하다.

좋은 아이디어만으로는 부족하다. 아이디어가 작동하려면 그것을 밀어붙일 환경이 필요하다.

이 환경에는 알고리즘, 데이터, 하드웨어, 소프트웨어, 연구 문화, 제품 수요가 모두 포함된다.

5. 오래된 아이디어가 환경을 만나다

2010년대 초반, 분위기가 바뀐다.

상징적인 사건은 2012년 AlexNet이다. Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton은 ImageNet 이미지 분류 문제에서 깊은 합성곱 신경망을 사용해 큰 성능 향상을 보였다. 논문은 120만 장 이상의 고해상도 이미지를 1000개 클래스로 분류하는 모델을 설명했고, GPU를 활용해 학습을 가속했다. (NeurIPS Proceedings)

여기서 중요한 점은 CNN이라는 아이디어 자체가 완전히 새롭지는 않았다는 것이다. 이미 Yann LeCun의 우편번호 인식 연구 등에서 합성곱 신경망의 흐름은 이어져 있었다. AlexNet의 의미는 오래된 아이디어가 대규모 데이터와 GPU라는 환경을 만나 강력하게 작동했다는 데 있다.

당시 변화는 크게 세 가지였다.

text

1. 데이터가 많아졌다.
   인터넷, 디지털카메라, 스마트폰, 대규모 라벨링 데이터셋이 등장했다.
 
2. GPU를 사용할 수 있게 됐다.
   수많은 행렬 연산을 병렬로 처리할 수 있게 되었다.
 
3. 학습 기법이 안정화됐다.
   ReLU, dropout, 더 나은 초기화와 최적화 기법들이 쌓였다.

신경망 학습은 거대한 행렬 연산의 반복이다. CPU는 다양한 작업을 순차적으로 처리하는 데 강하고, GPU는 비슷한 계산을 대량으로 병렬 처리하는 데 강하다. 이 차이는 연구 속도를 크게 바꿨다.

한 번 실험하는 데 일주일이 걸리는 환경과, 하루에도 여러 번 실험할 수 있는 환경은 완전히 다르다. 시도할 수 있는 가설의 수가 늘어나면, 발견의 속도도 빨라진다.

그래서 딥러닝의 부활은 "새로운 알고리즘 하나가 모든 걸 해결한 사건"이라기보다, 오래된 아이디어가 데이터·연산력·학습 기법의 축적을 만난 사건에 가깝다.

6. 언어 모델: 다음 단어를 맞히는 일이 왜 중요해졌을까

이미지 분야에서 딥러닝이 자리를 잡는 동안, 언어 분야도 천천히 바뀌고 있었다.

언어 모델은 간단히 말하면 언어의 확률 분포를 배우는 모델이다. 더 쉽게 말하면, 앞의 단어들을 보고 다음에 올 단어가 무엇일지 예측하는 모델이다.

text

"나는 오늘 점심으로 김치찌개를 ___"

이 문장 뒤에는 "먹었다"가 올 가능성이 높고, "수영했다"가 올 가능성은 낮다. 언어 모델은 이런 가능성을 아주 큰 규모로 학습한다.

처음에는 이상하게 느껴진다. 다음 단어를 맞히는 일이 어떻게 번역, 요약, 코딩, 추론으로 이어질 수 있을까?

하지만 다음 단어를 정말 잘 맞히려면 단순한 문법만으로는 부족하다. 문장의 주제, 말하는 사람의 의도, 배경지식, 문체, 논리 구조까지 어느 정도 반영해야 한다. 그래서 언어 예측은 생각보다 가벼운 문제가 아니다.

다만 과장은 피해야 한다.

LLM이 인간처럼 세계를 경험한다는 뜻은 아니다. LLM은 몸을 가지고 현실을 직접 살아가는 존재가 아니다. 다만 사람들이 남긴 텍스트와 데이터 속 패턴을 통해 세계에 대한 표현을 학습한다고 보는 편이 더 정확하다.

언어 모델의 역사도 길다. 초기에는 n-gram 같은 통계 모델이 널리 쓰였다. "이 단어 다음에는 어떤 단어가 자주 나왔는가"를 세는 방식이다.

2013년에는 word2vec이 주목받았다. 단어를 고차원 벡터로 표현하고, 단어 사이의 의미적 관계를 벡터 공간에서 다룰 수 있음을 보여주었다. Mikolov 등의 논문은 큰 데이터셋에서 효율적으로 단어 벡터를 학습하는 방법을 제안했다. (arXiv)

하지만 문장과 긴 문맥은 여전히 어려웠다. 언어는 순서가 있고, 길이가 가변적이며, 멀리 떨어진 단어끼리도 의미상 연결된다. 이 문제를 다루기 위해 RNN, LSTM 같은 구조가 쓰였지만, 긴 문맥을 안정적으로 처리하고 병렬화하기에는 한계가 있었다.

이 지점에서 Transformer가 등장한다.

7. Transformer: 크게 키우기 좋은 구조

2017년 Vaswani 등은 「Attention Is All You Need」에서 Transformer를 제안했다. 이 논문의 핵심은 recurrence나 convolution에 의존하지 않고 attention 메커니즘만으로 sequence transduction 문제를 다루는 구조를 제안했다는 점이다. (arXiv)

Transformer 이전의 대표적인 언어 모델 구조인 RNN, LSTM은 문장을 순서대로 처리하는 방식에 가까웠다. 앞 단어를 보고, 다음 단어를 보고, 그 다음 단어를 보면서 정보를 넘긴다.

이 방식은 자연스럽지만 부담이 있었다.

text

1. 긴 문장에서 앞쪽 정보가 뒤쪽까지 잘 전달되기 어렵다.
2. 순서대로 계산해야 하므로 GPU 병렬성을 충분히 활용하기 어렵다.

Transformer는 self-attention을 통해 다른 접근을 취했다. 문장 안의 각 토큰이 다른 토큰들과 얼마나 관련 있는지를 계산하고, 그 관계를 바탕으로 표현을 갱신한다.

예를 들어 이런 문장이 있다고 하자.

text

"철수는 영희에게 사과했다. 그는 미안해했다."

여기서 "그"가 누구인지 이해하려면 앞 문장을 참고해야 한다. Self-attention은 "그"라는 토큰이 "철수", "영희", "사과했다" 같은 다른 토큰들과 맺는 관계를 계산한다.

text

"그"의 표현을 만들 때
 
철수       → 강한 관련
영희       → 약한 관련
사과했다   → 관련 있음
미안해했다 → 관련 있음

중요한 것은 이 계산이 학습 과정에서 병렬화되기 좋다는 점이다. Transformer는 단지 성능이 좋아서 중요해진 것이 아니다. 크게 키우기 좋은 구조였기 때문에 중요해졌다.

이 특징은 이후 LLM 시대의 핵심 기반이 된다.

8. Scaling Law: 키우면 좋아진다는 경험 법칙

Transformer가 자리를 잡은 뒤, 사람들은 모델을 점점 더 크게 만들기 시작했다. OpenAI의 GPT 시리즈가 대표적이다. GPT-3는 1750억 개의 파라미터를 가진 autoregressive language model로 발표되었다. (arXiv)

여기서 중요한 발견이 나왔다. 2020년 Kaplan 등은 「Scaling Laws for Neural Language Models」에서 언어 모델의 loss가 모델 크기, 데이터셋 크기, 학습 compute와 예측 가능한 관계를 보인다고 보고했다. (arXiv)

쉽게 말하면 이렇다.

text

모델 크기 ↑   → loss ↓
데이터 크기 ↑ → loss ↓
compute ↑    → loss ↓

물론 이것은 수학적 보장이라기보다, 실험 범위 안에서 관찰된 경험 법칙이다. 그래도 당시에는 강력한 신호였다. 모델을 키우면 어느 순간 완전히 막힐 것이라고 생각할 수도 있었는데, 실제로는 꽤 넓은 범위에서 부드럽게 성능이 좋아지는 패턴이 관찰되었기 때문이다.

하지만 곧 더 섬세한 질문이 따라왔다.

같은 연산 예산이 있다면, 큰 모델을 적은 데이터로 학습시키는 것이 좋을까? 아니면 조금 작은 모델을 더 많은 데이터로 학습시키는 것이 좋을까?

이 질문에 답한 대표적인 연구가 2022년 DeepMind의 Chinchilla 논문이다. 저자들은 많은 대형 언어 모델이 모델 크기에 비해 학습 토큰 수가 부족한 undertrained 상태였다고 주장했다. 같은 compute 예산이라면 모델 크기와 학습 토큰 수를 균형 있게 늘리는 편이 더 효율적이라는 것이다. Chinchilla는 70B 파라미터 모델을 더 많은 토큰으로 학습해 더 큰 모델들을 여러 평가에서 앞서는 결과를 보였다. (arXiv)

이 시기의 흐름은 이렇게 정리할 수 있다.

text

1단계: 크게 만들면 좋아지는 경향이 있다.
2단계: 하지만 무작정 크게만 만들면 안 된다.
3단계: 모델 크기, 데이터, compute 사이의 균형이 중요하다.

LLM 시대는 단순히 "큰 모델"의 시대가 아니라, 스케일을 예측하고 배분하는 방법을 알게 된 시대에 가깝다.

9. ChatGPT: 모델보다 경험이 폭발을 만들었다

GPT-3는 2020년에 이미 있었다. 그런데 왜 대중이 폭발적으로 반응한 것은 2022년 11월 공개된 ChatGPT였을까?

답은 모델 성능만이 아니라, 사용자가 바로 이해할 수 있는 제품 경험에 있다.

기본 언어 모델은 다음 토큰을 예측한다. 인터넷 문서를 이어 쓰거나, 코드 조각을 완성하거나, 특정 말투를 흉내 낼 수 있다. 하지만 그 자체로 사용자의 요청을 안전하고 유용하게 따르는 제품은 아니다.

우리가 아는 챗봇의 느낌은 그 위에 instruction tuning과 RLHF 같은 정렬 과정이 얹어지면서 만들어졌다.

Instruction tuning

Instruction tuning은 모델에게 지시를 따르는 법을 가르치는 과정이다.

text

입력: "다음 문장을 영어로 번역해줘: 오늘 날씨가 좋다."
출력: "The weather is nice today."
 
입력: "이 함수의 버그를 찾아줘: function add(a, b) { return a - b; }"
출력: "`return a - b`가 아니라 `return a + b`여야 합니다."

단순히 문장을 이어 쓰는 것이 아니라, 사용자가 요청한 작업의 형식에 맞춰 응답하도록 학습시키는 것이다.

RLHF

RLHF는 Reinforcement Learning from Human Feedback의 줄임말이다. 사람이 여러 답변을 비교해 더 좋은 답변을 고르고, 모델이 그 선호를 따르도록 학습시키는 방식이다.

text

같은 질문에 대한 두 답변이 있다.
 
답변 A: 정확하고, 친절하고, 사용자의 의도에 맞다.
답변 B: 틀렸거나, 무뚝뚝하거나, 질문을 비껴간다.
 
사람 평가자: A가 더 좋다고 선택한다.
모델: A와 비슷한 답변을 더 선호하도록 조정된다.

OpenAI의 InstructGPT 논문은 큰 언어 모델이 커진다고 해서 자동으로 사용자 의도를 잘 따르는 것은 아니며, human feedback을 통한 fine-tuning이 도움이 된다고 설명한다. 논문에서는 1.3B InstructGPT가 인간 평가에서 175B GPT-3보다 선호된 결과도 보고했다. (arXiv)

ChatGPT의 폭발은 모델의 사건이면서 동시에 인터페이스의 사건이었다. 사람들은 API 문서를 읽고 모델을 호출한 것이 아니라, 그냥 채팅창에 말을 걸었다. OpenAI도 ChatGPT를 InstructGPT의 sibling model로 설명하며, 대화 형식이 follow-up 질문, 오류 인정, 잘못된 전제 지적 등을 가능하게 한다고 소개했다. (OpenAI)

이 순간 LLM은 복잡한 AI 모델에서 대화 가능한 제품으로 바뀌었다.

10. LLM만이 정답일까?

LLM은 강력하다. 하지만 LLM이 AI의 최종 형태라고 말하기는 어렵다.

첫째, Transformer는 비싸다

Self-attention은 강력하지만, 시퀀스 길이가 길어질수록 계산량이 크게 증가한다. 그래서 긴 문맥을 더 효율적으로 처리하기 위한 연구가 계속되고 있다.

2023년 Gu와 Dao는 Mamba를 제안했다. Mamba는 selective state space model을 바탕으로 긴 시퀀스를 더 효율적으로 다루려는 시도다. 논문은 Transformer의 긴 시퀀스 비효율을 문제로 보고, sequence length에 대해 선형적으로 스케일하는 구조를 제안한다. (arXiv)

물론 이것이 Transformer를 곧바로 대체한다는 뜻은 아니다. 다만 Transformer가 마지막 답이 아닐 수 있다는 신호로 볼 수 있다.

둘째, 언어만으로 충분한가?

LLM은 텍스트를 통해 세계의 패턴을 배운다. 하지만 인간은 텍스트만으로 세계를 배우지 않는다. 우리는 만지고, 걷고, 넘어지고, 물건을 옮기고, 실패하고, 다시 시도한다.

그래서 world model, embodied AI, planning, causal reasoning 같은 주제가 계속 중요하게 논의된다. 텍스트 예측만으로 충분한가, 아니면 세계를 예측하고 행동을 계획하는 다른 구조가 필요한가. 이 질문은 아직 열려 있다.

11. 그래서 지금 우리는 어디에 있는가

긴 흐름을 정리하면 이렇다.

text

1950    Turing, "Can machines think?"
1955    Dartmouth AI 연구 제안서
1956    Dartmouth 워크숍
1958    Rosenblatt의 Perceptron 논문
1969    Minsky & Papert, 단층 퍼셉트론의 한계 분석
1970s   1차 AI 겨울로 불리는 침체기
1986    Backpropagation 재조명
1980s~  Expert system의 성장과 한계
2012    AlexNet, ImageNet에서 딥러닝의 전환점
2013    word2vec, 단어 벡터 표현의 대중화
2017    Transformer, Attention Is All You Need
2020    GPT-3, Scaling Laws
2022    InstructGPT, Chinchilla, ChatGPT
2023~   멀티모달, 에이전트, on-device AI, Mamba 등으로 확장

연표만 보면 단순해 보이지만, 실제로는 매 시기마다 사람들이 지능을 설명하는 방식을 바꿔왔다.

처음에는 지능을 규칙과 논리로 설명하려 했다. 이후에는 데이터로부터 표현을 학습하는 방향이 강해졌다. 그러다 대규모 데이터, GPU, Transformer, scaling law가 맞물리면서 LLM이 폭발했다. 그리고 ChatGPT는 이 기술을 사람들이 바로 사용할 수 있는 제품 경험으로 바꿨다.

요즘은 인류의 진화과정을 눈으로 직관하는 것 같아 재밌다.

참고 자료

Turing, A. M. "Computing Machinery and Intelligence." Mind (1950).
McCarthy, J., Minsky, M., Rochester, N., Shannon, C. "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence" (1955).
Rosenblatt, F. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain." Psychological Review (1958).
Rumelhart, D. E., Hinton, G. E., Williams, R. J. "Learning Representations by Back-Propagating Errors." Nature (1986).
Krizhevsky, A., Sutskever, I., Hinton, G. "ImageNet Classification with Deep Convolutional Neural Networks." NeurIPS (2012).
Mikolov, T. et al. "Efficient Estimation of Word Representations in Vector Space." arXiv:1301.3781 (2013).
Vaswani, A. et al. "Attention Is All You Need." NeurIPS (2017).
Kaplan, J. et al. "Scaling Laws for Neural Language Models." arXiv:2001.08361 (2020).
Brown, T. et al. "Language Models are Few-Shot Learners." arXiv:2005.14165 (2020).
Ouyang, L. et al. "Training Language Models to Follow Instructions with Human Feedback." arXiv:2203.02155 (2022).
Hoffmann, J. et al. "Training Compute-Optimal Large Language Models." arXiv:2203.15556 (2022).
Gu, A., Dao, T. "Mamba: Linear-Time Sequence Modeling with Selective State Spaces." arXiv:2312.00752 (2023).