[TIL] Small Language Model (SLM)

1. SLM이란

SLM은 Small Language Model, 말 그대로 작은 언어 모델이다.
보통 파라미터 수를 기준으로는 10B 이하, 조금 더 좁게는 1B~7B 정도의 모델을 SLM이라고 부른다.

GPT-4급 LLM: 수백 B ~ 1T+ 파라미터
일반적인 LLM: ~70B
SLM: 1B ~ 7B, 스마트폰·노트북에서도 돌릴 수 있는 영역
Tiny LM: ~500M 이하, 특정 태스크에 최적화된 초소형 모델

다만 크기만으로 딱 잘라 구분하기는 어렵다. 개인적으로는 어디서 돌아갈 수 있는가 로 보는 편이 더 직관적인 것 같다.

예를 들어 데이터센터의 H100 같은 고성능 GPU 위에서만 돌릴 수 있는 모델이 있고, 반대로 노트북이나 스마트폰 안에서 직접 실행할 수 있는 모델이 있다. SLM은 후자에 가까운 모델이다.

즉, SLM은 단순히 작은 모델이라기보다 로컬 환경이나 엣지 디바이스에서 현실적으로 사용할 수 있는 언어 모델에 가깝다.

2. 왜 SLM인가

2022년 ChatGPT 이후 AI 흐름은 한동안 명확했다. 모델을 더 크게 만들고, 더 많은 데이터를 넣고, 더 강한 추론 능력을 얻는 방향이었다.

그런데 2024년쯤부터는 반대 방향의 흐름도 같이 커지기 시작했다. “꼭 모든 문제에 거대한 LLM이 필요할까?”라는 질문이 나온 것이다.

SLM이 주목받는 이유는 대략 다음과 같다.

비용 모든 기능에 대형 LLM API 호출 비용을 감당하기는 어렵다.
지연시간 서버에 요청을 보내고 응답을 기다리지 않아도 된다. 로컬에서 바로 실행하면 수백 ms 안에 응답을 받을 수도 있다.
프라이버시 의료, 금융, 사내 문서처럼 외부 서버로 보내기 어려운 데이터가 있다. 온디바이스 모델은 이런 상황에서 장점이 크다.
온디바이스 AI 환경 최근 스마트폰과 노트북에는 NPU가 들어가고 있다. 단말 자체에서 AI 추론을 돌릴 수 있는 환경이 점점 좋아지고 있다.
태스크 적합성 이메일 요약, 문서 분류, 간단한 라우팅, JSON 추출 같은 일에 항상 GPT-4급 모델이 필요한 것은 아니다.

특히 Microsoft Phi 시리즈는 모델이 작아도 충분히 똑똑할 수 있다는 가능성을 꽤 강하게 보여줬다. 이후 SLM은 단순한 경량 모델이 아니라, 실제 제품에서 비용과 속도, 프라이버시를 모두 고려할 때 꽤 현실적인 선택지가 되었다.

3. 어떻게 작게 만드는가

모델을 작게 만들면 당연히 성능이 떨어질 것 같지만, 최근에는 성능 손실을 줄이기 위한 여러 기법들이 같이 발전하고 있다.

3-1. Knowledge Distillation

첫 번째는 Knowledge Distillation, 지식 증류다.

큰 모델을 teacher, 작은 모델을 student라고 생각하면 된다. teacher 모델이 낸 답을 student 모델이 따라 하도록 학습시키는 방식이다.

중요한 점은 단순히 정답만 따라 하는 것이 아니라는 점이다. teacher가 어떤 후보를 얼마나 그럴듯하게 봤는지, 즉 확률 분포까지 학습한다.

text

[Teacher 70B]               [Student 3B]
입력: "고양이는?"      →   같은 입력
출력 분포:             →   분포를 흉내내도록 학습
  "포유류": 0.6
  "동물":   0.3
  "생물":   0.1

이렇게 하면 student 모델은 단순히 “정답은 포유류”라고 외우는 것이 아니라, teacher 모델이 답을 고르는 방식의 결을 어느 정도 배울 수 있다. 그래서 작은 모델이더라도 큰 모델의 판단 방식을 압축해서 가져올 수 있다.

3-2. Quantization

두 번째는 Quantization, 양자화다.

모델의 가중치는 원래 높은 정밀도의 숫자로 저장된다. 그런데 이 정밀도를 낮추면 메모리 사용량과 연산량을 크게 줄일 수 있다.

text

FP32 → FP16 → INT8 → INT4
32bit  16bit   8bit   4bit

예를 들어 7B 모델을 FP16으로 저장하면 대략 14GB 정도가 필요하다. 하지만 INT4로 양자화하면 약 4GB 수준까지 줄어들 수 있다.

이 차이가 꽤 크다. 14GB 모델은 일반 노트북에서 돌리기 부담스럽지만, 4GB 모델은 충분히 시도해볼 만한 크기가 된다.

물론 정밀도를 낮추면 성능 손실이 생긴다. 하지만 GPTQ, AWQ, GGUF 같은 최근 양자화 방식들은 손실을 꽤 줄여준다. 그래서 실제로 써보면 생각보다 괜찮은데? 싶은 경우가 많다.

3-3. Pruning

세 번째는 Pruning, 가지치기다.

모델 안에는 수많은 가중치, 뉴런, 어텐션 헤드가 있다. 그중에는 결과에 큰 영향을 주지 않는 부분도 있다.

Pruning은 이런 부분을 제거해서 모델을 더 가볍게 만드는 방식이다.

직관은 단순하다.

결과에 거의 영향을 주지 않는 값이라면, 굳이 계속 들고 있을 필요가 있을까?

Pruning에는 크게 두 가지 방식이 있다.

Structured pruning 레이어, 뉴런, 어텐션 헤드처럼 구조 단위로 제거한다.
Unstructured pruning 개별 가중치 단위로 제거한다.

structured pruning은 실제 하드웨어에서 속도 개선을 얻기 쉽고, unstructured pruning은 더 세밀하게 줄일 수 있지만 실제 추론 속도 개선으로 이어지기 어려운 경우도 있다.

3-4. 아키텍처 선택

모델을 작게 만드는 것만큼 중요한 건, 같은 크기 안에서 더 효율적으로 설계하는 것이다.

대표적으로 이런 기법들이 있다.

Grouped-Query Attention, GQA 여러 query head가 key/value projection을 공유해서 메모리 사용량을 줄인다.
Sliding Window Attention 전체 context를 매번 다 보는 것이 아니라, 일정한 윈도우 안의 토큰만 본다. Mistral 계열 모델에서 자주 언급된다.
Mixture of Experts, MoE 모델 전체를 항상 활성화하지 않고, 입력에 따라 일부 expert만 활성화한다.

이런 기법들은 작은 모델을 더 작게 만든다기보다는, 같은 자원으로 더 멀리 가기 위한 설계에 가깝다.

3-5. 데이터 품질

SLM 이야기를 할 때 빠지지 않는 표현이 있다.

Textbooks are all you need.

Microsoft Phi 시리즈가 보여준 중요한 인사이트는 데이터의 양보다 품질이 중요할 수 있다는 점이다.

물론 큰 모델은 엄청난 양의 데이터를 먹고 학습한다. 하지만 작은 모델은 무작정 데이터를 많이 넣는다고 좋아지기 어렵다. 오히려 잘 정제된 데이터, 설명이 좋은 데이터, 추론 과정을 잘 담은 데이터가 더 중요해진다.

Phi 계열 모델은 이런 방향을 잘 보여준다. 고품질 교과서형 데이터와 합성 데이터를 적극적으로 사용해서, 작은 크기에서도 꽤 좋은 추론 능력을 보여줬다.

이 지점이 재밌다. SLM은 단순히 큰 모델을 줄인 것이 아니라, 작은 모델에 맞는 학습 전략이 따로 필요하다는 것을 보여준다.

4. 대표적인 SLM들

1B~10B대에서 자주 언급되는 모델들은 다음과 같다. 모델 지형은 빠르게 바뀌기 때문에, 이 목록은 2026년 기준으로 참고 정도로 보는 게 좋다.

Phi, Microsoft 작은 크기에서도 강한 추론 능력을 보여준 모델 라인이다. “Textbooks are all you need” 논문과 함께 자주 언급된다.
Gemma, Google Gemini 계열 기술을 바탕으로 공개된 오픈웨이트 모델 라인이다. 2B, 7B 등 다양한 크기가 있다.
Llama 3.2 1B / 3B, Meta 모바일과 엣지 환경을 타겟으로 한 작은 Llama 모델이다. 큰 모델의 지식을 distillation한 라인으로 볼 수 있다.
Qwen, Alibaba 0.5B부터 다양한 크기를 제공한다. 다국어 성능이 좋은 편이라 한국어 환경에서도 자주 후보로 올라온다.
Mistral / Ministral, Mistral AI Mistral 7B는 경량 오픈 모델의 대표적인 사례였고, 이후 더 작은 Ministral 시리즈도 등장했다.
MiniCPM, OpenBMB 1~2B대의 작은 모델로, 모바일 환경을 꽤 의식한 모델이다.
Apple Intelligence 온디바이스 모델 Apple은 기기 안에서 도는 약 3B대 모델을 사용한다고 알려져 있다. 온디바이스 AI 흐름을 가장 대중적인 제품에서 보여준 사례라고 볼 수 있다.

5. LLM과의 트레이드오프

SLM이 좋다고 해서 LLM을 대체할 수 있는 것은 아니다. 둘은 역할이 다르다.

항목	LLM (70B+)	SLM (1~7B)
일반화·복잡 추론	◎	△
좁은 태스크 정확도	○	○, 파인튜닝 시
지연시간	△, 수 초	◎, 수백 ms
비용	×, 비쌈	◎, 단말에서는 거의 무료
프라이버시	△, 서버 전송 필요	◎, 온디바이스 가능
파인튜닝 난이도	×, 큰 자원 필요	○, 상대적으로 접근 가능

정리하면 SLM은 모든 일을 잘하는 모델이라기보다, 정해진 일을 빠르고 싸게 잘하는 모델에 가깝다. 그래서 실무에서는 보통 SLM과 LLM을 경쟁 관계로 보기보다, 함께 쓰는 경우가 많다.

예를 들면 이런 식이다.

SLM이 먼저 입력을 분류한다.
간단한 요청은 SLM이 바로 처리한다.
복잡한 요청은 LLM으로 넘긴다.
LLM이 만든 답변을 SLM이 요약하거나 후처리한다.
평소에는 SLM을 쓰고, 신뢰도가 낮을 때만 LLM으로 fallback한다.

이런 하이브리드 구조가 꽤 현실적이다.

LLM은 비싸지만 강하고, SLM은 작지만 빠르다. 둘을 잘 섞으면 비용과 품질 사이에서 꽤 좋은 균형점을 만들 수 있다.

6. 가볍게 시도해 볼 만한 것

로컬 모델은 “생각보다 잘하는 부분”과 “생각보다 쉽게 무너지는 부분”이 꽤 명확하게 보인다.

1) SLM 돌려보기

Ollama 같은 툴을 쓰면 한 줄로 모델을 받아서 실행할 수 있다.

bash

ollama run phi3:mini
ollama run llama3.2:3b
ollama run qwen2.5:3b

같은 질문을 GPT-4급 모델과 로컬 SLM에 동시에 던져보면 차이가 잘 보인다. 예를 들어 이런 태스크를 비교해볼 수 있다.

짧은 글 요약
문장 분류
JSON 추출
이메일 답장 초안 만들기
한국어 문장 다듬기
코드 설명하기

해보면 의외로 간단한 태스크에서는 SLM도 꽤 잘한다. 반대로 긴 문맥을 유지해야 하거나, 복잡한 추론을 해야 하거나, 모호한 요구사항을 해석해야 하는 작업에서는 차이가 벌어진다.

2) 양자화 크기별 비교

같은 모델이라도 양자화 정도에 따라 메모리 사용량, 속도, 품질이 달라진다.

bash

ollama run llama3.2:3b-instruct-q4_K_M   # ~2GB, 빠름
ollama run llama3.2:3b-instruct-q8_0     # ~3.4GB, 더 정확
ollama run llama3.2:3b-instruct-fp16     # ~6.4GB, 가장 정확

비교할 때는 이런 질문을 해보면 좋다.

답변 품질이 눈에 띄게 달라지는 지점은 어디인가?
한국어 답변이 어느 정밀도부터 어색해지는가?
긴 문맥을 넣었을 때 어느 시점부터 무너지는가?
노트북 RAM 사용량은 얼마나 달라지는가?
응답 속도 차이는 실제 사용에 영향을 줄 정도인가?

작은 양자화 모델이 어디까지 버티고, 어디서부터 부서지는지를 직접 보면 쓸 만한 경량 모델에 대한 감이 생길 것 같다.

마무리

모든 AI 기능이 거대한 모델 하나로만 동작하지는 않을 것이다. 오히려 제품 안에서는 여러 모델이 역할을 나눠 가질 가능성이 큰데, 작은 모델이 먼저 분류하고, 필요할 때 큰 모델이 깊게 추론하고, 다시 작은 모델이 요약하거나 정리하는 식이다.

그런 의미에서 SLM은 단순한 경량화 트렌드가 아니라, AI를 실제 제품 안에 넣기 위한 꽤 중요한 방향 중 하나라고 생각한다.