[TIL] AI 유저 테스트

유저 테스트가 잡아내는 것

제품을 만드는 사람은 자기 제품을 유저 관점에서 보지 못할 확률이 높다. 개발자는 플로우를 다 알고 있고, 디자이너는 의도를 다 알고 있다. 거기서 오는 문제가 있다.

좋은 유저 테스트는 이런 것들을 잡아낸다.

유저가 어디서 멈추는가 - 버튼을 못 찾거나, 다음 단계가 뭔지 모르는 순간
유저가 무엇을 오해하는가 - 라벨, 에러 메시지, 플로우의 의미를 다르게 해석하는 순간
유저가 왜 이탈하는가 - 불안, 불신, 귀찮음 같은 감정적 이유
유저가 예상 밖의 행동을 하는가 - 설계자가 전혀 의도하지 않은 경로

이 중에서 앞의 두 가지는 관찰로 잡을 수 있다. 뒤의 두 가지는 대화로 알 수 있다. AI가 이 중 어디까지 커버할 수 있는지, 현재 어떤 툹들이 이용되는지 살펴보는 것이 이 글의 주요 목적이다.

합성 유저라는 아이디어

최근 등장한 AI 유저 테스트 도구들은 합성 유저(Synthetic Users) 라는 개념을 쓴다. LLM으로 가상의 유저 페르소나를 만들고, 그 페르소나가 디자인을 탐색하거나 인터뷰에 응답하게 하는 방식이다.

접근 방식에 따라 크게 세 갈래로 나뉜다.

UI 탐색형 → 합성 유저가 화면을 직접 클릭하며 탐색 (cf. Uxia)
인터뷰형 → 합성 유저와 정성 인터뷰 진행 (cf. Synthetic Users)
행동 모델링형 → 실제 행동 로그 기반으로 유저 시뮬레이션 (cf. Blok)

각각이 잡을 수 있는 것과 못 잡는 것이 다르다.

도구들 살펴보기

Uxia - UI를 직접 탐색하는 합성 유저

Uxia는 합성 유저가 실제로 화면을 탐색한다. Figma 프로토타입이나 라이브 URL을 넣으면, AI가 클릭하고 스크롤하며 폼을 채운다.

무엇을 볼 수 있나

산출물	잡아내는 것
Think-aloud 트랜스크립트	합성 유저가 탐색하면서 생각한 과정을 텍스트로 기록. 실제 UT의 think-aloud 프로토콜을 시뮬레이션
인터랙션 히트맵	어디를 클릭했고, 어디서 머뭇거렸고, 어디까지 스크롤했는지 시각화
유저빌리티 이슈 플래깅	내비게이션 혼란, 카피 문제, 접근성 위반을 자동으로 감지
SUS/UMUX 점수	표준 유저빌리티 설문을 합성 유저가 응답하여 점수 산출
접근성 리포트	WCAG 2.1 AA/AAA 기준 자동 검사

퀄리티 관점에서 보면, Think-aloud 트랜스크립트의 깊이가 관건이다. 실제 유저의 think-aloud는 "어... 이거 뭐지? 아 그냥 뒤로 갈래" 같은 생생한 감정과 혼란이 담기는데, 합성 유저의 think-aloud가 이 수준의 자연스러움을 보여주는지는 직접 써봐야 알 수 있을 것 같다.

Synthetic Users - AI 페르소나와 인터뷰

Synthetic Users는 UI 탐색이 아닌 대화형 인터뷰다. AI 페르소나를 만들고, 그 페르소나에게 질문을 던진다.

테스트 플로우

페르소나 정의 - 구체적인 유저 프로파일 설정
문제 정의 - 어떤 문제를 탐구할 것인가
솔루션 제시 - 테스트할 컨셉이나 아이디어
인터뷰 실행 - OCEAN(빅파이브) 성격 모델 기반 페르소나 최대 10명 생성
결과 분석 - 트랜스크립트 + 무제한 추가 질문 + 인사이트 리포트

핵심 기술 - Chain-of-Feeling

일반적인 LLM은 Chain-of-Thought로 논리적 추론만 한다. Synthetic Users는 여기에 Chain-of-Feeling을 추가했다. 각 합성 유저에게 OCEAN 성격 프로파일을 부여해서, 감정의 흐름까지 시뮬레이션한다. 신경증 점수가 높은 유저는 빠르게 좌절하고, 친화성이 높은 유저는 오래 참는 식이다.

4가지 인터뷰 유형을 지원한다.

Problem Exploration - 유저 행동, 페인 포인트, 맥락 탐색
Solution Feedback - 아이디어/컨셉에 대한 반응
Custom Script - 직접 작성한 인터뷰 스크립트
Standard Interview - 일반 대화형

퀄리티 관점에서 보면, 정성 인터뷰의 가치는 예상 밖의 답변에 있다. 유저가 "그건 필요 없고, 사실 진짜 불편한 건 이거예요"라고 말하는 순간이 인터뷰의 핵심인데, LLM 기반 합성 유저가 이런 전복적 응답을 할 수 있는지 궁금하긴 하다.

Blok - 실제 행동 데이터 기반 시뮬레이션

Blok은 접근이 근본적으로 다르다. 범용 LLM이 아니라, 해당 제품의 실제 유저 행동 데이터로 페르소나를 구축한다.

테스트 플로우

이벤트 로그 데이터 연동 (Amplitude, Mixpanel, Segment 등)
실제 사용 패턴 기반 페르소나 자동 생성 (충동적 유저, 회의적 유저, 꼼꼼한 유저 등)
Figma 프로토타입 + 가설 + 목표 제출
페르소나별 반복 시뮬레이션
페르소나별 리포트 + 챗봇 질의

현재 웨이트리스트 기반 선별 온보딩 중이다.

퀄리티 관점에서 보면, 앞의 두 도구와 달리 자사 제품의 실제 데이터가 바탕이라는 점이 중요하다. 범용 LLM의 일반적 지식이 아니라, 내 제품을 실제로 쓰는 사람들의 행동 패턴에서 출발한다. 뒤에서 다룰 연구 결과들이 공통적으로 가리키는 방향과 일치하는 접근이다.

연구 결과 - 합성 유저의 테스트 퀄리티

합성 유저가 실제 유저를 얼마나 잘 대신하는지, 여러 연구를 살펴봤다.

잘 되는 경우

스탠포드 - 1,000명 시뮬레이션 연구 (2024)

1,052명을 대상으로 2시간씩 심층 인터뷰 후, 이 데이터로 제너레이티브 에이전트를 만들었다. 참가자 본인이 2주 뒤 답한 것 대비 85% 정확도를 달성했다. 성격 특성과 실험 결과 예측에서도 비교할 만한 수준이었다.

핵심은 풍부한 실제 인터뷰 데이터가 바탕이었다는 점이다.

PyMC Labs - 합성 소비자 연구

57개 실제 소비자 설문(9,300명 응답)과 비교했다. LLM에게 직접 1~5점 평가를 시키면 비현실적인 분포가 나온다. 하지만 Semantic Similarity Rating이라는 방법을 적용하면 제품 순위 상관관계 90%, 분포 유사도 85%+ 를 달성했다.

NNg - 디지털 트윈 후속 연구 (2025)

실제 인터뷰 데이터를 기반으로 만든 디지털 트윈의 경우, 정확도 0.79~0.83을 달성하며 5개 실험 중 4개를 성공적으로 재현했다. 인터뷰 트랜스크립트를 80% 줄여도 정확도가 유지되었다.

세 연구 모두 공통점이 있다. 실제 유저 데이터를 충분히 먹였을 때만 정확하다.

안 되는 경우

닐슨 노먼 그룹(NNg) - 합성 유저 직접 평가

UX 업계 권위 기관인 NNg가 합성 유저를 직접 테스트했다.

합성 유저는 인간 행동의 끔찍한 예측자다?

실제 유저가 문제를 제기한 기능을 합성 유저는 칭찬
학술 문헌에 나오는 이상적 행동을 예측하지, 실제 행동은 예측하지 못함
응답이 일차원적이고 깊이가 없음

UC 버클리 연구자 실사용기 (2023 기준)

Niloufar Salehi(UC 버클리)가 Synthetic Users를 직접 써보고 블로그에 공유한 후기다. 이 사례가 합성 유저의 한계를 가장 선명하게 보여준다.

"영어를 못하는 오클랜드 저소득 이민자 부모" 페르소나로 6명 인터뷰 생성
6명 중 일부가 온두라스, 파키스탄, 이란 거주자로 생성됨 (설정과 다른 인구통계)
합성 유저들은 학교 정보 대시보드를 평균 3.4/5점, "매우 유용하다"고 평가
실제 몇 달간의 현장 인터뷰 결과: 부모들에게 필요한 건 대시보드가 아니라 신뢰할 수 있는 사람과의 관계였음

합성 유저는 "이 대시보드 UI가 혼란스러운가?"에는 답할 수 있었을지 모른다. 하지만 "이 대시보드가 애초에 필요한가?"라는 질문에는 답하지 못했다.

Loop11 - 태스크 수행 비교

프로토타입 웹사이트에서 AI vs 실제 유저를 비교한 결과:

태스크 성공률: AI 0%에서 25% 사이 vs 실제 유저 62%에서 95% 사이
AI는 더 오래 걸리고, 같은 페이지를 반복 방문하며, 플레이스 홀더를 해석하지 못함

Emporia Research - 응답 분포 비교

만족도 질문: 실제 응답자 47% "어느 정도 만족" vs 합성 유저 69% "매우 만족"
실제 응답 범위 3에서 10점, 합성 응답 범위 6에서 10점
합성 유저는 긍정 쪽으로 쏠리고, 다양성이 부족

합성 유저의 우려되는 품질 한계점?

연구들에서 반복적으로 나타나는 패턴이 있다.

아첨 경향 (Sycophancy)

합성 유저는 제시된 컨셉에 대해 지나치게 긍정적으로 반응한다. 실제 유저가 "이건 좀 별로인데요"라고 말하는 기능을 합성 유저는 "유용할 것 같습니다"라고 평가한다.

분산 부족

실제 유저 응답은 넓게 퍼진다. 같은 기능에 대해 1점부터 10점까지 다양한 의견이 나온다. 합성 유저는 6~10점에 몰린다. 극단적인 불만이나 예상 밖의 시각이 빠진다는 뜻이다.

이상적 행동 예측

합성 유저는 유저가 실제로 하는 행동이 아니라, 해야 하는 행동을 예측한다. 학술 문헌이나 UX 가이드라인에 나오는 이상적 패턴을 따르는 경향이 있다. 실제 유저가 보여주는 비합리적이고 맥락 의존적인 행동을 포착하지 못한다.

맥락 부재

훈련 데이터에 없는 현실 세계의 맥락은 반영하지 못한다. Salehi의 사례처럼, 특정 커뮤니티의 문화적 맥락이나 신뢰 구조 같은 것은 LLM이 학습할 수 없는 영역이다.

정확도를 올리는 조건

부정적인 결과만 있는 건 아니다. 연구들이 공통적으로 가리키는 방향이 있다.

text

정확도 낮음  ←  범용 LLM 지식만 사용
정확도 중간  ←  인구통계 + 행동 특성 정의
정확도 높음  ←  실제 유저 인터뷰/행동 데이터 기반

스탠포드가 85%를 달성한 것도, NNg의 디지털 트윈이 0.83을 보인 것도, 모두 풍부한 실제 데이터가 바탕이었다. 합성 유저의 품질은 결국 투입하는 실제 데이터의 품질에 비례한다.

이건 직관적으로도 맞다. AI에게 "20대 여성 유저처럼 행동해"라고만 하면 LLM 학습 데이터의 평균적 패턴을 따를 수밖에 없다. 하지만 "이 유저가 지난 3개월간 이런 행동을 했다"는 데이터를 주면, 훨씬 구체적인 시뮬레이션이 가능하다.

잘 잡는 것과 못 잡는 것

	합성 유저가 잡을 수 있는 것	합성 유저가 못 잡는 것
UI	깨진 플로우, 혼란스러운 내비게이션, 접근성 위반	미묘한 시각적 위계 문제, 브랜드 신뢰감
카피	라벨 혼동, 에러 메시지 이해 불가	톤앤매너의 적절성, 문화적 뉘앙스
플로우	명백히 비효율적인 단계, 반복 루프	감정적 이탈 원인 (불안, 귀찮음)
컨셉	A/B 중 명백히 나은 쪽 선별	컨셉 자체의 유효성 ("이게 진짜 필요한가?")
인사이트	가설 생성 ("여기서 막힐 수 있겠다")	예상 밖의 발견 ("이런 식으로 쓸 줄 몰랐다")

왼쪽은 논리적으로 판단 가능한 것이고, 오른쪽은 맥락과 감정이 필요한 것이다. 현재 합성 유저는 왼쪽에서만 유효하다.

도구 비교

	Uxia	Synthetic Users	Blok
접근	UI를 직접 탐색	페르소나와 인터뷰	행동 데이터 기반 시뮬레이션
입력	Figma/URL/이미지	연구 질문 + 페르소나 정의	이벤트 로그 + Figma
출력	히트맵, Think-aloud, SUS 점수	인터뷰 트랜스크립트, 인사이트 리포트	페르소나별 리포트, 챗봇 질의
데이터 소스	범용 LLM	범용 LLM + OCEAN 모델	자사 제품 행동 로그
잘 잡는 것	UI/플로우 유저빌리티 이슈	페인 포인트 탐색, 컨셉 초기 반응	페르소나별 행동 차이
못 잡는 것	감정적 반응, 맥락 의존 행동	아첨 경향, 전복적 인사이트	아직 초기 단계라 검증 부족

생각 정리

합성 유저는 유저 테스트를 대체하는 게 아니라 확장하는 도구다.

2024년 정도 기준으로 현실적인 위치는 아래와 같은데,