[TIL] 에디터 서비스의 AI 유저 테스트 시나리오 설계

페르소나 프레임워크에서 "누구를" 테스트할지를 정리했다. 이 글에서는 "무엇을, 어떻게" 테스트할지 - 즉 시나리오 설계를 다룬다.

첫 번째 AI 유저 테스트 글에서 살펴봤듯이, 합성 유저의 정확도는 구체적인 맥락을 얼마나 제공하느냐에 달려있다. 시나리오도 마찬가지다. "이 에디터를 써보세요"가 아니라, 구체적인 상황, 목표, 제약 조건을 설정해야 의미 있는 반응을 얻을 수 있다.

시나리오의 구조

에디터 서비스의 AI 유저 테스트 시나리오는 다음 요소로 구성된다.

text

시나리오 구성 요소:
 
1. 상황 (Context)
   → 이 사람이 왜 지금 에디터를 열었는가
   → 업무적 맥락, 시간 압박, 협업 상황
 
2. 목표 (Goal)
   → 에디터에서 무엇을 완성해야 하는가
   → 구체적이고 측정 가능한 결과물
 
3. 제약 (Constraints)
   → 시간, 도구 숙련도, 소재 유무, 협업 상대
   → 이 제약이 행동 방식을 결정한다
 
4. 판단 기준 (Success Criteria)
   → 이 시나리오에서 관찰하고 싶은 것
   → 유저가 성공했는지 실패했는지의 기준

시나리오는 기능이 아니라 상황이다

"Auto Layout 기능을 테스트한다"는 시나리오가 아니다. "시니어 디자이너가 디자인 시스템 컴포넌트를 Auto Layout으로 재구성해야 하는데, 기존 오버라이드가 깨질까 걱정하고 있다"가 시나리오다. 기능은 같지만 상황에 따라 유저의 접근 방식, 기대, 좌절 지점이 완전히 달라진다.

시나리오 유형 분류

에디터 서비스에서 테스트해야 할 시나리오는 크게 6가지 유형으로 분류할 수 있다.

1. 온보딩 / 첫 경험

에디터를 처음 접하는 유저가 초기 설정과 첫 작업을 수행하는 시나리오다. 진입 장벽, 학습 곡선, 첫인상을 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나]가 [이유]로 이 에디터를 처음 열었다.
       이전에는 [다른 도구]를 사용했다.
목표:  [구체적인 첫 번째 작업]을 완성한다.
제약:  에디터에 대한 사전 지식이 없다. [시간] 안에 끝내야 한다.
관찰:  어디서 멈추는가? 무엇을 먼저 찾는가? 도움말을 사용하는가?

적합한 페르소나: 도구 숙련도가 낮은 사람, 다른 도구에서 전환하는 사람

text

예시 A: 도구 전환
 
  페르소나:  소영 (마케터, Canva 상급, 이 에디터는 처음)
  상황:     회사가 Canva에서 이 에디터로 전환을 결정했다.
           팀장이 "이번 주 배너는 새 도구로 만들어봐"라고 했다.
  목표:     인스타그램 이벤트 배너 1장을 완성한다.
  제약:     Canva에서 쓰던 워크플로우(템플릿 선택 → 텍스트 수정 → 다운로드)를
           기대하고 있다. 30분 안에 끝내야 다음 업무로 넘어갈 수 있다.
 
  관찰 포인트:
  - 템플릿을 찾는 경로 (있는 경우 / 없는 경우 각각 어떻게 반응하는가)
  - Canva와 다른 인터페이스에서 혼란을 느끼는 지점
  - 30분이 지나도 완성하지 못하면 어느 시점에서 포기하는가

text

예시 B: 완전 초보
 
  페르소나:  도윤 (사업부장, 에디터 경험 없음)
  상황:     팀원이 공유 링크를 보냈다. "여기에 코멘트 달아주세요."
  목표:     특정 화면의 카피에 수정 의견을 코멘트로 남긴다.
  제약:     에디터 계정이 없다. 모바일에서 링크를 열었다.
 
  관찰 포인트:
  - 로그인/회원가입 없이 코멘트를 남길 수 있는가
  - 코멘트를 남기는 방법을 스스로 찾을 수 있는가
  - "어디에 코멘트를 달아야 하는지" 화면을 찾을 수 있는가

2. 핵심 작업 수행

에디터의 주요 기능을 사용해서 실질적인 결과물을 만드는 시나리오다. 기능의 사용성, 효율성, 결과물 품질을 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나]가 [업무 맥락]에서 [작업]을 해야 한다.
       [이전 경험/기대]가 있다.
목표:  [구체적인 결과물]을 만든다.
제약:  [시간/품질/소재 제약]. [협업 상대]가 기다리고 있다.
관찰:  기능을 어떤 순서로 사용하는가? 기대와 다른 동작에 어떻게 반응하는가?

적합한 페르소나: 도구 숙련도가 중급 이상인 사람

text

예시 A: 고밀도 디자인 작업
 
  페르소나:  수진 (시니어 디자이너, Expert)
  상황:     새로운 대시보드 페이지를 설계해야 한다.
           기존 디자인 시스템 컴포넌트를 조합해서 만든다.
  목표:     데이터 테이블 + 필터 + 차트가 포함된 대시보드 화면 1장.
  제약:     디자인 시스템의 기존 컴포넌트를 재사용해야 한다.
           개발팀 핸드오프가 내일이라 오늘 안에 끝내야 한다.
 
  관찰 포인트:
  - 컴포넌트를 찾고 배치하는 효율성
  - Auto Layout / 그리드 시스템 사용 패턴
  - 기존 컴포넌트를 변형할 때 오버라이드 관리 방식
  - 레이어 네이밍과 파일 구조 습관

text

예시 B: 비디자이너의 시각 작업
 
  페르소나:  승호 (백엔드 개발자, 에디터 초급, 디자인 배경 없음)
  상황:     디자이너 없이 내부 어드민 페이지를 직접 만들어야 한다.
  목표:     유저 목록 + 상세 정보 + 수정 폼이 있는 어드민 화면 목업.
  제약:     "디자인은 대충 해도 되지만 구조는 명확해야 한다."
           2시간 안에 개발 시작해야 한다.
 
  관찰 포인트:
  - 빈 캔버스에서 어떻게 시작하는가 (템플릿? 레퍼런스? 바로 그리기?)
  - 정렬/간격을 맞추는 전략 (눈대중? 숫자 입력? 정렬 기능?)
  - "이걸 코드로 하면 더 빠른데"라고 느끼는 시점이 있는가
  - 결과물의 시각적 품질에 대한 자기 평가

3. 새 기능 발견과 학습

기존 유저가 새로 추가된 기능을 발견하고, 이해하고, 자기 워크플로우에 통합하는 시나리오다. 기능의 발견 가능성(discoverability), 학습 용이성, 기존 워크플로우와의 호환성을 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나]가 평소처럼 [일상 작업]을 하고 있다.
       [새 기능]이 추가되었지만 사전 안내는 [있음/없음].
목표:  [일상 작업]을 완성한다. (새 기능을 쓰는 것이 목표가 아님)
제약:  새 기능의 존재를 [알고 있음/모름]. 기존 방식으로도 할 수 있다.
관찰:  새 기능을 발견하는가? 시도하는가? 기존 방식으로 돌아가는가?

text

예시: AI 자동 레이아웃 기능 출시
 
  페르소나 A: 수진 (Expert)
  상황:     릴리즈 노트에서 AI 레이아웃 기능을 읽었다.
           평소 하던 대시보드 작업을 시작한다.
  관찰:     어느 시점에 AI 기능을 시도하는가?
           결과에 만족하는가? 수동 조정이 필요한가?
           기존 워크플로우에 통합할 의향이 있는가?
 
  페르소나 B: 민수 (주니어)
  상황:     릴리즈 노트를 안 읽었다. 평소처럼 상세 화면을 만들고 있다.
  관찰:     UI에서 새 기능의 진입점을 발견하는가?
           발견했다면 시도하는가, 무시하는가?
           시도 후 결과가 기대와 다르면 어떻게 반응하는가?
 
  페르소나 C: 태현 (창업자, 초중급)
  상황:     앱 업데이트 팝업에서 "AI 레이아웃" 안내를 봤다.
  관찰:     AI에 대한 기대치가 얼마나 높은가?
           결과가 기대에 못 미치면 어떤 감정을 느끼는가?
           재시도하는가, 기존 방식으로 돌아가는가?

새 기능 테스트의 핵심

새 기능 테스트에서 가장 중요한 관찰은 **"기존 방식으로 돌아가는 순간"**이다. 유저가 새 기능을 시도했다가 기존 방식으로 돌아가면, 그 이유가 곧 개선 포인트다. 시나리오에서 "기존 방식으로도 할 수 있는 상황"을 설정하는 이유가 이것이다.

4. 협업

여러 역할의 유저가 함께 작업하거나 리뷰하는 시나리오다. 권한 체계, 코멘트, 버전 관리, 실시간 협업의 사용성을 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나 A]가 [작업]을 했고, [페르소나 B]에게 [요청]을 한다.
목표:  A의 결과물에 대해 B가 [리뷰/수정/승인]을 완료한다.
제약:  A와 B의 도구 숙련도가 다르다. [동기/비동기] 협업이다.
관찰:  핸드오프 과정에서 정보가 유실되는 지점은? 소통의 마찰은?

text

예시: 디자인 리뷰 플로우
 
  페르소나 A:  수진 (시니어 디자이너)
  행동:       대시보드 디자인을 완성하고, PM에게 리뷰를 요청했다.
 
  페르소나 B:  지현 (PM, 디자인 경험 있음)
  상황:       수진이 공유한 링크를 열었다. 3개 화면에 대해 피드백을 줘야 한다.
  목표:       각 화면에 구체적인 수정 요청 코멘트를 남긴다.
  제약:       미팅 전 15분 안에 리뷰를 끝내야 한다.
 
  관찰 포인트:
  - 3개 화면을 어떤 순서로 보는가 (전체 훑기 → 상세? 하나씩 순서대로?)
  - 코멘트를 화면의 특정 위치에 남기는가, 전체적인 피드백만 남기는가
  - 디자인 의도를 이해하지 못하는 부분이 있는가
  - 15분 안에 끝낼 수 있는가
 
  이어서 -
 
  페르소나 C:  도윤 (사업부장, 에디터 경험 없음)
  상황:       지현이 "부장님도 한번 봐주세요"라며 같은 링크를 전달했다.
  목표:       전체 방향에 대한 의견을 남긴다.
 
  관찰 포인트:
  - 지현(PM)과 도윤(사업부장)의 리뷰 행동이 어떻게 다른가
  - 도윤이 코멘트 기능을 찾을 수 있는가
  - 도윤이 어디서 포기하고 슬랙/이메일로 전환하는가

5. 에러 복구 / 예외 상황

작업 중 예상치 못한 문제가 발생했을 때의 대응을 테스트하는 시나리오다. 에러 메시지의 명확성, 되돌리기 기능, 데이터 손실 방지를 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나]가 [작업] 중에 [문제 상황]이 발생한다.
목표:  문제를 해결하고 작업을 이어간다.
제약:  [작업량]만큼의 작업이 이미 진행된 상태다.
관찰:  에러를 인지하는가? 원인을 이해하는가? 복구할 수 있는가?

text

예시 A: 대규모 작업 중 성능 문제
 
  페르소나:  수진 (Expert)
  상황:     200개 이상의 컴포넌트가 있는 대형 파일에서 작업 중이다.
           갑자기 에디터가 느려지고 일부 조작이 반응하지 않는다.
  관찰:     성능 저하를 어떤 시점에 인지하는가?
           자체적으로 해결을 시도하는가? (파일 분할, 불필요한 레이어 삭제 등)
           에디터가 제공하는 성능 관련 안내가 있다면 따르는가?
 
예시 B: 실수로 대량 삭제
 
  페르소나:  민수 (주니어)
  상황:     레이어를 정리하다가 실수로 완성된 화면 하나를 통째로 삭제했다.
  관찰:     삭제를 즉시 인지하는가, 한참 후에 알아채는가?
           Cmd+Z로 복구를 시도하는가?
           버전 히스토리 기능을 알고 있는가, 찾을 수 있는가?
           복구에 실패하면 어떤 감정을 느끼는가? (패닉? 체념?)

6. 장기 사용 / 습관 형성

한 번의 세션이 아니라, 시간이 지남에 따라 유저의 행동이 어떻게 변하는지를 테스트하는 시나리오다. 기능 채택, 습관 형성, 고급 기능으로의 점진적 이동을 테스트한다.

text

시나리오 템플릿:
 
상황:  [페르소나]가 이 에디터를 [기간] 동안 사용해왔다.
       처음에는 [초기 사용 패턴]이었지만, 지금은 [현재 사용 패턴]이다.
목표:  [이전에는 안 하던 작업]을 시도한다.
관찰:  어떤 기능을 자연스럽게 채택했는가? 여전히 안 쓰는 기능은?

text

예시: 3개월 사용 후
 
  페르소나:  태현 (창업자, 초중급)
  상황:     3개월 전 처음 시작했을 때는 기본 도형만 사용했다.
           지금은 컴포넌트 개념을 어렴풋이 이해하고 있다.
  목표:     투자 발표용 프로토타입을 만들어야 한다.
           이전에는 정적 화면만 만들었는데, 이번엔 클릭 가능한 프로토타입이 필요하다.
  관찰:     프로토타이핑 기능을 자력으로 찾고 학습할 수 있는가?
           3개월간 쌓인 경험이 새 기능 학습에 도움이 되는가?
           어느 지점에서 "이건 내 수준에서 무리다"라고 판단하는가?

시나리오 × 페르소나 매트릭스

모든 시나리오를 모든 페르소나로 테스트할 필요는 없다. 시나리오 유형별로 가장 의미 있는 페르소나 조합을 선택한다.

시나리오 유형	핵심 페르소나	이유
온보딩	도구 전환자, 완전 초보, 비전문가	첫 경험의 마찰 지점 발견
핵심 작업	Expert, 중급, 비디자이너	숙련도별 효율성 차이 관찰
새 기능	Expert + 초보 + 비전문가	스펙트럼 양 끝의 반응 대비
협업	역할이 다른 2~3명 조합	핸드오프 마찰, 소통 격차
에러 복구	Expert + 주니어	자력 복구 가능 여부 차이
장기 사용	초보 → 중급으로 성장 중인 사람	습관 형성, 고급 기능 채택

LLM 프롬프트로 변환하기

위의 시나리오를 실제 AI 유저 테스트에 사용하려면, 페르소나 + 시나리오를 LLM 프롬프트로 조합해야 한다.

프롬프트 구조

text

[시스템 프롬프트]
 
너는 에디터 서비스의 유저빌리티 테스트에 참여하는 합성 유저다.
아래 페르소나와 시나리오에 따라 행동하라.
 
행동 규칙:
- 페르소나의 숙련도 수준에 맞게 반응하라
- 모르는 기능은 "모른다"고 표현하라
- 기대와 다른 동작에는 좌절이나 혼란을 표현하라
- 단계별로 think-aloud 방식으로 생각 과정을 서술하라
 
──────────────────────
 
[페르소나]
{페르소나 프레임워크에서 생성한 상세 프로필}
 
──────────────────────
 
[시나리오]
상황: {구체적 상황}
목표: {달성해야 할 것}
제약: {시간, 숙련도, 협업 등}
 
──────────────────────
 
[테스트 대상]
{에디터의 스크린샷, 프로토타입 URL, 또는 기능 설명}
 
──────────────────────
 
이 시나리오에서 당신의 행동을 단계별로 서술하라.
각 단계에서:
1. 무엇을 하려고 하는지
2. 화면에서 무엇을 찾고 있는지
3. 기대한 것과 실제 동작이 다른 지점
4. 느끼는 감정 (만족, 혼란, 좌절 등)

예시: 완성된 프롬프트

text

[페르소나]
승호는 백엔드 개발자(3년차)다. 디자이너 없는 25인 스타트업에서
가끔 어드민 페이지 UI를 직접 만든다.
- 기술 리터러시 Level 3: Node.js/Python 주력, CSS는 싫어함
- 디자인 리터러시 Level 0: "이쁘다/안 이쁘다"는 느끼지만 원리는 모름
- 에디터 숙련도: 초급. Figma는 팀에서 쓰라고 해서 열어본 수준
- 기능을 찾을 때 메뉴보다 검색(Cmd+/)을 먼저 시도한다
- 정렬이 안 맞으면 좌표를 숫자로 직접 입력하려 한다
- "이거 코드로 하는 게 더 빠르겠는데"라고 자주 생각한다
 
[시나리오]
상황: 유저 관리 어드민 페이지의 목업을 만들어야 한다.
      유저 목록 테이블 + 상세 정보 패널 + 수정 폼.
      프론트엔드 개발자에게 "대충 이런 느낌"을 보여주기 위한 것이다.
목표: 1개 화면의 목업을 완성한다.
제약: 2시간 안에 끝내야 한다. 템플릿이 있으면 쓰고 싶다.
 
[테스트 대상]
{에디터의 빈 캔버스 상태 스크린샷}
 
이 시나리오에서 승호의 행동을 단계별로 서술하라.

시나리오 설계 시 흔한 실수

1. 시나리오가 너무 추상적

text

❌ "이 에디터로 배너를 만들어보세요"
   → 어떤 배너? 누구를 위한? 소재는 있는지? 시간 제한은?
   → LLM이 일반적이고 무난한 행동만 생성
 
✅ "인스타그램 이벤트 배너를 만들어야 한다. 이미지 소재 3장과
   카피가 준비되어 있다. 브랜드 컬러는 #FF6B35다.
   디자이너가 없어서 직접 만들어야 하고, 30분 안에
   마케팅 채널에 올려야 한다."

2. 페르소나의 한계를 무시

text

❌ 도윤(사업부장, 에디터 경험 없음)에게 "디자인 시스템 컴포넌트를
   활용해서 대시보드를 설계하세요"
   → 이 사람이 할 수 없는 작업. 비현실적인 시나리오
 
✅ 도윤에게 "팀원이 보낸 대시보드 디자인 링크를 열고,
   전체 방향에 대한 의견을 코멘트로 남기세요"
   → 이 사람의 실제 업무에 맞는 시나리오

3. 성공만 기대

text

❌ "유저가 새 기능을 성공적으로 사용하는 과정을 서술하라"
   → LLM이 무조건 성공하는 스토리를 생성
 
✅ "유저가 이 기능을 사용하려고 시도하는 과정을 서술하라.
   혼란, 좌절, 포기, 기존 방식으로의 회귀를 포함하여
   있는 그대로 서술하라."

4. 단일 페르소나만 테스트

같은 시나리오를 최소 3명의 다른 페르소나로 돌려야 의미 있는 패턴이 보인다. 숙련도 스펙트럼의 양 끝 + 중간을 최소 단위로 잡는다.

정리

text

시나리오 설계 체크리스트:
 
□ 상황이 구체적인가? (왜 지금 에디터를 열었는가)
□ 목표가 측정 가능한가? (무엇을 완성해야 하는가)
□ 제약이 현실적인가? (시간, 숙련도, 협업 상대)
□ 페르소나의 숙련도에 맞는 시나리오인가?
□ 실패/좌절/포기도 허용하는 서술인가?
□ 같은 시나리오를 최소 3명의 다른 페르소나로 돌리는가?
□ 관찰하고 싶은 것이 명확한가?

시나리오 유형	관찰 대상	핵심 질문
온보딩	진입 장벽, 첫인상	"처음 30초에 무엇을 하는가?"
핵심 작업	효율성, 기능 활용도	"목표를 달성하는 데 얼마나 걸리는가?"
새 기능	발견 가능성, 채택 의향	"기존 방식으로 돌아가는 순간은?"
협업	핸드오프 마찰, 소통	"역할 간 정보 유실 지점은?"
에러 복구	복구 가능성, 데이터 안전	"자력으로 복구할 수 있는가?"
장기 사용	습관 형성, 성장	"3개월 후 어떤 기능을 채택했는가?"

레퍼런스

학술 연구

"Whose Personae? Synthetic Persona Experiments in LLM Research" - AAAI 2025. 합성 페르소나에 구체적 맥락이 필수인 이유
"Use Cases for Design Personas" - CHI 2022. 테스트 목적에 따른 페르소나 범위 설정

UX 리서치

NN/g - Evaluating AI-Simulated Behavior - 합성 유저의 정확도와 한계
NN/g - Task Scenarios for Usability Testing - 사용성 테스트 시나리오 작성 가이드
NN/g - Thinking Aloud - Think-aloud 프로토콜

도구

Uxia - UI 탐색형 합성 유저 테스트
Synthetic Users - 인터뷰형 합성 유저 테스트