이전 글에서 합성 유저(Synthetic User)를 활용한 AI 유저 테스트를 살펴봤다. 합성 유저의 품질은 페르소나 설계의 구체성에 달려있다. 단순히 "30대 디자이너"라고 쓰면 LLM은 평균적이고 무난한 응답만 내놓는다.
AAAI 2025에서 발표된 "Whose Personae? Synthetic Persona Experiments in LLM Research"에 따르면, 63편의 합성 페르소나 연구 중 35%만이 페르소나의 대표성을 논의했고, 대부분이 사회인구학적 속성(나이, 성별)에만 의존했다. NN/g의 AI 시뮬레이션 평가 연구에서도, 인구통계 기반 합성 유저보다 인터뷰 데이터 기반 합성 유저가 훨씬 정확한 예측을 했다.
즉, 좋은 AI 유저 테스트를 하려면 페르소나에 행동 패턴, 도구 경험, 직무 맥락, 기술 리터러시까지 구체적으로 설정해야 한다.
이 글에서는 에디터 서비스(Figma 같은 디자인 도구, WYSIWYG 에디터, 문서/프레젠테이션 도구 등)의 AI 유저 테스트를 위한 페르소나 생성 프레임워크를 정리한다. 고정된 페르소나 목록이 아니라, 언제든 테스트 목적에 맞는 페르소나를 만들어낼 수 있는 구조를 만드는 것이 목표다.
페르소나 설계 프레임워크
CHI 2022에서 발표된 "Use Cases for Design Personas: A Systematic Review and New Frontiers"에 따르면, 페르소나는 사용 목적에 따라 범위(scope)를 다르게 설정해야 한다. NN/g는 이를 broad-scope vs narrow-scope 페르소나로 구분한다.
AI 유저 테스트용 페르소나는 narrow-scope에 가깝다. 에디터 서비스 사용 맥락에 집중하되, 행동을 예측할 수 있을 만큼 구체적이어야 한다.
각 페르소나에 다음 축을 설정한다.
페르소나 구성 축:
1. 직무 맥락 → 역할, 조직 규모, 업무 루틴
2. 도구 경험 → 에디터 도구 사용 이력과 숙련도
3. 기술 리터러시 → 개발 배경, 코드/시스템 이해도
4. 디자인 리터러시 → 시각 디자인 이해도, 디자인 원리 숙련도
5. 핵심 목표 → 에디터에서 달성하려는 것
6. 행동 패턴 → 도구를 사용하는 방식, 탐색 전략
7. 좌절 트리거 → 어디서 막히고, 어떤 감정을 느끼는지
8. 성공 기준 → 이 사람에게 "잘 됐다"는 무엇인가이 중 기술 리터러시와 디자인 리터러시는 독립적인 축이다. 에디터 서비스의 유저를 이해하려면 이 둘을 분리해야 한다.
디자인 리터러시 높음
│
시니어 디자이너 │ PM (전 디자이너)
│
│ UX 리서처
│
│
─────────────────── ─┼──────────────────────── 기술 리터러시 높음
│
마케터 (Canva) │ FE 개발자
│
리뷰어 │ BE 개발자
│
BE 개발자: 기술 높음 + 디자인 낮음 → 논리적으로 접근, 시각적 판단은 약함
마케터: 기술 낮음 + 디자인 중간 → 감각적 판단은 있지만 구조적 설계는 못 함
PM: 기술 중간 + 디자인 중간 → 양쪽 모두 대화는 가능하지만 깊이는 아님PersonaCraft(2025) 연구에서는 LLM 기반 페르소나 생성 시, 인구통계보다 행동 데이터와 맥락 정보가 페르소나의 예측력을 크게 높인다는 것을 보여줬다. "좌절 트리거"와 "행동 패턴"을 포함하는 이유다.
축 1: 직군과 직무 맥락
에디터 서비스의 유저는 "디자이너"만이 아니다. 에디터를 쓰는 직군은 넓고, 각 직군이 에디터에서 하려는 일이 근본적으로 다르다.
직군 레퍼토리
| 직군 | 에디터에서 하는 일 | 사용 빈도 | 대표 도구 |
|---|---|---|---|
| 시니어 디자이너 | 디자인 시스템, 컴포넌트 설계, 고밀도 작업 | 하루 6시간+ | Figma, Sketch |
| 주니어 디자이너 | 시니어의 방향에 따라 상세 화면 제작 | 하루 4-5시간 | Figma |
| PM (디자인 경험 有) | 와이어프레임, 플로우 시각화, 코멘트 | 하루 1-2시간 | Figma, FigJam |
| PM (디자인 경험 無) | 간단한 목업, 스펙 문서에 스크린샷 삽입 | 주 2-3회 | Figma(보기), Notion |
| 백엔드 개발자 | 내부 도구 UI, 아키텍처 다이어그램 | 가끔 | Excalidraw, draw.io |
| 프론트엔드 개발자 | 디자인 스펙 확인, inspect, 에디터 기능 구현 | 매일 (읽기 중심) | Figma(inspect), Storybook |
| 마케터 | SNS 비주얼, 배너, 프레젠테이션 | 하루 1-2시간 | Canva, Google Slides |
| UX 리서처 | 어피니티 맵, 프로토타입 검증, 코멘트 | 주 3-4회 | FigJam, Miro |
| 1인 창업자 | 모든 것 (와이어프레임 | 불규칙, 집중적 | Figma+Canva+Framer |
| 테크니컬 라이터 | 리치 텍스트 콘텐츠, 코드 블록, 다이어그램 | 하루 5시간+ | Notion, GitBook |
| 엔터프라이즈 리뷰어 | 보기 전용, 코멘트, 승인 | 주 1-2회, 짧게 | 공유 링크로 접근 |
직군을 선택할 때 고려할 것: 같은 직군이라도 연차와 조직 규모에 따라 행동이 크게 다르다. 시니어 디자이너와 주니어 디자이너는 같은 Figma를 쓰지만, 접근 방식이 근본적으로 다르다 (시니어는 시스템을 설계하고, 주니어는 시스템을 소비한다).
축 2: 기술 리터러시 (개발 배경)
코드와 시스템에 대한 이해도다. 에디터의 기능을 논리적/구조적으로 접근하는지, 아니면 시각적/감각적으로 접근하는지에 영향을 미친다.
기술 리터러시 스펙트럼
Level 0: 없음
- 코드를 본 적 없음, "API"가 뭔지 모름
- 에디터의 기능을 화면에 보이는 그대로 이해
- 예: 마케터, 엔터프라이즈 리뷰어
Level 1: 인접 경험
- HTML/CSS가 뭔지는 알지만 작성하진 않음
- "이 버튼을 누르면 서버에 뭔가 요청이 가겠지" 수준의 이해
- 예: 주니어 디자이너, 1인 창업자 (부트캠프 중단)
Level 2: 기초 실무
- 간단한 코드 작성 가능, API 문서를 읽고 개발자와 논의 가능
- Markdown, Git 등 개발 도구를 업무에 사용
- 예: PM (부트캠프 수료), 테크니컬 라이터, UX 리서처 (R/통계)
Level 3: 코드 중심 실무
- 코드를 일상적으로 읽고 쓰지만 에디터/디자인 도구에는 비전문
- CSS flex/grid, DOM 구조 등으로 레이아웃을 생각
- 예: 백엔드 개발자, 시니어 디자이너 (디자인 토큰/코드 이해)
Level 4: 시스템 전문가
- 에디터의 내부 구현까지 이해하거나 직접 개발
- 렌더링 파이프라인, 성능 프로파일링 관점에서 에디터를 평가
- 예: 프론트엔드 개발자 (에디터 개발팀)같은 "정렬이 안 맞는다" 상황에서:
- Level 0: 눈으로 보면서 마우스로 끌어다 놓음
- Level 2: 정렬 버튼이나 가이드 기능을 찾으려 함
- Level 3: "좌표를 직접 숫자로 넣을 수 있나?" 또는 "flex 같은 auto layout이 있나?"를 먼저 생각
- Level 4: "이 정렬 알고리즘이 O(n log n)일까 O(n²)일까"를 생각
기술 리터러시 레벨에 따라 에디터의 같은 기능도 완전히 다른 멘탈 모델로 접근한다.
축 3: 디자인 리터러시 (시각/디자인 배경)
기술 리터러시와는 독립적인 축이다. 시각 디자인의 원리, 타이포그래피, 색채, 레이아웃 구조에 대한 이해도를 나타낸다. 에디터에서 결과물의 품질을 스스로 판단할 수 있는가, 디자인 의도를 구조적으로 설계할 수 있는가에 영향을 미친다.
디자인 리터러시 스펙트럼
Level 0: 없음
- "이쁘다/안 이쁘다"는 느끼지만 왜인지 설명 못 함
- 정렬, 여백, 시각적 위계 개념이 없음
- 예: 백엔드 개발자, 엔터프라이즈 리뷰어
Level 1: 감각적 판단
- 좋은 디자인과 나쁜 디자인을 구별할 수 있음
- 하지만 직접 만들면 "뭔가 부족한" 결과물이 나옴
- 레퍼런스를 따라 만들 수 있지만 응용은 어려움
- 예: 마케터 (Canva 경험), 1인 창업자, PM (디자인 경험 없음)
Level 2: 원리 기반
- 그리드, 타이포그래피 위계, 색채 이론의 기초를 이해
- 디자인 시스템의 컴포넌트를 올바르게 사용할 수 있음
- 왜 이 레이아웃이 좋은지/나쁜지 근거를 들어 설명 가능
- 예: 주니어 디자이너, PM (전 디자이너), UX 리서처
Level 3: 시스템 설계
- 컴포넌트, 디자인 토큰, 시각 체계를 직접 설계
- 일관성, 확장성, 접근성을 고려한 의사결정 가능
- 다른 사람의 디자인을 구조적으로 리뷰할 수 있음
- 예: 시니어 디자이너, UX 전문가
Level 4: 크래프트
- 마이크로 인터랙션, 모션, 시각적 디테일까지 설계
- 픽셀 단위의 차이를 인지하고 의도적으로 조정
- 예: 리드 디자이너, 크리에이티브 디렉터같은 "배너를 만들어야 한다" 상황에서:
- Level 0: 글자 크기를 키우고 색을 바꾸는 정도. 여백은 "대충 적당히"
- Level 1: Canva 템플릿에서 시작, 색상은 브랜드 팔레트에서 선택. "이뻐 보이는" 방향으로 조정
- Level 2: 정보 위계를 의식하고 제목/본문/CTA의 크기 비율을 잡음. 그리드 정렬 사용
- Level 3: 디자인 시스템의 배너 컴포넌트 규격에 맞춰 설계. 반응형 고려
디자인 리터러시는 결과물의 품질 기대치와 직결된다. Level 0인 사람은 "잘 모르겠지만 일단 완성"에 만족하지만, Level 3인 사람은 "1px의 정렬 오차"에도 불편함을 느낀다.
축 4: 도구 숙련도
에디터 숙련도는 기술/디자인 리터러시와 각각 독립적인 축이다. 코드를 잘 아는 개발자가 Figma 초보일 수 있고, 코드를 전혀 모르는 마케터가 Canva 전문가일 수 있고, 시니어 디자이너가 새로운 에디터에서는 초보일 수 있다.
숙련도 단계
| 단계 | 특성 | 행동 패턴 |
|---|---|---|
| 초급 | 기본 조작만 가능, 복잡한 기능은 모름 | 기존 파일 복사해서 시작, 실수 두려움, Cmd+Z 의존 |
| 중급 | 핵심 기능 사용 가능, 고급 기능은 선택적 | 자기만의 워크플로우가 있음, 새 기능은 필요할 때 학습 |
| 상급 | 거의 모든 기능 활용, 자동화/플러그인 적극 사용 | 단축키 적극 활용, 마우스 최소화, 파일 구조에 집착 |
| Expert | 도구의 한계를 알고, 그 안에서 최적의 워크플로우 구축 | 릴리즈 노트를 꼼꼼히 읽음, edge case 적극 탐색, 팀에 기능 전파 |
축 5: 행동 패턴과 좌절 트리거
PersonaCraft(2025) 연구에서 밝혔듯이, LLM 기반 페르소나의 예측력을 높이는 핵심은 행동 데이터다. 인구통계가 아니라 "이 사람이 구체적으로 어떻게 행동하는가"를 서술해야 한다.
행동 패턴 변수
페르소나에 포함할 행동 패턴을 선택할 때, 다음 질문들이 유용하다.
탐색 전략
- 새 기능을 발견하면? → 바로 시도 / 튜토리얼 먼저 / 무시
- 모르는 기능을 만나면? → 검색(Cmd+/) / 메뉴 탐색 / 동료에게 물어봄 / YouTube
- 빈 캔버스에서 시작하면? → 바로 작업 / 템플릿 찾기 / 기존 파일 복사
작업 방식
- 정밀도 vs 속도? → 픽셀 단위 조정 / "대충 맞으면 됨"
- 입력 방식? → 키보드 중심 / 마우스 중심 / 혼합
- 파일 관리? → 체계적(네이밍 규칙) / 방치("최종_최종")
협업 스타일
- 코멘트를 남기는가? → 적극적 / 수동적 / 안 남김
- 다른 사람의 파일을 수정하는가? → 직접 수정 / 복사 후 수정 / 코멘트만
- 실시간 협업을 하는가? → 선호 / 비동기 선호 / 혼자 작업좌절 트리거 카탈로그
페르소나별 좌절 트리거를 설정할 때, 에디터 서비스에서 자주 발생하는 좌절 유형을 미리 분류해두면 조합이 쉽다.
| 유형 | 설명 | 민감한 페르소나 |
|---|---|---|
| 기능 탐색 실패 | 기능이 있는 건 아는데 어디에 있는지 못 찾음 | 초급 사용자, 간헐적 사용자 |
| 예측 불일치 | 기능이 기대와 다르게 동작 (Auto Layout 등) | 중급~상급, 개발자 배경 |
| 학습 곡선 | 기능이 너무 많거나 복잡해서 시작을 못 함 | 비전문가 (마케터, 리뷰어, 창업자) |
| 성능 저하 | 대형 파일에서 렉, 느린 로딩 | 파워유저, 개발자 |
| 협업 마찰 | 버전 혼동, 코멘트 누락, 권한 문제 | PM, 리서처, 리뷰어 |
| 결과물 품질 불만 | "아마추어 티"가 남, 프로 퀄리티가 안 나옴 | 비디자이너 (마케터, 창업자) |
| 서식/포맷 깨짐 | 복붙 시 서식 깨짐, WYSIWYG ≠ 최종 결과 | 테크니컬 라이터, 콘텐츠 에디터 |
| 진입 장벽 | 로그인 요구, 복잡한 UI, 느린 첫 로딩 | 리뷰어, 간헐적 사용자 |
페르소나 조합하기
위의 축들을 조합하면 페르소나가 된다. 핵심은 테스트 목적에 따라 어떤 축의 변수를 강조할지 달라진다는 것이다.
조합 템플릿
페르소나 생성 템플릿:
직무 맥락
역할: [직군 레퍼토리에서 선택] ([연차])
조직: [규모, 팀 구성]
업무: [에디터를 쓰는 구체적 업무]
루틴: [에디터 사용 빈도와 패턴]
도구 경험
주력 도구: [도구명] ([숙련도 단계])
보조 도구: [함께 쓰는 도구들]
에디터 이력: [이전 도구 → 현재 도구 전환 경험]
기술 리터러시 (개발 배경)
레벨: [0~4 스펙트럼에서 선택]
개발 배경: [구체적 기술 스택 또는 "없음"]
코드 경험: [할 수 있는 것의 구체적 범위]
디자인 리터러시 (시각/디자인 배경)
레벨: [0~4 스펙트럼에서 선택]
디자인 교육: [전공, 독학, 실무 경험 등]
시각 판단: [결과물 품질을 어떤 기준으로 평가하는가]
핵심 목표
- [에디터에서 달성하려는 것 1]
- [에디터에서 달성하려는 것 2]
행동 패턴
- [탐색 전략]
- [작업 방식]
- [협업 스타일]
- [이 사람만의 특징적 행동 2-3개]
좌절 트리거
- [좌절 카탈로그에서 이 사람에게 해당하는 것 2-3개]
- [구체적 상황으로 서술]
성공 기준
"[이 사람의 관점에서 '잘 됐다'는 한 문장]"예시: 같은 템플릿으로 두 명 생성
테스트 목적: "새로운 AI 자동 레이아웃 기능의 사용성 평가"
──────────────────────────────────────
페르소나 A: 파워유저 관점
역할: 시니어 프로덕트 디자이너 (5년차)
조직: B2B SaaS 스타트업 (50인), 디자인팀 3명
루틴: Figma에서 하루 6시간+, 디자인 시스템 관리
도구 숙련: Expert — 단축키 중심, 릴리즈 노트 꼼꼼히 읽음
기술 레벨: Level 3 — HTML/CSS 이해, 디자인 토큰 JSON 관리
디자인 레벨: Level 3 — 디자인 시스템 설계, 컴포넌트 구조/확장성 판단 가능
행동 패턴:
- 새 기능은 릴리즈 노트 읽고 즉시 테스트
- edge case를 의도적으로 시도 (1000개 요소에 적용하면?)
- 세부 설정이 없으면 "제어감이 없다"고 느낌
좌절 트리거:
- AI가 생성한 레이아웃을 수동으로 조정할 수 없을 때
- 기존 Auto Layout과 충돌하는 동작이 있을 때
성공 기준:
"AI 레이아웃을 내 디자인 시스템 컴포넌트에 적용했을 때
결과가 수동 작업과 동일한 품질인 것"
──────────────────────────────────────
페르소나 B: 비전문가 관점
역할: 1인 창업자 (2년차, 경영학 전공)
조직: 프리시드 스타트업 (1인)
루틴: Figma 초중급, YouTube 독학, 불규칙적 사용
도구 숙련: 초중급 — 기본 조작 가능, Auto Layout은 매번 헷갈림
기술 레벨: Level 1 — 부트캠프 중단, HTML 약간
디자인 레벨: Level 1 — 좋은 디자인은 알아보지만 직접 만들면 "뭔가 부족"
행동 패턴:
- 빈 캔버스에서 시작하면 막힘, 항상 레퍼런스부터 수집
- "이거 만드는 데 너무 오래 걸린다"며 Canva로 전환하기도 함
- AI 기능에 대한 기대치가 높음 ("알아서 해주겠지")
좌절 트리거:
- AI가 만든 결과가 "아마추어 티"가 날 때
- 결과를 수정하려는데 수정 방법을 모를 때
성공 기준:
"AI가 레이아웃을 잡아줘서 내가 콘텐츠만 넣으면 되는 것"- 새 기능의 발견 가능성 테스트 → 초급+간헐적 사용자 위주로 구성
- 고급 기능의 사용성 테스트 → Expert+중급 위주로 구성
- 온보딩 플로우 테스트 → 에디터 처음 쓰는 사람 위주로 구성
- 협업 기능 테스트 → 디자이너+PM+개발자+리뷰어 혼합 구성
고정된 10명을 항상 쓰는 것이 아니라, 테스트 목적에 맞는 축의 변수를 강조해서 매번 새로 조합하는 것이 효과적이다.
커버리지 확인: 스펙트럼 매핑
페르소나를 만든 후에는, 핵심 3축(도구 숙련도 × 기술 리터러시 × 디자인 리터러시)에 매핑해서 빈 영역이 없는지 확인한다.
기술 리터러시와 디자인 리터러시는 반비례하지 않는다. 둘 다 높은 사람(시니어 디자이너 + 코드 이해)도 있고, 둘 다 낮은 사람(리뷰어)도 있다. 이 조합에 따라 에디터에 대한 멘탈 모델이 근본적으로 달라진다.
빈 영역이 보이면 해당 조합의 페르소나를 추가한다. 예를 들어 "디자인 높음 + 기술 높음 + 도구 초급"인 사람(디자인 시스템 전문가가 새 에디터를 처음 쓰는 경우)이 빠져있다면, 온보딩 테스트에서 중요한 관점을 놓칠 수 있다.
LLM에 페르소나를 입력할 때의 원칙
이 프레임워크로 만든 페르소나를 LLM에 넣어 합성 유저를 생성할 때, 연구에서 밝혀진 핵심 원칙들이 있다.
인구통계만으로는 부족하다
AAAI 2025 연구에서 지적했듯이, "30대 여성 디자이너"만으로는 LLM이 평균적인 응답을 생성한다. 행동 패턴, 좌절 트리거, 성공 기준까지 넣어야 차별화된 반응이 나온다.
❌ 약한 프롬프트:
"수진은 30대 시니어 디자이너입니다."
→ LLM: 무난하고 일반적인 디자이너 반응
✅ 프레임워크 기반 프롬프트:
"수진은 시니어 프로덕트 디자이너(5년차)로, Figma Expert다.
레이어 네이밍에 강박적이고, 새 기능이 나오면 릴리즈 노트를
꼼꼼히 읽으며, Auto Layout의 edge case를 적극 탐색한다.
기능이 기대와 다르게 동작하면 즉시 피드백하고,
세부 설정이 없으면 '제어감이 없다'고 느낀다."
→ LLM: 구체적이고 예측 가능한 반응같은 기능을 스펙트럼의 양 끝에서 테스트하라
NN/g의 페르소나 가이드에서도, 제품의 모든 주요 사용자 유형을 커버하는 것이 핵심이라고 강조한다. 같은 기능이라도 스펙트럼의 위치에 따라 반응이 근본적으로 다르다.
테스트할 기능: "새로운 AI 자동 레이아웃 기능"
Expert 디자이너:
"이 기능의 세부 설정은 어디서 조정하지?"
→ 제어감, 커스터마이즈 가능 여부에 집중
보기 전용 리뷰어:
"이 버튼은 뭐 하는 거지? 그냥 닫을래."
→ 기능의 존재 자체를 인지 못할 수 있음
비디자이너 창업자:
"오 이거 쓰면 디자이너 없이도 되겠다!"
→ 과도한 기대 → 결과물이 기대에 못 미치면 이탈좌절 트리거를 사용성 문제 예측에 쓰라
페르소나의 좌절 트리거는 곧 사용성 테스트에서 발견해야 할 문제 목록이다. LLM에 좌절 트리거를 명시하면, "이 기능을 쓸 때 이 사람은 어디서 막히겠는가"에 대한 구체적인 예측을 생성할 수 있다. 위의 좌절 카탈로그에서 테스트 대상 기능에 해당하는 유형을 골라 페르소나에 포함시키면 된다.
레퍼런스
학술 연구
- "Whose Personae? Synthetic Persona Experiments in LLM Research" - AAAI 2025. 63편의 합성 페르소나 연구 리뷰, 대표성 문제 지적
- "Use Cases for Design Personas: A Systematic Review and New Frontiers" - CHI 2022. 페르소나 유형과 사용 목적 체계화
- "PersonaCraft: Leveraging language models for data-driven persona development" - IJHCS 2025. LLM 기반 페르소나 생성 시 행동 데이터의 중요성
- "Evaluating LLMs for Synthetic Personas Generation" - Italian SIGCHI 2025. LLM 페르소나의 성격 표현 평가
UX 리서치
- NN/g - Evaluating AI-Simulated Behavior - AI 시뮬레이션 유저의 정확도 평가, 인터뷰 기반 > 인구통계 기반
- NN/g - Personas Make Users Memorable - 페르소나 설계 원칙
- NN/g - Persona Scope - broad-scope vs narrow-scope 페르소나