[TIL] A/B 테스트

23 Aug 2025 in TIL on Til, Git, Ml

2025-08-23 TIL

📝 TIL (Today I Learned)
📅 작성일: 2025-08-23
🔄 최종 수정: 2025년 08월 25일

🍀 새롭게 배운 것

정의: 같은 목표를 두고 두 버전(A=기준, B=변경안) 을 동시에 무작위로 사용자에게 나눠 보여준 뒤, 어느 쪽이 더 성과가 좋은지 통계적으로 비교하는 실험.
목적: 느낌/감이 아니라 데이터로 의사결정. 버튼 문구, 화면 배치, 가격 제안, 푸시 타이밍 등 “실제로” 지표가 개선되는지 검증.

가설 세우기
- 예) “대기시간 안내 문구를 바꾸면 매칭 시작 클릭률이 ↑한다.”
지표 딱 하나만 주지표로
- 주지표: 매칭 시작 클릭률
- 보조지표(가드레일): 이탈률, 고객불만 접수율 등 “부작용 체크”
표본수(기간) 계획
- 대략의 규칙: 차이를 작게 보고 싶을수록, 베이스 전환율이 낮을수록 → 더 많은 트래픽/기간이 필요.
- (참고 공식 – 이해만):
  - 비율형 지표의 각 그룹 표본수 n ≈ 2 * (zα/2 + zβ)^2 * p̄(1-p̄) / Δ^2
    - p̄: 기준 전환율 추정, Δ: 검증하고 싶은 차이(절대값)
무작위 배정 & 고정
- 사용자 단위로 50/50 랜덤 분배(세션/페이지뷰 단위 X).
- 실험 중엔 변형하지 말기(중간에 디자인을 또 바꾸지 않기).
정확한 로깅
- 모든 이벤트에 experiment_id, variant(A/B) 파라미터를 함께 로깅.
- SRM(sample ratio mismatch) 체크: 50/50이 크게 깨지면(예: 60/40) 실험 무효.
기간 고정 & ‘엿보기’ 금지
- 종료 조건 전에 유의성만 보고 중단하면 거짓 양성↑.
- 꼭 필요하면 사전 정의된 순차검정(group-sequential)이나 베이즈 접근을 사용.
해석 & 롤아웃
- 통계 유의 + 실무 유의(임팩트/비용/부작용) 함께 본 뒤, 점진적 롤아웃(예: 10%→30%→100%).

대기시간 안내 문구
- A: “곧 연결됩니다”
- B: “평균 30초 내 연결됩니다 · 취소 가능”
- 주지표: start_match_click / 방문자
- 가드레일: 즉시 이탈률, 고객불만
통화 후 피드백 수집 방식
- A: 5점 척도만
- B: 5점 + “칭찬 한마디” 한줄 텍스트
- 주지표: 피드백 제출률
- 가드레일: 피드백 작성 시간, 다음날 재방문율
안심케어(유료) 소개 타이밍
- A: 첫 3회 통화 후 페이월
- B: 첫 1회 통화 후 페이월
- 주지표: 7일 내 결제 전환율
- 가드레일: 7일 유지율, 평균 통화시간 변화

빈도주의: p-value/신뢰구간, 고정 표본 설계에 적합.
베이즈: “B가 A보다 좋을 확률”처럼 직관적 해석과 순차적 의사결정에 유리. 둘 다 장단점 있어요—팀의 익숙함/툴링에 따라 선택.