횟수·개수·가격 등 구체적인 수치를 물어야 하는데 객관식 보기로 모두 나열하기는 경우의 수가 많을 때, 주관식 숫자형 변수를 활용할 수 있습니다. 예를 들면 “무선 이어폰을 구매하면 보통 얼마나 사용하실 수 있다고 생각하시나요? 생각하는 ‘개월 수’를 직접 입력해 주세요.” 식입니다.
하지만 주관식 숫자형 데이터는 분석이 까다로운 편입니다. 응답자가 자유롭게 입력할 수 있다 보니 터무니없이 크거나 작은 값을 응답할 가능성이 있고, 그런 경우 전체 결과에 영향을 미치기 때문입니다. 이를 예상되는 결과 범위를 벗어난 값을 뜻하는 ‘이상치’라고 말합니다.
이번 글에서는 분석의 결과 탭에서 주관식 숫자형 데이터를 분석할 때 주의해야 할 사항에 대해 알아보겠습니다.
주관식 숫자형 결과 화면에서 꼭 알아야 할 것
먼저 데이터 분석을 위해 주관식 숫자형 결과 화면에서 꼭 알아야 할 영역을 살펴보겠습니다.
총 응답 수: 제출된 주관식 숫자형 응답 수를 알 수 있는 영역으로 왼쪽 상단에 위치합니다.
히스토그램: 주관식 숫자형 응답 데이터는 응답 결과의 구간별 분포를 파악할 수 있는 히스토그램 차트 형태로 나타납니다.
지표: 응답 결과를 해석할 때 함께 봐야 할 주요 지표는 히스토그램 영역 오른쪽에 위치합니다. 평균, 표준편차, 최빈값, 중앙값 등 지표가 자동으로 계산되어 나타납니다.
📌 꼭 알아두세요!
주관식 숫자형은 반드시 이 유형을 선택해야 하는 문항인지 충분한 검토가 필요합니다.
‘최근 지출 금액’ 등 응답자가 정확하게 기억하기 어려운 수치에 대한 응답을 주관식 숫자형 문항으로 받는다면, 오히려 인식 오류로 이상치 응답이 많아질 수 있기 때문입니다.
위의 경우에는 주관식 숫자형보다는 1) 1만 원 미만, 2) 1만 원 ~ 2만 원 미만, 3) 2만 원 ~ 3만 원 미만 등 범위를 설정해서 객관식으로 물어보는 게 더욱 정확한 조사 방법이 될 수 있습니다.
오픈서베이 분석 기능으로 주관식 숫자형 데이터 분석하기
“무선 이어폰을 구매하면 보통 얼마나 사용하실 수 있다고 생각하시나요? 생각하는 ‘개월 수’를 직접 입력해 주세요.”라는 주관식 숫자형 변수의 응답 결과를 활용해서 데이터를 분석하는 방법을 알아보겠습니다.
① 지표 영역을 살펴보며 전반적인 데이터 파악하기
평균: 전체 응답 데이터의 평균값을 보여줍니다. 전반적인 경향성을 파악하는 데 유용하게 활용됩니다.
표준편차: 평균을 중심으로 응답 데이터가 얼마나 좁거나 넓게 분포하고 있는지 나타냅니다. 값이 클수록 데이터가 넓게 퍼져있고, 작을수록 가깝게 분포합니다.
최빈값: 전체 응답 데이터 중 가장 많은 사람이 언급한 숫자입니다.
중앙값: 전체 응답 데이터를 작은 값에서 큰 값으로 오름차순 나열했을 때, 가장 중앙에 있는 응답 데이터를 나타냅니다.
최솟값·최댓값: 전체 응답 데이터에서 가장 작은 값과 큰 값을 나타냅니다. 이 두 값과 히스토그램을 함께 보면 이상치 여부를 판단할 수 있습니다. 아래 변수 결과를 예시로 보면 75 이상 구간에는 응답 데이터가 거의 없다는 것을 알 수 있는데, 이를 통해 75 ~ 360은 소수의 사람만 응답한 이상치라고 해석할 수 있습니다.
Percentile 30·Percentile 70: 전체 응답 데이터를 작은 값부터 오름차순 나열했을 때 하위 30%와 하위 70%(상위 30%)에 해당하는 응답 데이터를 의미합니다. 총 응답 수가 1,000개라면 작은 순부터 300번째와 700번째 응답이 여기에 해당됩니다.
해당 지표는 응답 데이터가 작은 그룹, 중간 그룹, 큰 그룹 등 데이터를 그룹별로 나눠보고 싶을 때 활용되는 지표입니다. 예를 들어, 아래 변수 결과를 예시로 보면 Pencentile 지표를 활용해 사용 기간이 짧거나 중간 정도이거나 긴 그룹을 나눌 수 있습니다.
② 이상치 제외하고 상세 결과 분석하기
숫자가 큰 데이터에서 이상치 제외하기: 아래 예시 변수의 히스토그램 차트를 보면 75 구간 이후로는 응답 데이터가 거의 없습니다. 이 경우 75를 넘는 응답은 이상치로 간주할 수 있습니다. 그럼 주관식 숫자형 결과 화면의 [차트 x축 설정] 영역에서 최댓값을 75로 변경해서 이상치를 제외할 수 있습니다.
또한, 기존에는 구간이 15로 설정되어 있어서 각 막대 차트를 직관적으로 이해하기 어렵다 보니, 1년을 개월 수로 나눈 12로 변경해서 좀 더 직관적으로 데이터를 분석할 수 있습니다. 그럼 막대 1개가 1년 단위라고 해석할 수 있는 겁니다.
숫자가 작은 데이터에서 이상치 제외하기: 이번에는 숫자가 작은 데이터에서 이상치를 제외할 차례입니다. 가장 숫자가 작은 구간에 집중해야 하기 때문에, x축 설정을 ‘최댓값 11’과 ‘구간 1’로 바꿔보겠습니다. 그럼 전체 7.6%에 해당하는 12 미만 응답만 골라볼 수 있습니다.
가장 먼저 눈에 들어오는 데이터는 6 이하 응답 데이터입니다. 예를 들어 6이라고 응답을 한 사람들이 ‘6년’이라는 생각으로 응답한 거라면, 이를 ‘6개월’로 해석할 때 데이터가 흔들릴 수 있기 때문입니다.
이럴 때는 실제 6년을 뜻하는 75에 대한 응답 수와 비교해서 판단할 수 있습니다. 75 이상(6년 이상)이라고 응답한 사람은 단 4명인데 반해서 6이라고 응답한 사람은 18명이 넘습니다. 그럼 6이 이상치가 아닐 가능성이 오히려 더 크다고 판단할 수 있죠. 이에 여기서는 1~5까지만 이상치라고 판단해서 제외할 수 있습니다.
📌 꼭 알아두세요!
이상치를 찾는 과정에는 정답이 없습니다. 시장 상황과 비즈니스에 대한 이해를 바탕으로 해당 데이터가 나올만한 상황인지 스스로 검토해 보면서 이상치를 정제해야 합니다.
일반적으로 최솟값보다 최댓값 인근의 이상치가 전체 평균에 큰 영향을 미칩니다. 이에 이상치를 제외할 때는 최댓값 인근의 이상치를 좀 더 주의 깊게 살펴볼 필요가 있습니다.