주관식 숫자형에서 필요한 결과만 골라보는 방법 🎥

오픈애널리틱스를 통해 주관식 숫자형 응답 데이터에서 필요한 결과만 골라보는 방법에 대해 살펴보겠습니다.

1주 전에 업데이트함

횟수·개수·가격 등 구체적인 수치를 물어야 하는데 객관식 보기로 모두 나열하기는 경우의 수가 많을 때, 주관식 숫자형 문항을 활용할 수 있습니다. 예를 들면 “무선 이어폰을 구매하면 보통 얼마나 사용하실 수 있다고 생각하시나요? 생각하는 ‘개월 수’를 직접 입력해 주세요.” 식입니다.

하지만 주관식 숫자형 데이터는 분석이 까다로운 편입니다. 응답자가 자유롭게 입력할 수 있다 보니 터무니없이 크거나 작은 값을 응답할 가능성이 있고, 그런 경우 전체 결과에 영향을 미치기 때문입니다. 이를 예상되는 결과 범위를 벗어난 값을 뜻하는 ‘이상치’라고 말합니다.

이번 글에서는 오픈애널리틱스에서 주관식 숫자형 데이터를 분석할 때 주의해야 할 사항에 대해 알아보겠습니다.

주관식 숫자형 결과 화면에서 꼭 알아야 할 것

먼저 데이터 분석을 위해 주관식 숫자형 결과 화면에서 꼭 알아야 할 영역을 살펴보겠습니다.

  • 총 응답 수: 제출된 주관식 숫자형 응답 수를 알 수 있는 영역으로 왼쪽 상단에 위치합니다.

  • 히스토그램: 주관식 숫자형 응답 데이터는 응답 결과의 구간별 분포를 파악할 수 있는 히스토그램 차트 형태로 나타납니다.

  • 지표: 응답 결과를 해석할 때 함께 봐야 할 주요 지표는 히스토그램 영역 오른쪽에 위치합니다. 평균, 표준편차, 최빈값, 중앙값 등 지표가 자동으로 계산되어 나타납니다.

📌 꼭 알아두세요!

  • 주관식 숫자형은 반드시 이 유형을 선택해야 하는 문항인지 충분한 검토가 필요합니다.

  • ‘최근 지출 금액’ 등 응답자가 정확하게 기억하기 어려운 수치에 대한 응답을 주관식 숫자형 문항으로 받는다면, 오히려 인식 오류로 이상치 응답이 많아질 수 있기 때문입니다.

  • 위의 경우에는 주관식 숫자형보다는 1) 1만 원 미만, 2) 1만 원 ~ 2만 원 미만, 3) 2만 원 ~ 3만 원 미만 등 범위를 설정해서 객관식으로 물어보는 게 더욱 정확한 조사 방법이 될 수 있습니다.

오픈애널리틱스로 주관식 숫자형 데이터 분석하기

“무선 이어폰을 구매하면 보통 얼마나 사용하실 수 있다고 생각하시나요? 생각하는 ‘개월 수’를 직접 입력해 주세요.”라는 주관식 숫자형 문항의 응답 결과를 활용해서 데이터를 분석하는 방법을 알아보겠습니다.

① 지표 영역을 살펴보며 전반적인 데이터 파악하기

  • 평균: 전체 응답 데이터의 평균값을 보여줍니다. 전반적인 경향성을 파악하는 데 유용하게 활용됩니다.

  • 표준편차: 평균을 중심으로 응답 데이터가 얼마나 좁거나 넓게 분포하고 있는지 나타냅니다. 값이 클수록 데이터가 넓게 퍼져있고, 작을수록 가깝게 분포합니다.

  • 최빈값: 전체 응답 데이터 중 가장 많은 사람이 언급한 숫자입니다.

  • 중앙값: 전체 응답 데이터를 작은 값에서 큰 값으로 오름차순 나열했을 때, 가장 중앙에 있는 응답 데이터를 나타냅니다.

  • 최솟값·최댓값: 전체 응답 데이터에서 가장 작은 값과 큰 값을 나타냅니다. 이 두 값과 히스토그램을 함께 보면 이상치 여부를 판단할 수 있습니다. 아래 문항 결과를 예시로 보면 75 이상 구간에는 응답 데이터가 거의 없다는 것을 알 수 있는데, 이를 통해 75 ~ 360은 소수의 사람만 응답한 이상치라고 해석할 수 있습니다.

  • Percentile 30·Percentile 70: 전체 응답 데이터를 작은 값부터 오름차순 나열했을 때 하위 30%와 하위 70%(상위 30%)에 해당하는 응답 데이터를 의미합니다. 총 응답 수가 1,000개라면 작은 순부터 300번째와 700번째 응답이 여기에 해당됩니다.
    해당 지표는 응답 데이터가 작은 그룹, 중간 그룹, 큰 그룹 등 데이터를 그룹별로 나눠보고 싶을 때 활용되는 지표입니다. 예를 들어, 아래 문항 결과를 예시로 보면 Pencentile 지표를 활용해 사용 기간이 짧거나 중간 정도이거나 긴 그룹을 나눌 수 있습니다.

② 이상치 제외하고 상세 결과 분석하기

  • 숫자가 큰 데이터에서 이상치 제외하기: 아래 예시 문항의 히스토그램 차트를 보면 75 구간 이후로는 응답 데이터가 거의 없습니다. 이 경우 75를 넘는 응답은 이상치로 간주할 수 있습니다. 그럼 오픈애널리틱스 주관식 숫자형 결과 화면의 [차트 x축 설정] 영역에서 최댓값을 75로 변경해서 이상치를 제외할 수 있습니다.
    또한, 기존에는 구간이 15로 설정되어 있어서 각 막대 차트를 직관적으로 이해하기 어렵다 보니, 1년을 개월 수로 나눈 12로 변경해서 좀 더 직관적으로 데이터를 분석할 수 있습니다. 그럼 막대 1개가 1년 단위라고 해석할 수 있는 겁니다.

  • 숫자가 작은 데이터에서 이상치 제외하기: 이번에는 숫자가 작은 데이터에서 이상치를 제외할 차례입니다. 가장 숫자가 작은 구간에 집중해야 하기 때문에, x축 설정을 ‘최댓값 11’과 ‘구간 1’로 바꿔보겠습니다. 그럼 전체 7.6%에 해당하는 12 미만 응답만 골라볼 수 있습니다.
    가장 먼저 눈에 들어오는 데이터는 6 이하 응답 데이터입니다. 예를 들어 6이라고 응답을 한 사람들이 ‘6년’이라는 생각으로 응답한 거라면, 이를 ‘6개월’로 해석할 때 데이터가 흔들릴 수 있기 때문입니다.
    이럴 때는 실제 6년을 뜻하는 75에 대한 응답 수와 비교해서 판단할 수 있습니다. 75 이상(6년 이상)이라고 응답한 사람은 단 4명인데 반해서 6이라고 응답한 사람은 18명이 넘습니다. 그럼 6이 이상치가 아닐 가능성이 오히려 더 크다고 판단할 수 있죠. 이에 여기서는 1~5까지만 이상치라고 판단해서 제외할 수 있습니다.

📌 꼭 알아두세요!

  • 이상치를 찾는 과정에는 정답이 없습니다. 시장 상황과 비즈니스에 대한 이해를 바탕으로 해당 데이터가 나올만한 상황인지 스스로 검토해 보면서 이상치를 정제해야 합니다.

  • 일반적으로 최솟값보다 최댓값 인근의 이상치가 전체 평균에 큰 영향을 미칩니다. 이에 이상치를 제외할 때는 최댓값 인근의 이상치를 좀 더 주의 깊게 살펴볼 필요가 있습니다.

답변이 도움되었나요?