오픈애널리틱스 용어집

오픈애널리틱스에 쓰인 다양한 통계 용어와 전문 용어에 대한 설명을 알아봅니다.

1주 전에 업데이트함

① 오픈애널리틱스 기본 용어 정리

  • 응답자 수: 설문에 참여한 고유한 응답자 수(Unique Sample)를 의미합니다. 한 설문에 한 번만 응답을 할 수 있는 일반적인 설문의 경우 응답자 수와 응답 수는 동일한 수치로 나타납니다.

  • 응답 수: 수집된 응답의 개수입니다. 한 설문에 응답자가 여러 번 참여할 수 있는 다이어리 설문의 경우 응답자 수와 응답 수는 일치하지 않을 수 있습니다.

  • 문항 수: 설문의 총 문항 개수가 표시됩니다.

  • 표본오차: 표본에서 얻은 설문 결과가 실제 모집단의 의견이나 행태와 얼마나 차이가 날 수 있는지를 나타내는 수치입니다. 일반적으로 동일한 신뢰수준 하에서 표본 수가 모집단 규모에 가깝게 많을수록 표본오차는 작고, 표본 수가 적을수록 표본오차는 커집니다. 단, 오픈서베이는 현재까지 응답을 마친 응답자 수를 기준으로 80% 신뢰수준 하에서 발생할 수 있는 최대 표본오차를 표기합니다.

  • 조사 방법: 조사가 이뤄진 방법입니다. 오픈서베이 자체 패널을 대상으로 진행한 조사라면 ‘오픈서베이 패널’이라고 표시되며, 패널 외 웹 기반 설문 링크를 활용해서 응답자를 모집한 조사라면 ‘오픈서베이 폼’이라고 표시됩니다.

  • 응답 기간: 설문 응답이 처음 시작된 시점부터 모든 응답이 완료된 시점까지가 표시됩니다.

  • 모집단: 정보를 얻고자 하는 관심 대상의 전체 집합을 말합니다. 이러한 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의될 수 있습니다. 서울시 정책에 대한 시민 의견을 알려고 한다면 서울 시민 전체가 모집단이 되지만, A 쇼핑몰에서 구매한 소비자의 만족도를 알고자 한다면 A 쇼핑몰 구매자로 한정됩니다. 모집단 전체를 대상으로 설문조사를 할 수 없는 경우가 많기 때문에, 일반적으로 모집단 가운데 일부 표본을 추출해 설문조사를 진행합니다.

  • 신뢰수준: 모집단에서 표본을 추출해 설문 조사를 하면 매번 추출되는 표본이 다르기 때문에 결과가 정확히 같지 않습니다. 신뢰수준은 현재 표본 크기일 때 얻은 설문 결과가 얼마나 재연될 가능성이 높은지를 나타냅니다. 오픈애널리틱스는 집단 간 작은 차이도 더 세밀하게 볼 수 있도록 80% 신뢰수준을 기본으로 표본오차를 측정합니다.
    무한히 큰 모집단으로부터 1,000명 표본을 무작위 추출해 설문조사를 하면 80% 신뢰수준에서 최대 표본오차는 +-2.0%p입니다. 이 설문에서 어떤 제품에 대한 만족도가 50%로 측정되었다면, 100번 조사하면 80번은 48.0%와 52.0% 사이로 나올 것이라고 예상할 수 있습니다.

② 교차분석 관련 용어 정리

  • 교차분석: 두 변수 간의 연관성을 파악하기 위한 분석 방법입니다. 분석 단위를 기준으로 분석 대상의 열 합계(Column %)를 계산합니다. 예를 들어 특정 문항의 응답 결과에 성별 간 차이가 있는지 알아보고자 한다면, 성별을 분석 단위로, 해당 문항 응답 결과를 분석 대상으로 놓고 교차분석표를 만듭니다.

  • 분석 단위: 분석 단위는 교차분석표를 만들 때 데이터 해석의 기준이 되는 정보입니다. 이러한 분석 단위는 교차분석표의 가로축으로 나타나며, 분석 단위가 무엇인지에 따라 교차분석표 데이터가 달라집니다.

  • 분석 대상: 분석 대상은 교차분석표에서 해석하고자 하는 데이터를 말합니다. 이러한 분석 대상은 교차분석표의 세로축에 위치하며, 분석 대상에 대한 데이터는 설정한 분석 단위를 기준으로 나타납니다.

  • 비율: 교차분석표에서 응답 비율 기준으로 데이터가 표시되도록 설정하는 버튼입니다. 이러한 비율은 설정한 분석 단위 기준 분석 대상의 응답 건수를 해당 분석 단위의 전체 응답 수로 나눈 값입니다.

  • 빈도: 교차분석표에서 ‘빈도’를 선택하면 응답 수 기준으로 데이터가 표시됩니다. 비율과 빈도를 모두 표시하고 싶을 때는 ‘비율%(빈도)’를 선택하면 됩니다.

③ 주관식 숫자 문항 용어 정리

  • 평균: 전체 응답 값의 합을 응답 수로 나눈 값을 의미합니다. 오픈애널리틱스에서는 산술평균값을 ‘평균’으로 표기합니다.

  • 표준편차: 자료의 산포도를 나타내는 수치입니다. 값이 크면 클수록 데이터가 넓게 퍼져있고, 작으면 데이터가 평균에 가깝게 있다고 해석할 수 있습니다.

  • 최빈값: 전체 응답 중에서 가장 자주 나오는 값입니다. 최빈값이 1개 이상이라면 최빈값 중 가장 작은 값을 표기합니다. 가장 많은 사람을 만족할 수 있는 값을 찾거나, 평균만으로는 알기 어려운 전체 데이터의 분포를 확인하는 용도로 활용합니다.

  • 최댓값/최솟값: 전체 응답 중 가장 큰/작은 값을 의미합니다. 전체 응답 값 중 이상치 또는 극단 값이 포함되어 있는지 판단하거나 응답 범위를 파악하는 데 유용하게 활용합니다.

  • 중앙값: 전체 응답 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값입니다. 평균은 극단 값에 큰 영향을 받기 때문에, 극단 값이 포함된 데이터에서 중앙값은 유용한 대푯값으로 사용될 수 있습니다. 정규분포 데이터의 경우 평균값·중앙값·최빈값이 유사하게 나타나며, 평균값이 중앙값보다 많이 크거나 작다면 이상치 또는 극단 값이 있을 가능성이 있습니다.

  • Percentile 30: 전체 응답을 큰 값부터 순서대로 나열할 때 상위 30%에 해당하는 숫자입니다. 하/중/상위 그룹 3개로 응답 값을 나눌 때, Percentile 30을 상위 그룹으로 분류하는 구분점으로 사용할 수 있습니다.

  • Percentile 70: 전체 응답을 큰 값부터 순서대로 나열할 때 상위 70%에 해당하는 숫자입니다. 하/중/상위 그룹 3개로 응답 값을 나눌 때, Percentile 70을 하위 그룹으로 분류하는 구분점으로 사용할 수 있습니다.

④ 평가형 문항 용어 정리

TOP과 BOTTOM

평가형 응답을 분석할 때는 중간적 성향을 보이는 응답을 제외하고 명확한 긍정이나 명확한 부정 의견 비율을 봐야 할 때가 많습니다. 이에 가장 자주 쓰이는 5점 척도 평가형 문항을 예로 들면, TOP 2(긍정 인식)와 BOTTOM 2(부정 인식)를 나눠서 보곤 합니다.

  • TOP 2: 평가형 5점 척도 문항 기준으로 TOP 2는 5점과 4점을 응답한 사람의 비율의 합을 나타냅니다.

  • BOTTOM 2: 평가형 5점 척도 문항 기준으로 BOTTOM 2는 1점과 2점을 응답한 사람의 비율의 합을 나타냅니다.

또한, 평가형 11점 척도로 진행한 NPS 문항은 아래와 같은 기준으로 응답 결과를 나눠서 분석합니다.

  • NPS: 우리말로 ‘순수 추천 고객 지수’로 풀이하는 NPS(Net Promoter Score)는 고객의 충성도를 나타내는 지표입니다. 0~10점까지 11점 척도로 추천 고객 비율과 비추천 고객 비율을 계산하며, -100점부터 +100점까지의 점수를 가질 수 있습니다.

  • Promoters(추천 고객): 우리 브랜드/제품에 대한 만족도가 높으며 주변에 적극적으로 추천하는 고객군입니다. NPS 조사에서 9~10점을 준 응답자가 추천 고객 유형에 분류됩니다.

  • Passives(중립 고객): 어느 정도 만족은 하지만 더 좋은 브랜드/제품이 나타나면 언제든 떠날 수 있는 수동적인 고객군입니다. NPS 조사에서 7~8점을 준 응답자가 중립 고객에 분류됩니다.

  • Detractors(비추천 고객): 우리 브랜드/제품에 대해 만족하지 않으며 주변에 부정적인 피드백을 전하기도 하는 고객군입니다. NPS 조사에서 0~6점을 준 응답자가 비추천 고객에 분류됩니다.

이외에도 어떤 척도형 문항으로 조사를 했는지에 따라 결과 화면에 나타나는 TOP & BOTTOM 기준이 조금씩 다릅니다. 아래 표에서 구체적인 기준을 파악할 수 있습니다.

3점 척도

1점=Bottom, 3점=Top이라서 따로 Top/Bottom을 표시하지 않음

4, 5, 6점 척도

TOP 2 / BOTTOM 2

7, 9, 10점 척도

TOP 3 / BOTTOM 3

11점 척도

Net Promoter Score 기준으로 0~6점은 비추천 고객, 7~8점은 중립 고객, 9~10점은 추천 고객으로 분류

평균과 표준편차

엄밀하게 말하면 평가형 문항은 등간 척도가 아니라서 평균이 적절하지 않을 수 있습니다. 다시 말해 5점 ‘매우 만족’과 4점 ‘만족’ 사이의 차이가 4점 ‘만족’과 3점 ‘보통’ 사이의 차이와 같지 않다는 의미입니다. 하지만 관습적으로 평균과 표준편차를 보는 경우가 많아 오픈서베이 또한 편의상 평균을 제공합니다.

  • 평균: 전체 숫자 응답 데이터의 산술 평균을 나타냅니다.

  • 표준편차: 자료가 평균으로부터 흩어진 정도를 나타냅니다. 값이 클수록 데이터가 넓게 퍼져있고, 작을수록 평균에 가깝게 분포한다고 해석합니다.

답변이 도움되었나요?