메인 콘텐츠로 건너뛰기
분석 용어집

오픈서베이가 제공하는 분석 기능에 쓰인 다양한 통계 용어와 전문 용어에 대한 설명을 알아봅니다.

어제 업데이트함

① 분석 기능 기본 용어 정리

  • 응답자 수: 설문에 참여한 고유한 응답자 수(Unique Sample)를 의미합니다. 한 설문에 한 번만 응답을 할 수 있는 일반적인 설문의 경우 응답자 수와 응답 수는 동일한 수치로 나타납니다.

  • 응답 수: 수집된 응답의 개수입니다. 한 설문에 응답자가 여러 번 참여할 수 있는 다이어리 설문의 경우 응답자 수와 응답 수는 일치하지 않을 수 있습니다.

  • 변수 개수: 설문의 총 변수 개수가 표시됩니다.

  • 표본 오차: 표본에서 얻은 설문 결과가 실제 모집단의 의견이나 행태와 얼마나 차이가 날 수 있는지를 나타내는 수치입니다. 일반적으로 동일한 신뢰 수준 하에서 표본 수가 모집단 규모에 가깝게 많을수록 표본 오차는 작고, 표본 수가 적을수록 표본 오차는 커집니다. 단, 오픈서베이는 현재까지 응답을 마친 응답자 수를 기준으로 80% 신뢰 수준 하에서 발생할 수 있는 최대 표본 오차를 표기합니다.

  • 조사 방법: 조사가 이뤄진 방법입니다. 오픈서베이 자체 패널을 대상으로 진행한 조사라면 ‘오픈서베이 패널’이라고 표시되며, 패널 외 웹 기반 설문 링크를 활용해서 응답자를 모집한 조사라면 ‘오픈서베이 폼’이라고 표시됩니다.

  • 응답 기간: 설문 응답이 처음 시작된 시점부터 모든 응답이 완료된 시점까지가 표시됩니다.

  • 모집단: 정보를 얻고자 하는 관심 대상의 전체 집합을 말합니다. 이러한 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의될 수 있습니다. 서울시 정책에 대한 시민 의견을 알려고 한다면 서울 시민 전체가 모집단이 되지만, A 쇼핑몰에서 구매한 소비자의 만족도를 알고자 한다면 A 쇼핑몰 구매자로 한정됩니다. 모집단 전체를 대상으로 설문조사를 할 수 없는 경우가 많기 때문에, 일반적으로 모집단 가운데 일부 표본을 추출해 설문조사를 진행합니다.

  • 신뢰수준: 모집단에서 표본을 추출해 설문 조사를 하면 매번 추출되는 표본이 다르기 때문에 결과가 정확히 같지 않습니다. 신뢰수준은 현재 표본 크기일 때 얻은 설문 결과가 얼마나 재연될 가능성이 높은지를 나타냅니다. 분석에서는 집단 간 작은 차이도 더 세밀하게 볼 수 있도록 80% 신뢰수준을 기본으로 표본오차를 측정합니다.
    무한히 큰 모집단으로부터 1,000명 표본을 무작위 추출해 설문조사를 하면 80% 신뢰수준에서 최대 표본오차는 +-2.0%p입니다. 이 설문에서 어떤 제품에 대한 만족도가 50%로 측정되었다면, 100번 조사하면 80번은 48.0%와 52.0% 사이로 나올 것이라고 예상할 수 있습니다.

② 교차분석 관련 용어 정리

  • 교차분석: 두 변수 간의 연관성을 파악하기 위한 분석 방법입니다. 분석 단위를 기준으로 분석 대상의 열 합계(Column %)를 계산합니다. 예를 들어 특정 변수의 응답 결과에 성별 간 차이가 있는지 알아보고자 한다면, 성별을 분석 단위로, 해당 변수 응답 결과를 분석 대상으로 놓고 교차분석표를 만듭니다.

  • 분석 단위: 분석 단위는 교차분석표를 만들 때 데이터 해석의 기준이 되는 정보입니다. 이러한 분석 단위는 교차분석표의 가로축으로 나타나며, 분석 단위가 무엇인지에 따라 교차분석표 데이터가 달라집니다.

  • 분석 대상: 분석 대상은 교차분석표에서 해석하고자 하는 데이터를 말합니다. 이러한 분석 대상은 교차분석표의 세로축에 위치하며, 분석 대상에 대한 데이터는 설정한 분석 단위를 기준으로 나타납니다.

  • 비율: 교차분석표에서 응답 비율 기준으로 데이터가 표시되도록 설정하는 버튼입니다. 이러한 비율은 설정한 분석 단위 기준 분석 대상의 응답 건수를 해당 분석 단위의 전체 응답 수로 나눈 값입니다.

  • 빈도: 교차분석표에서 ‘빈도’를 선택하면 응답 수 기준으로 데이터가 표시됩니다. 비율과 빈도를 모두 표시하고 싶을 때는 ‘비율%(빈도)’를 선택하면 됩니다.

③ 주관식 숫자 변수 용어 정리

  • 평균: 전체 응답 값의 합을 응답 수로 나눈 값을 의미합니다. 분석에서는 산술평균값을 ‘평균’으로 표기합니다.

  • 표준편차: 자료의 산포도를 나타내는 수치입니다. 값이 크면 클수록 데이터가 넓게 퍼져있고, 작으면 데이터가 평균에 가깝게 있다고 해석할 수 있습니다.

  • 최빈값: 전체 응답 중에서 가장 자주 나오는 값입니다. 최빈값이 1개 이상이라면 최빈값 중 가장 작은 값을 표기합니다. 가장 많은 사람을 만족할 수 있는 값을 찾거나, 평균만으로는 알기 어려운 전체 데이터의 분포를 확인하는 용도로 활용합니다.

  • 최대값/최소값: 전체 응답 중 가장 큰/작은 값을 의미합니다. 전체 응답 값 중 이상치 또는 극단 값이 포함되어 있는지 판단하거나 응답 범위를 파악하는 데 유용하게 활용합니다.

  • 중앙값: 전체 응답 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값입니다. 평균은 극단 값에 큰 영향을 받기 때문에, 극단 값이 포함된 데이터에서 중앙값은 유용한 대푯값으로 사용될 수 있습니다. 정규분포 데이터의 경우 평균값·중앙값·최빈값이 유사하게 나타나며, 평균값이 중앙값보다 많이 크거나 작다면 이상치 또는 극단 값이 있을 가능성이 있습니다.

  • Percentile 30: 전체 응답을 큰 값부터 순서대로 나열할 때 상위 30%에 해당하는 숫자입니다. 하/중/상위 그룹 3개로 응답 값을 나눌 때, Percentile 30을 상위 그룹으로 분류하는 구분점으로 사용할 수 있습니다.

  • Percentile 70: 전체 응답을 큰 값부터 순서대로 나열할 때 상위 70%에 해당하는 숫자입니다. 하/중/상위 그룹 3개로 응답 값을 나눌 때, Percentile 70을 하위 그룹으로 분류하는 구분점으로 사용할 수 있습니다.

④ 평가형 변수 용어 정리

TOP과 BOTTOM

평가형 응답을 분석할 때는 중간적 성향을 보이는 응답을 제외하고 명확한 긍정이나 명확한 부정 의견 비율을 봐야 할 때가 많습니다. 이에 가장 자주 쓰이는 5점 척도 평가형 변수를 예로 들면, TOP 2(긍정 인식)와 BOTTOM 2(부정 인식)를 나눠서 보곤 합니다.

  • TOP 2: 평가형 5점 척도 변수 기준으로 TOP 2는 5점과 4점을 응답한 사람의 비율의 합을 나타냅니다.

  • BOTTOM 2: 평가형 5점 척도 변수 기준으로 BOTTOM 2는 1점과 2점을 응답한 사람의 비율의 합을 나타냅니다.

④ NPS 변수 용어 정리

11점 척도로 진행한 NPS 변수는 아래와 같은 기준으로 응답 결과를 나눠서 분석합니다.

  • NPS: 우리말로 ‘순수 추천 고객 지수’로 풀이하는 NPS(Net Promoter Score)는 고객의 충성도를 나타내는 지표입니다. 0~10점까지 11점 척도로 추천 고객 비율과 비추천 고객 비율을 계산하며, -100점부터 +100점까지의 점수를 가질 수 있습니다.

  • Promoters(추천 고객): 우리 브랜드/제품에 대한 만족도가 높으며 주변에 적극적으로 추천하는 고객군입니다. NPS 조사에서 9~10점을 준 응답자가 추천 고객 유형에 분류됩니다.

  • Passives(중립 고객): 어느 정도 만족은 하지만 더 좋은 브랜드/제품이 나타나면 언제든 떠날 수 있는 수동적인 고객군입니다. NPS 조사에서 7~8점을 준 응답자가 중립 고객에 분류됩니다.

  • Detractors(비추천 고객): 우리 브랜드/제품에 대해 만족하지 않으며 주변에 부정적인 피드백을 전하기도 하는 고객군입니다. NPS 조사에서 0~6점을 준 응답자가 비추천 고객에 분류됩니다.

이외에도 어떤 척도형 변수로 조사를 했는지에 따라 결과 화면에 나타나는 TOP & BOTTOM 기준이 조금씩 다릅니다. 아래 표에서 구체적인 기준을 파악할 수 있습니다.

3점 척도

1점=Bottom, 3점=Top이라서 따로 Top/Bottom을 표시하지 않음

4, 5, 6점 척도

TOP 2 / BOTTOM 2

7, 9, 10점 척도

TOP 3 / BOTTOM 3

11점 척도

Net Promoter Score 기준으로 0~6점은 비추천 고객, 7~8점은 중립 고객, 9~10점은 추천 고객으로 분류

평균과 표준편차

엄밀하게 말하면 평가형 변수는 등간 척도가 아니라서 평균이 적절하지 않을 수 있습니다. 다시 말해 5점 ‘매우 만족’과 4점 ‘만족’ 사이의 차이가 4점 ‘만족’과 3점 ‘보통’ 사이의 차이와 같지 않다는 의미입니다. 하지만 관습적으로 평균과 표준편차를 보는 경우가 많아 오픈서베이 또한 편의상 평균을 제공합니다.

  • 평균: 전체 숫자 응답 데이터의 산술 평균을 나타냅니다.

  • 표준편차: 자료가 평균으로부터 흩어진 정도를 나타냅니다. 값이 클수록 데이터가 넓게 퍼져있고, 작을수록 평균에 가깝게 분포한다고 해석합니다.

답변이 도움되었나요?