回答のクリーニング方法 | Opensurvey ヘルプセンター

回答クリーニングとは？

回答クリーニングとは、アンケート分析の過程で不誠実な回答、質問を誤解した回答、または全体的な傾向から大きく外れた外れ値を除外してデータを精製するプロセスです。クリーニングされた回答は分析結果に反映されないため、より精密で信頼性の高いインサイトを導き出すことができます。

なぜ回答クリーニングを使うべきなのか？

アンケート調査の目的は、単純にデータを多く集めることではなく、意思決定に活用できる正確なデータを確保することです。しかし実際に収集された回答には、質問を十分に読まずに回答したり意味のない内容を入力したりした回答が含まれることがあります。回答クリーニングは、こうしたデータを整理して分析の信頼性を高めるプロセスです。

1️⃣ 正確な分析のためのデータ信頼性確保

質問をきちんと読まずに無作為に選択した回答や意味のないテキストが含まれると、平均値や比率が実際より歪む可能性があります。回答クリーニングを通じてこうした「ノイズデータ」を整理することで、実際の市場状況をより適切に反映した信頼性の高い分析結果を得ることができます。

2️⃣ データレビューと分析プロセスの効率向上

数千件の回答を一つひとつ確認するのは、時間と労力を多く要します。Dataspaceのアルゴリズムベースのクリーニング機能を活用することで、不誠実である可能性のある回答を素早く識別でき、データレビューと分析にかかる時間を大幅に削減できます。

3️⃣ サンプル管理とデータ活用度の改善

過剰に収集された回答を整理したり、代表サンプル（クォータ）のバランスを取ったりすることで、分析に適した回答者でデータセットを構成できます。これにより、限られたサンプルでもより意味のある分析結果を得ることができます。

回答クリーニングの方法

📌 回答クリーニングはすべてのプランでご利用いただけます。

Dataspaceは、ユーザーの状況に合わせて直接選択するクリーニングとアルゴリズムを活用した自動クリーニング機能を提供しています。

1️⃣ 直接レビューしてクリーニングする

個別の回答を一つひとつ確認しながら慎重にデータを精製したい場合は、回答を直接レビューしてクリーニングする方法をご活用ください。

Step 1. 対象のアンケートを選択し、上部メニューから [分析 > 回答] 画面に移動してください。

Step 2. 以下の指標を参考にして、クリーニングが必要な回答を選別します。

回答品質スコア： パターンベーススコア（sincerity_score）とAI応答品質スコア（ai_quality_score）を合算して計算され、回答者の回答パターン（回答速度など）と主観式設問への回答内容を分析して回答の誠実度を判断できます。
- パターンベーススコア：回答速度などの回答パターンをもとに回答者の誠実度を評価するスコアです。
- AI応答品質スコア：AIが主観式回答のコンテキストを分析し、質問と関連のない回答や意味のない回答などを判断して評価するスコアです。

💡 ご利用のヒント | 収集グループで「AI応答品質検査」機能を有効にすると、AI応答品質スコアがパターンベーススコアとともに反映されて回答品質スコアが計算されます。逆に機能を無効にすると、パターンベーススコアのみが反映されて回答品質スコアが計算されます。

💡 ご利用のヒント | 回答画面右上の [変数読み込み] ボタンをクリックすると、メタデータからさまざまな基準変数を追加してより細かくレビューできます。

Step 3. 除外する回答にチェックを入れ、画面右下の [クリーニング] ボタンをクリックします。

💡 ご利用のヒント | 回答画面下部の「回答クリーニング」エリアで、回答IDまたはUIDを直接入力して特定の回答のみを個別にクリーニングすることもできます。

2️⃣ ワンクリッククリーニングを活用する

大量に収集された回答を素早く整理したい場合は、オープンサーベイのアルゴリズムベースのワンクリッククリーニング機能をご活用ください。複数のレビュー項目でクリーニング対象を自動的に分類し、データ精製プロセスをより効率的に進めることができます。

Step 1. 対象のアンケートを選択し、上部メニューから [分析 > 回答] 画面に移動してください。

Step 2. 「回答」画面右上の [ワンクリッククリーニング] ボタンをクリックします。

Step 3. 回答品質スコアのグラフを参考にして、クリーニングの基準スコアを設定してください。設定したスコア基準に応じてクリーニング対象の回答が自動的に分類されます。

Step 4. 分類された回答を確認した後、[クリーニング] ボタンをクリックすると、該当する回答を分析対象から除外できます。

3️⃣ 過剰収集された回答を除外する

アンケートを進める中で、目標とした回答数より多くのデータが収集されることがあります。特に収集グループ（例：性別・年齢別の割当サンプル）を基準に回答を集める場合、一部のグループで回答が目標を超えることがあります。このような場合、過剰な回答を整理することで目標のサンプル構造を維持しながら分析に使用するデータを整えることができます。

Step 1. 対象のアンケートを選択し、上部メニューから [分析 > 回答] 画面に移動してください。

Step 2. 回答画面下部の「回答クリーニング」エリアで「回答状況を見る」設定を有効にします。

Step 3. 各収集グループごとに、総回答数、超過回答数、クリーニングされた回答数、有効回答数、収集目標数、目標対比で不足または超過している回答数を確認できます。この情報から、どの収集グループで目標より多く回答が収集されたかを一目で把握できます。

💡 ご利用のヒント | 「目標対比超過行」または「目標対比不足行」チェックボックスを選択すると、その条件に該当する収集グループのみを別途確認できます。

Step 4. [超過回答を除外] ボタンをクリックすると、収集グループごとの目標を超えた回答がランダムに除外され、目標サンプルに合わせてデータが整理されます。

💡 ご利用のヒント | 超過回答除外機能を活用することで、特定のグループに回答が過度に集中することを防ぎ、調査設計段階で設定したサンプルバランスを維持した状態でデータを分析できます。

4️⃣ 自動化ボット回答を除外する

📌 ボット回答モニタリング設定はEnterpriseプランでご利用いただけます。

オンラインアンケートを進める中で、実際の回答者ではなく自動化されたプログラムやマクロがアンケートに参加して回答を残すケースが発生することがあります。

ボット回答モニタリング機能を活用すると、アンケート参加過程で見られるさまざまな行動パターンをもとにボット回答の可能性を分析したスコアを確認できます。これにより、ボットと疑われる回答を把握してクリーニングするのに役立ちます。（📖 参考資料：ボット回答モニタリングの設定）

step 1. 収集グループ作成時に「ボット回答モニタリング」を有効にしたアンケートを選択し、[分析 > 回答] 画面に移動してください。

step 2. 「変数読み込み」をクリックし、[メタデータ > recaptcha score] からボット判断スコアを確認できます。

step 3. 以下の基準を参考にして除外したい回答を選択し、[クリーニング] をクリックしてください。

0.1点以下：ボットである可能性が非常に高く、クリーニングを強く推奨します。
0.2〜0.4点：ボットである可能性がありますが、実際の回答者の場合もあるため、回答内容を合わせて確認した上で判断することを推奨します。
0.5点以上：実際の回答者である可能性が高いスコアです。

🧙 クリーニングした回答を復元したい場合は？

クリーニングで除外した回答は、いつでも有効な回答として復元することができます。

回答画面で「クリーニング」状態と表示されている回答を選択し、右下の [有効化] ボタンをクリックしてください。選択した回答が再び分析に含まれます。

また、回答画面下部の「回答クリーニング」エリアで「復元対象」に回答IDを直接入力して復元することもできます。

回答を詳しく確認した上で復元したい場合は、該当する回答右側の矢印アイコンをクリックし、「回答の詳細を見る」画面で対象の回答を選択して有効化する方法もご活用ください。

💡 回答画面にはこんな機能もあります

✅ 変数読み込み

変数読み込みは、回答テーブルで確認する変数を追加で読み込む機能です。変数は年齢、性別、地域、回答結果などデータの構成要素のひとつで、測定・計算できる項目です。

新しい変数を読み込む

step 1. 回答テーブル右上の [変数読み込み] ボタンをクリックしてください。

step 2. 変数読み込み画面が表示されたら、回答・プロフィール・メタデータのタブから希望のタブを選択し、読み込む変数を選択して [選択完了] ボタンをクリックします。

回答： アンケート設問の回答データを読み込みます。
プロフィール： 回答者のプロフィールデータを変数として読み込みます。Dataspaceでは、MYパネルとして登録された回答者を対象に実施したアンケートでのみプロフィール変数が表示されます。
メタデータ： 回答に関連する付加情報を読み込みます。例えば、パネルID、回答開始時刻、回答終了時刻、クリーニング基準変数、クリーニング理由、不誠実回答数などが含まれます。

step 3. 変数を読み込むと、回答テーブルに該当する変数データが追加され、各回答者の変数別データを合わせて確認できます。

すでに読み込んだ変数を除外したり新しい変数を追加したりしたい場合は、再び [変数読み込み] 画面で希望の変数を選択または除外し、[選択完了] ボタンをクリックしてください。

よくあるご質問

Q. 画像回答もクリーニングできますか？

A. はい、可能です。まず [変数読み込み] から画像回答変数を追加してください。

その後、回答リストで該当する回答右側の矢印アイコンをクリックすると「回答の詳細を見る」画面に移動します。この画面で回答者が添付した画像を直接確認できます。

画像を確認しながら、該当する回答をクリーニングするかどうかを判断してください。

Q. 代表サンプルを合わせるために超過回答を必ず除外する必要がありますか？

A. 調査目的によっては推奨されることがあります。市場状況の把握や母集団を代表する必要がある調査では、特定のグループ（例：特定の年齢層）の回答が目標より多く収集された場合、分析結果が歪む可能性があります。このような場合は [超過回答を除外] 機能を活用してサンプル構成を均等に整理してください。

Q. どのような基準でクリーニングするのがよいですか？

A. 調査目的と状況に合った基準を設定することが重要です。企業や調査目的によって「誠実な回答」の基準は異なる場合があります。最初はスコアだけで判断するのではなく、テキスト回答の内容と回答速度なども合わせて確認しながら基準を定めることをお勧めします。それをもとに、プロジェクトの特性に合った適切なクリーニング基準を設定してください。

回答クリーニングについてご不明な点は解消されましたでしょうか。

データ精製の過程で特定の回答の処理方法に迷ったり、機能が正常に動作しない場合は、画面右下の [ヘルプセンターアイコン] からいつでもお問い合わせください。

お困りの点を解決するために、チーム一同最善を尽くします。

応答タブとは？

テキストAI – 原文回答

Sincerity Score（誠実度スコア）とは？

ボット回答モニタリングの設定

回答品質スコアとは？