データクリーニング(エディティング)とは?実施のポイントを紹介

2021年08月18日

データクリーニング(エディティング)は、どんなことを行うのでしょうか? この記事では、データクリーニングの必要性、実施のポイントについて解説します。

データクリーニング(エディティング)とは

マーケティングリサーチにおけるデータクリーニング(data cleaning)は、アンケート調査後に回収した調査票の記入内容を点検し、回答の誤りや不備を修正することです。データクレンジング、エディティングとも呼ばれます。

◆マーケティングリサーチのデータクリーニング(エディティング)

  • 不適切サンプルの除外
  • 回答データの修正
  • データの欠損がないか

マーケティングリサーチにおけるデータクリーニング(エディティング)を詳しく見ていきましょう。

不適切サンプルの除外

不適切なサンプルとは、同一人物による複数回答や「ああああ」などの意味のない回答といった「設問を読まずに回答していそうな不誠実な回答」のことです。こういった回答は調査の精度を下げるので、出来る限り除外したいものです。

不適切サンプルが多い場合、予備サンプルとの入れ替えが行われることもあります。

回答データの修正

マーケティングリサーチでは、同じような質問を言い回しを変えて複数回聞くことがあります。 このときに評価が極端に違ったり、性別や属性との矛盾があったりなど、整合性が取れていない回答が見られることがあります。こういった回答矛盾は調査票までさかのぼって点検・修正を行ったり、データの除外を行ったりすることがあります。

回答データの欠損がないか

設問設計で、「Q1で『はい』と回答した人は、Q2をスキップしてQ3を回答してもらう」といった作り方をすることがあります。しかし、特に紙などのアナログな調査方法の場合、回答者が設問の指示をよく読まずに設計どおりに回答されていないこともあります。 ただし、矛盾した回答であっても本当に誤っただけの場合もあるため、修正により回答者の意図を損ねない配慮が必要です。

データベースにおけるデータクリーニング

企業が有する顧客データベースにおいても、データクリーニングが行われることがあります。この場合は、不適切な情報や書式や表記のルールを整えたり、顧客の住所や連絡先を修正したり、取引がない企業を洗い出し削除したりすることで最新の状態に整えることを指します。

◆データベースにおけるデータクリーニング

  • 誤字や脱字の修正
  • 数字や空白の全角・半角を統一
  • 漢字の旧字体・新字体の統一
  • 住所や企業情報などを正しいものへ修正
  • 表記のゆらぎを統一(漢字の「ヶ」「ケ」など)
  • 足りない情報の補てん

数字の全角・半角や漢字の表記を統一する場合には一定の基準やルールを設定し、それに合わせて情報を統一させます。 例えば、「データ内の数字は全て半角で統一する」「顧客名の姓と名の間の空白は全て半角で統一する」「漢字は全て旧漢字ではなく新字体に変更する」などを決めてから情報を整備していくということです。

マーケティングリサーチにおけるデータクリーニングの注意点

マーケティングリサーチにおいてデータクリーニング(エディティング)を行うとき、2つの注意点があります。 1つ目は、主要手順と規定は調査実施記録の一部として文書化しておくか、必要に応じて入手できるようにしておくことです。 2つ目は、元データとクリーニング済みのデータは明確に識別され、管理されることが必要です。 これはどちらも調査実施者が調査結果を恣意的に改変しないようにするためです。

まとめ

データクリーニング(エディティング)を行わないと、せっかく行った調査や分析の品質が下がってしまいます。 マーケティングリサーチは対人に行うものなので、回答のゆらぎはどうしても避けられません。回答意図を損ねない限りでデータクリーニング(エディティング)を行い、正しい情報に整備することで、より精度の高い分析が可能になります。

GMOリサーチのサービスでは、不正な回答はご納品前にデータクリーニングを行っています。あなたの調査の有効票を保証します。

サービス概要を無料配布中「3分で読めるGMOリサーチのサービス」
3分で読めるGMOリサーチのサービス
最後までお読みいただきありがとうございます。
GMOリサーチはお客様のマーケティング活動を支援しており、さまざまなサービスを提供しております。
  • スピーディーにアンケートデータを収集するには
  • お客様ご自身で好きな時にアンケートを実施する方法
  • どこの誰にどれくらいリーチができるか
などをまとめた資料をお配りしております。
ぜひこの機会にお求めください。
資料請求する