データクレンジングとは、データベースにおいて誤ったデータや配置ミス、破損したデータ、無関係なデータなどを特定し整理して、スムーズに活用できるように最適化することです。
データに入力ミスや未入力、重複などがあると、機械は正しく機能しません。
特に、全角と半角の混在などの「表記揺れ」は、人間では同じ情報だと判断できても機械では同じ情報として認識する事ができないのです。
このような不備が混在するデータは、データベースのその後の活用や処理に支障をもたらすばかりか、幅広い業務に悪影響を及ぼす可能性があります。
データベースをもとにしたマーケティング活動を行うには、正確で精度の高いデータ活用が欠かせません。データクレンジングをしないまま不正確で一貫性のないデータを利用しようとすると、幅広い業務で手間やコストがかかります。
例えば、表記ゆれを放置していたために、同じ顧客に対して何度も同じ情報を送付するような事態が起こると、重複してコストがかかるばかりか顧客の信頼を失う可能性もあるのです。
データクレンジングは、このようなリスクを回避するために重要な対策といえます。
データクレンジングを行うと、入力情報と本人確認の読み取り結果が一致しているかをすぐに判定できるようになります。実際に、eKYCサービスには画像データのテキスト部分を認識して文字データに変換する技術が搭載されているものがあり、本人確認書類の読み取りができるようになっています。
入力データと読み取り結果が一致すれば、スムーズな本人確認を実行できるようになります。
ここからは、データクレンジングによって得られるメリットについてお伝えしていきます。
表記揺れや誤字脱字、重複などのデータ不備を取り除くことによって、本人確認の読み取り結果との照合がしやすくなります。申込み内容の確認と本人確認を行う審査作業では人員が必要ですが、データクレンジングが行われていれば、審査にかかる人員コストや作業負担も軽減されます。
スマートフォンのカメラ機能で撮影した本人確認情報を読み取り、文字を自動で認識するOCR技術を使えば、入力項目を埋めるのは人ではなくeKYCです。そのため、読み取り時点でデータクレンジングの必要性がなく、認証時のエラーが起こりにくくなります。
eKYCに搭載されたOCR技術によるデータ収集は、ルールに基づいた状態で集められるため、登録される情報はすでにデータクレンジングされた状態です。高精度な状態でデータを管理できるため、その後のマーケティングにも活かしやすくなります。その結果、企業の信頼性維持・向上に繋がります。
データクレンジングと似た用語に「データクリーニング」がありますが、これはデータクレンジングの別の呼び方で、データクレンジングと同様の意味を持ちます。
もうひとつ、似た用語に「名寄せ」がありますが、こちらはデータクレンジングとは少し意味が異なります。
名寄せは、重複したデータを整理して削除し、ひとつにまとめる作業を指す言葉です。名寄せもデータクレンジングの一部であり、同じ意味で使われる場合もありますが、作業が限られている点で違いがあります。
短期間導入・AI自動審査で
業務効率UP可能なeKYC
社内SEと要件定義から
開発設計・導入
金融機関水準の
セキュリティで導入