データ解析では、数値データのほかカテゴリデータを使います。

カテゴリデータというのは、統計学において

 

 

カテゴリーデータ categorical data

 名義尺度または順序尺度測定されるデータ
離散変数参照のこと。
参照:https://www.weblio.jp/content/%E3%82%AB%E3%83%86%E3%82%B4%E3%83%AA%E3%83%BC%E3%83%87%E3%83%BC%E3%82%BF

 

を指しますが、簡単にお伝えすると

  • 性別(男女)
  • 会員のランク(ゴールド/シルバー/普通会員など)
  • 支払方法(クレジットカード/代引き/銀行引き落としなど)
  • 住所情報の都道府県名

などが含まれます。

このようなデータをプログラムが解析しやすいように、

  • 男なら1
  • 女なら2

のようにデータを整理して使っていきます。

しかしこのデータですが、通常顧客リストに載っているのですが、大部分のデータがそのままでは使えない状況です。

 

それは、なぜでしょうか??

多くのお客様からデータ活用したいなーとはいいますが、データのルール作り・整理を行いたいなーとはいいませんよね?

顧客リストも使う営業や、オペレーターに依存してしまい、同じことへの表記の揺れが発生してしまっているのです。

そのため、データ解析に進む前に、データの書式が揃っていなくてデータをきれいにする必要があるケースが多くみられます。

これまでの経験では、解析する前の整理が必要なケースは95%以上です。

今回は、そのデータサイエンティストとして経験してきた苦悩をぶつけるべく多くあるパターンをランキングにしてみました。

 

ランキング3位 住所やエリアに役立つデータなのに…「電話番号」

 

電話番号

 

顧客データとしては必須とも考えられる電話番号が、ランキング3位です。

一見データにずれは生まれなさそうなものに思うかもしれません。

しかしデータの形式はさまざま考えられます

例えば

  1. 03-4456-xxxx(ハイフン区切り)
  2. 03(4456)xxxx(カッコ区切り)
  3. 034456xxxx(区切り無し)
  4. 34456xxxx(先頭の0がない)
  5. 03-4456-xxxx(全角!)

などなどです。

しかも大体の場合は、同じファイル内でこれらが混在しています。

電話番号の入力するルール作りは必須な項目といえます。

 

ランキング2位 和暦も西暦も入れ方いろいろな「日付」

 

日付と時間

 

生年月日や購買日などのシート内でこれらの書式が混在していることも少なくありません。

  1. 20190723
  2. 2019/07/23
  3. 2019年7月23日
  4. 2019-07-23
  5. まさかの和暦入力……

さらによく見られるのが…….

 

ランキング1位 カタカナ・アルファベット・数字の半角全角

 

 

もっともデータサイエンティストとして悩まされるのが、

文字データの中のカタカナやアルファベットや数字の半角・全角の混在です。

 

ある製品を買った人数を調べようと集計を行うと、売れ筋商品が上位に出てこないことがあります。そうしたときは、こうした表記の揺らぎを疑います。
例えば、架空の製品名ですが、

  1. 「青汁スーパーアルファ1」(すべて全角)
  2. 「青汁スーパアルファ1」(なぜかスーパーだけ半角)
  3. 「青汁スーパーアルファ1」(逆にアルファが半角)
  4. 「青汁スーパーアルファ1」(カタカナが全て半角)
  5. 「青汁スーパーアルファ1」(数字が半角)

などの表記の揺れが原因のことが度々見られます。表記の揺らぎでいうと、さらに、スペース(空白)の有り無し、スペースの半角・全角の違いなどなんでもありです。例えば、

  1. 「青汁スーパーアルファ 1」(1の前に全角スペースあり)
  2. 「青汁スーパーアルファ 1」(1の前に半角スペースあり)
  3. 「青汁スーパーアルファ1 」(1の後ろに全角スペースあり)

などです。

ついでに言うと、「青汁スーパα1」というのまであることも……

こういうケースでは、本当は同じ商品なのに表記が揺れているために違うものとして認識されてしまいます。

例えば、年100万個の売れ筋商品の「青汁スーパーアルファ1」に表記の揺れが5通りあって、それぞれの表記ごとに60万個、20万個、15万個、3万個、2万個のように数が割れてしまうことがあります。

その結果、機械的に集計しただけだと間違った製品ランキングになったりします。

データの集計や解析を行う前に、こうした表示形式や表記の揺れの有無を調べて、地道に1つづ修正していく(1つの形式、表記に統一する)ことが大切です。

この作業単純なようで、データ分析作業の時間の20~30%を費やすこともだびたびあります。

大変時間と労力のかかる仕事ですが、この作業なしでは解析することができないし、解析ができたとしてもその結果の質に大きく影響してきます。

実際データ活用をしたいなと考えたときに焦らないように、日常からのデータ整理・ルール作りは少しだけ意識してみてくださいね。