テーマ② 【DataMagic】表記ゆれの住所録をクレンジングする

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2(コード変換・オプション for Windows、Excel・オプション for Windows)
表記ゆれでグチャグチャな住所録ファイルがあります。
この住所録をクレンジングし、別名ファイルで保存したいです。

詳細要件

今までExcelを使って手入力で管理していた顧客データを、各システムから参照可能なDBへ移行します。
DBへ登録する前に、表記にバラつきのあるデータをあらかじめクレンジングしておく必要があります。



ヒントじゃ!
Excelファイルを扱うことも可能なDataMagicを使うのじゃ。そして、どのように加工するかを確認し、一項目ずつ正確に設定していくのじゃ。簡易設定できない変換については、関数を使うと良いじゃろう。
 

模範解答

DataMagicを用いてデータ加工を行い、表記にバラつきのあるデータのクレンジングを行います。

使用ソフトウェア

ソフトウェアバージョン
DataMagic for Windows 2.2.2

※「Excel・オプション」および「コード変換・オプション」を使用します
■ テストデータ配置先
C:\demofile\DataMagic\住所録.xlsx
C:\demofile\DataMagic\住所録(クレンジング後).xlsx
※上記テストデータおよびサンプルは、ページ下部のリンクよりダウンロード可能です。

流れ

  1. 入出力データへ接続するための接続情報(DB接続情報)を登録します。
  2. データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。
  3. 1と2で作成した設定を用いてデータ加工情報を登録します。
  4. データ加工を実行します。

手順

  1. 入出力データへ接続するための接続情報(DB接続情報)を登録します。

    (1) Excelファイルのデータレイアウトを読み込むためにDB接続情報を新規作成します。
    ※DataMagicではExcelをDBとみなして扱います。そのため、DB接続情報として設定を保存します。


    ■ DB接続情報ID: Excel_in


    (2) 入力用の設定をコピーし、出力用の設定も作成します。


    ■ コピー先ID: Excel_out


  2. データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。

    (1) Excelファイルのデータ加工に用いるレイアウトをDBテーブル情報として新規作成します。


    ■ DBテーブル情報ID: Address_in


    (2) 入力用の設定をコピーし、出力用の設定も作成します。


    ■ コピー先ID: Address_out


  3. 1と2で作成した設定を用いてデータ加工情報を登録します。

    (1) 1と2で作成した設定を用いて、データクレンジングを行うデータ加工情報を新規作成します。


    ■ データ加工情報ID: cleansing


    (2) 2で作成したDBテーブル情報[Address_in]を用いて入力データの設定を行います。








    (3) 2で作成したDBテーブル情報[Address_out]を用いて出力データの設定を行います。




    (4)ドラッグアンドドロップで関係線を繋ぎ、出力設定へ紐付けます。


    (5) 丸いアイコンをクリックし、マッピング設定を行います。


    (6) 「同一項目名でマッピング可能な項目をすべてマッピングしますか?」と聞かれるので、「はい」を選択します。




    (7) ここから、データクレンジング要件に合わせてマッピング情報設定を行います。
    項目ごとに、全角半角の統一、スペース、記号の置き換えの設定をします。




    (8) REPLACE_REG関数で半角スペースを全角スペースに置き換えます。




    (9) REPLACE_REG関数でハイフンを取り除きます。




    (10) REPLACE_REG関数で不要な記号をすべて取り除きます。


  4. データ加工を実行します。

    3で作成したデータ加工情報を実行します。

まとめ

いかがでしたでしょうか。
このようにDataMagicを使えば、全角半角の混在や、統一されていない記号の混在データ等、設定次第で様々なデータクレンジングに対応することができます。
この便利さを是非、皆さんも体験してみてください。

テストデータおよびサンプル

データはzip形式での提供となります。解凍してからご利用ください。

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント