テーマ② 【DataMagic】表記ゆれの住所録をクレンジングする

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2(コード変換・オプション for Windows、Excel・オプション for Windows)
表記ゆれでグチャグチャな住所録ファイルがあります。
この住所録をクレンジングし、別名ファイルで保存したいです。

詳細要件

今までExcelを使って手入力で管理していた顧客データを、各システムから参照可能なDBへ移行します。
DBへ登録する前に、表記にバラつきのあるデータをあらかじめクレンジングしておく必要があります。

Meeting02_00b.png

ヒントじゃ!
Excelファイルを扱うことも可能なDataMagicを使うのじゃ。そして、どのように加工するかを確認し、一項目ずつ正確に設定していくのじゃ。簡易設定できない変換については、関数を使うと良いじゃろう。
 

模範解答

DataMagicを用いてデータ加工を行い、表記にバラつきのあるデータのクレンジングを行います。

使用ソフトウェア

ソフトウェア バージョン
DataMagic for Windows 2.2.2

※「Excel・オプション」および「コード変換・オプション」を使用します
■ テストデータ配置先
C:\demofile\DataMagic\住所録.xlsx
C:\demofile\DataMagic\住所録(クレンジング後).xlsx
※上記テストデータおよびサンプルは、ページ下部のリンクよりダウンロード可能です。

流れ

  1. 入出力データへ接続するための接続情報(DB接続情報)を登録します。
  2. データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。
  3. 1と2で作成した設定を用いてデータ加工情報を登録します。
  4. データ加工を実行します。

手順

  1. 入出力データへ接続するための接続情報(DB接続情報)を登録します。

    (1) Excelファイルのデータレイアウトを読み込むためにDB接続情報を新規作成します。
    ※DataMagicではExcelをDBとみなして扱います。そのため、DB接続情報として設定を保存します。
    Meeting02_01a.png

    ■ DB接続情報ID: Excel_in
    Meeting02_02a.png

    (2) 入力用の設定をコピーし、出力用の設定も作成します。
    Meeting02_03a.png

    ■ コピー先ID: Excel_out
    Meeting02_04a.png

    Meeting02_05a.png
  2. データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。

    (1) Excelファイルのデータ加工に用いるレイアウトをDBテーブル情報として新規作成します。
    Meeting02_06a.png

    ■ DBテーブル情報ID: Address_in
    Meeting02_07a.png

    (2) 入力用の設定をコピーし、出力用の設定も作成します。
    Meeting02_08a.png

    ■ コピー先ID: Address_out
    Meeting02_09a.png

    Meeting02_10a.png
  3. 1と2で作成した設定を用いてデータ加工情報を登録します。

    (1) 1と2で作成した設定を用いて、データクレンジングを行うデータ加工情報を新規作成します。
    Meeting02_11a.png

    ■ データ加工情報ID: cleansing
    Meeting02_12a.png

    (2) 2で作成したDBテーブル情報[Address_in]を用いて入力データの設定を行います。
    Meeting02_13a.png

    Meeting02_14a.png

    Meeting02_15a.png

    Meeting02_16a.png

    (3) 2で作成したDBテーブル情報[Address_out]を用いて出力データの設定を行います。
    Meeting02_17a.png

    Meeting02_18a.png

    (4)ドラッグアンドドロップで関係線を繋ぎ、出力設定へ紐付けます。
    Meeting02_19a.png

    (5) 丸いアイコンをクリックし、マッピング設定を行います。
    Meeting02_20a.png

    (6) 「同一項目名でマッピング可能な項目をすべてマッピングしますか?」と聞かれるので、「はい」を選択します。
    Meeting02_21a.png

    Meeting02_22a.png

    (7) ここから、データクレンジング要件に合わせてマッピング情報設定を行います。
    項目ごとに、全角半角の統一、スペース、記号の置き換えの設定をします。
    Meeting02_23a.png

    Meeting02_24a.png

    (8) REPLACE_REG関数で半角スペースを全角スペースに置き換えます。
    Meeting02_25a.png

    Meeting02_26a.png

    (9) REPLACE_REG関数でハイフンを取り除きます。
    Meeting02_27a.png

    Meeting02_28a.png

    (10) REPLACE_REG関数で不要な記号をすべて取り除きます。
    Meeting02_29a.png

    Meeting02_30a.png
  4. データ加工を実行します。

    3で作成したデータ加工情報を実行します。
    Meeting02_31a.png

まとめ

いかがでしたでしょうか。
このようにDataMagicを使えば、全角半角の混在や、統一されていない記号の混在データ等、設定次第で様々なデータクレンジングに対応することができます。
この便利さを是非、皆さんも体験してみてください。

テストデータおよびサンプル

データはzip形式での提供となります。解凍してからご利用ください。

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント