使用ソフトウェア:DataMagic for Windows Ver.2.2.2(コード変換・オプション for Windows、Excel・オプション for Windows)
表記ゆれでグチャグチャな住所録ファイルがあります。
この住所録をクレンジングし、別名ファイルで保存したいです。
この住所録をクレンジングし、別名ファイルで保存したいです。
詳細要件
今までExcelを使って手入力で管理していた顧客データを、各システムから参照可能なDBへ移行します。
DBへ登録する前に、表記にバラつきのあるデータをあらかじめクレンジングしておく必要があります。

DBへ登録する前に、表記にバラつきのあるデータをあらかじめクレンジングしておく必要があります。


ヒントじゃ!
Excelファイルを扱うことも可能なDataMagicを使うのじゃ。そして、どのように加工するかを確認し、一項目ずつ正確に設定していくのじゃ。簡易設定できない変換については、関数を使うと良いじゃろう。
模範解答
DataMagicを用いてデータ加工を行い、表記にバラつきのあるデータのクレンジングを行います。
※「Excel・オプション」および「コード変換・オプション」を使用します
使用ソフトウェア
ソフトウェア | バージョン |
---|---|
DataMagic for Windows | 2.2.2 |
※「Excel・オプション」および「コード変換・オプション」を使用します
- ■ テストデータ配置先
- C:\demofile\DataMagic\住所録.xlsx
- C:\demofile\DataMagic\住所録(クレンジング後).xlsx
流れ
- 入出力データへ接続するための接続情報(DB接続情報)を登録します。
- データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。
- 1と2で作成した設定を用いてデータ加工情報を登録します。
- データ加工を実行します。
手順
- 入出力データへ接続するための接続情報(DB接続情報)を登録します。
(1) Excelファイルのデータレイアウトを読み込むためにDB接続情報を新規作成します。
※DataMagicではExcelをDBとみなして扱います。そのため、DB接続情報として設定を保存します。
■ DB接続情報ID: Excel_in
(2) 入力用の設定をコピーし、出力用の設定も作成します。
■ コピー先ID: Excel_out
- データ加工に用いるレイアウト情報(DBテーブル情報)を登録します。
(1) Excelファイルのデータ加工に用いるレイアウトをDBテーブル情報として新規作成します。
■ DBテーブル情報ID: Address_in
(2) 入力用の設定をコピーし、出力用の設定も作成します。
■ コピー先ID: Address_out
- 1と2で作成した設定を用いてデータ加工情報を登録します。
(1) 1と2で作成した設定を用いて、データクレンジングを行うデータ加工情報を新規作成します。
■ データ加工情報ID: cleansing
(2) 2で作成したDBテーブル情報[Address_in]を用いて入力データの設定を行います。
(3) 2で作成したDBテーブル情報[Address_out]を用いて出力データの設定を行います。
(4)ドラッグアンドドロップで関係線を繋ぎ、出力設定へ紐付けます。
(5) 丸いアイコンをクリックし、マッピング設定を行います。
(6) 「同一項目名でマッピング可能な項目をすべてマッピングしますか?」と聞かれるので、「はい」を選択します。
(7) ここから、データクレンジング要件に合わせてマッピング情報設定を行います。
項目ごとに、全角半角の統一、スペース、記号の置き換えの設定をします。
(8) REPLACE_REG関数で半角スペースを全角スペースに置き換えます。
(9) REPLACE_REG関数でハイフンを取り除きます。
(10) REPLACE_REG関数で不要な記号をすべて取り除きます。
- データ加工を実行します。
3で作成したデータ加工情報を実行します。
まとめ
いかがでしたでしょうか。
このようにDataMagicを使えば、全角半角の混在や、統一されていない記号の混在データ等、設定次第で様々なデータクレンジングに対応することができます。
この便利さを是非、皆さんも体験してみてください。
このようにDataMagicを使えば、全角半角の混在や、統一されていない記号の混在データ等、設定次第で様々なデータクレンジングに対応することができます。
この便利さを是非、皆さんも体験してみてください。
テストデータおよびサンプル
データはzip形式での提供となります。解凍してからご利用ください。
コメント