データをクレンジング(正規化)したい

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2(コード変換・オプション for Windows)
以下のリンクより、当Tipsのサンプルスクリプトがダウンロード可能です。
是非ダウンロード頂き、ご活用ください。

データをクレンジング(正規化)したい

はじめに

こんにちは、HULFT OrangeLab.運営チームの梅津です。

データクレンジングという言葉はご存知でしょうか?
例えば、全角文字と半角文字の違いや、空白文字や区切り記号の有無、法人名の表記で株式会社と(株)の違いなど、それぞれの表記ルールを決めて修正・削除を行っていくことを指します。

●処理イメージ

(1)全角半角カナが混在したデータを統一
TIPS008_01a.png

(2)空白文字の削除
TIPS008_02a.png

●使う機能
  • 全角半角変換
  • REPLACE_REG関数
●データ加工情報の完成イメージと設定箇所
TIPS008_03a.png

●サンプルデータファイル
  • 全角半角in.txt 空白in.txt
    ※ページ下方のリンクより、当Tipsのサンプルデータファイルがダウンロード可能です。

サンプルデータ加工情報の作り方

(1) データ加工情報「Tips2」を新規に作成します。

TIPS008_04a.png

(2) 「抽出条件の追加」はOKを選択します。

(3) 出力設定をダブルクリックで開き、出力ファイルを定義します。

出力ファイル指定後、コード変換タブに移動します。
TIPS008_05a.png

(4) 全角半角の混在するカタカナを半角に統一します。

カナ変換で「全角⇒半角」を選択します。
TIPS008_06a.png

(5) 抽出条件と出力設定を紐づけて、マッピング情報設定をダブルクリックで開きます。

TIPS008_07a.png

(6) 入力項目と出力項目をマッピングします。

TIPS008_08a.png

(7) データ加工情報を適用させて処理を実行します。

処理イメージ(1)と同じくカタカナが半角に統一して出力されていれば成功です。

(8) 続いて空白文字を削除します。「マッピング情報設定」を開きます。

(9) 対象の項目を選択して、出力情報をダブルクリックします。

TIPS008_09a.png

(10) 文字列を置換する関数を設定します。

TIPS008_10a.png

(11) データ加工情報を適用させて処理を実行します。

処理イメージ(2)と同じくスペースを削除して出力されていれば成功です。

最後に

いかがでしょうか?
半角全角変換はコード変換の機能を使用しています。
そのため、利用するにはコード変換オプションが必要となります。

サンプルデータファイル

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント