データをクレンジング(正規化)したい

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2(コード変換・オプション for Windows)
以下のリンクより、当Tipsのサンプルスクリプトがダウンロード可能です。
是非ダウンロード頂き、ご活用ください。

データをクレンジング(正規化)したい

はじめに

こんにちは、HULFT OrangeLab.運営チームの梅津です。

データクレンジングという言葉はご存知でしょうか?
例えば、全角文字と半角文字の違いや、空白文字や区切り記号の有無、法人名の表記で株式会社と(株)の違いなど、それぞれの表記ルールを決めて修正・削除を行っていくことを指します。

●処理イメージ

(1)全角半角カナが混在したデータを統一



(2)空白文字の削除



●使う機能
  • 全角半角変換
  • REPLACE_REG関数
●データ加工情報の完成イメージと設定箇所


●サンプルデータファイル
  • 全角半角in.txt 空白in.txt
    ※ページ下方のリンクより、当Tipsのサンプルデータファイルがダウンロード可能です。

サンプルデータ加工情報の作り方

(1) データ加工情報「Tips2」を新規に作成します。

(2) 「抽出条件の追加」はOKを選択します。

(3) 出力設定をダブルクリックで開き、出力ファイルを定義します。

出力ファイル指定後、コード変換タブに移動します。

(4) 全角半角の混在するカタカナを半角に統一します。

カナ変換で「全角⇒半角」を選択します。

(5) 抽出条件と出力設定を紐づけて、マッピング情報設定をダブルクリックで開きます。

(6) 入力項目と出力項目をマッピングします。

(7) データ加工情報を適用させて処理を実行します。

処理イメージ(1)と同じくカタカナが半角に統一して出力されていれば成功です。

(8) 続いて空白文字を削除します。「マッピング情報設定」を開きます。

(9) 対象の項目を選択して、出力情報をダブルクリックします。

(10) 文字列を置換する関数を設定します。

(11) データ加工情報を適用させて処理を実行します。

処理イメージ(2)と同じくスペースを削除して出力されていれば成功です。

最後に

いかがでしょうか?
半角全角変換はコード変換の機能を使用しています。
そのため、利用するにはコード変換オプションが必要となります。

サンプルデータファイル

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント