データをマスキング(匿名化)したい

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2
以下のリンクより、当Tipsのサンプルスクリプトがダウンロード可能です。
是非ダウンロード頂き、ご活用ください。

データをマスキング(匿名化)したい

はじめに

こんにちは、HULFTコミュニティ運営チームの梅津です。

DataMagicでデータマスキングする方法を紹介します。
データマスキングとはデータを匿名化する処理です。
例えばシステムのテスト段階で、本番データに近いテストデータを用意したい場合などに使用します。

マスキングのパターンは色々ありますが、今回は「都道府県」、「市区町村群」、「-」の文字列以外を「*」に置換するパターンを紹介します。
●処理イメージ
●使う機能
  • REPLACE_REG関数
●データ加工情報の完成イメージと設定手順
●サンプルデータファイル
データマスキングin.txt
※ページ下方のリンクより、当Tipsのサンプルデータファイルがダウンロード可能です。

REPLACE_REG関数とは

データ加工情報の作成手順の前に、REPLACE_REG関数についてご説明します。

REPLACE_REG関数は文字列の中に含まれる一部の文字列を他の文字列に変換するために使用します。
また、正規表現を用いて文字列の置換を行うことも可能です。
関数
REPLACE_REG{PATTERN ,REPLACEMENT }
パラメータ
PATTERN
検索する文字列を指定します(省略不可)。
REPLACEMENT
置換する文字列を指定します(省略不可)。
使用例
先頭にある「あ」の文字列を「い」に、それ以外の「あ」を「う」に置換する。
※使用可能な正規表現の詳細についてはDataMagic リファレンスマニュアルを参照ください。

サンプルデータ加工情報の作り方

(1) データ加工情報「Tips9」を新規に作成します。

(2) 入力設定をダブルクリックで開き、入力ファイルを定義します。

(3) 「抽出条件の追加」はOKを選択します。

(4) 出力設定をダブルクリックで開き、出力ファイルを定義します。

(5) 出力設定と抽出条件を紐づけて、マッピング情報設定をダブルクリックで開きます。

(6) 入力項目と出力項目を定義します。

(7) マスキング対象の項目を選択して出力情報を定義します。

(8) REPLACE_REG関数で、置換する処理を定義します。

(9) マッピング情報設定で「OK」をクリックして、データ加工情報を適用させて処理を実行します。

処理イメージと同じように出力されていれば成功です。

さいごに

いかがでしょうか?

このように、DataMagicを使うことで、簡単にデータマスキングすることができます。
REPLACE_REG関数の引数を変更することで、他パターンのマスキングができますので、ぜひ試してみてください。

サンプルデータファイル

この記事は役に立ちましたか?
1人中1人がこの記事が役に立ったと言っています

コメント