応用!データ加工〔データマスキング〕

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.3.0.0(コード変換・オプション for Windows)
「DataMagic」を利用したデータマスキングについてご紹介します。
データマスキングとは何か、利用シーンと共にご説明した後、実際の設定方法を解説していきます。
※Ver.2.2.2のDataMagicについては、次の記事をご参照ください。
 (記事内容に大きな差異はありません。
  Ver.3.0.0のインタフェースに沿った操作手順とスクリーンショットにて、再度ご紹介しています。)
 DataMagic 応用!データ加工〔データマスキング〕 (Ver.2.2.2)

はじめに

HULFT OrangeLab.運営チームの佐々木です。

今回紹介するのはデータマスキングとなります。まずは利用シーンをご説明します。

開発やシステム構築などでテストを行うとき、テストに利用するデータは本番データにできるだけ近いものを用意することが望まれます。
そのためシステムの検証時には、本番データを抽出し、利用目的に合ったデータを用意します。

しかし個人情報が含まれる本番データをそのまま利用することはセキュリティの観点から当然NGです。
そこで、個人情報にあたる電話番号や住所などの文字列にマスキング処理を行うことで、テストなどにも利用することが可能となります。

コマンドなどを駆使してテストデータを作成することも不可能ではないのですが、もちろん、作成するための工数が掛かりますよね。
そこで、DataMagicを用いて、対象データの個人情報部分に対して、定めたルールでマスキングする方法をご紹介します。

今回の実践は下記イメージのようにCSVファイルを加工していきます。



今回使用するマスキングルールは以下の5つとなります。

準備

まずは、変換元となるデータを用意します。

サンプルデータ[CSV形式]

格納先は任意ではありますが、今回は以下のフォルダを作成してください。

 サンプルデータ格納先
  C:\work\SAMPLE\inputdata\
 出力データ格納先
  C:\work\SAMPLE\outputdata\

準備として「DataMagic」を起動し、任意で作成した接続先に接続してください。

手順

データ変換に必要な定義情報を作成します。
データ変換の流れは大きく分けると以下になります。

1.入力ファイル情報の設定
2.出力ファイル情報の設定
3.データ加工情報の設定

Step01

まずは、「1.入力ファイル情報の設定」を行いましょう。

スタートページから「CSV」を選択します。

Step02

操作メニューから「新規作成」をクリックし、CSV情報詳細画面を起動します。
画面が起動したら、下記画面を参考に「ID」と項目情報を設定し、「保存」をクリックして登録します。



項目名 説明
囲み文字 文字列データに付加されている囲み文字を指定します。
今回は【0x00】を設定します。
ID 登録したCSV情報を識別するためのIDを指定します。
今回はIDを【SAMPLE_MSK_IN】とします。

これで、「1.入力ファイル情報の設定」は完了です。

Step03

次に「2.出力ファイル情報の設定」を行います。

今回は入力定義のコピーを使用して、出力定義を作成します。
入力ファイル定義を選択し、操作メニューの「コピー」をクリック後、コピー先IDとして出力ファイル定義名を入力します。



項目名 説明
コピー先ID コピー先のCSV情報を識別するためのIDを指定します。
今回はIDを【SAMPLE_MSK_OUT】とします。

これで、「2.出力ファイル情報の設定」は完了です。

Step04

次に「3.データ加工情報の設定」を行います。

データ加工情報を作成するため、スタートページから「データ加工」を選択します。

Step05

操作メニューから「新規作成」をクリックし、データ加工情報設定画面を起動したら、入力ファイルの設定を行います。

オブジェクトパレットから「CSV」を選択し、入力ファイルエリアへドロップします。
ドロップ後、「CSV」アイコンをダブルクリックします。


Step06

入力設定画面のレイアウトタブを設定します。



項目名 説明
ID 入力ファイルのIDを設定します。
Step02で作成した【SAMPLE_MSK_IN】を設定します。
ファイル名 入力ファイルを指定します。
事前準備で用意した【C:\work\SAMPLE\inputdata\SAMPLE_MSK_IN】を設定します。
ヘッダレコード設定 入力ファイルのヘッダレコード行数を設定します。
指定した行数分をスキップした値が入力データとして扱われます。
今回はチェックボックスをONにし、ヘッダレコードを【1】に設定します。
※ヘッダレコードを設定しない場合、データの編集時に入力データのタイトル行が原因で型不一致となります。

これで、入力ファイルの設定は完了です。

Step07

出力ファイルの設定を行います。

オブジェクトパレットから「CSV」を選択し、出力ファイルエリアへドロップします。
ドロップ後、「CSV」アイコンをダブルクリックします。


Step08

出力設定画面のレイアウトタブを設定します。



項目名 説明
ID 出力ファイルのIDを設定します。
Step03で作成した【SAMPLE_MSK_OUT】を設定します。
出力先指定 出力先の指定方法を選択します。今回は、"固定値"を指定します。
ファイル名には、出力ファイルの絶対パスまたは相対パスで設定します。
今回、出力ファイル名は【C:\work\SAMPLE\outputdata\MSK_out】とします。
タイトル行を出力する 「ID」に設定したレイアウト情報の項目名をタイトル行として出力ファイルに出力するかを指定します。
今回はチェックボックスをONにします。

これで、出力ファイルの設定は完了です。

Step09

入力ファイル・出力ファイルの項目間のマッピング処理を定義します。

抽出条件と出力条件を結び、マッピングアイコンをダブルクリックします。


Step10

メニューから「同一項目をマッピング」を選択します。
この操作により、入力項目と出力項目がマッピング線で結ばれます。


Step11

今回は各個人情報に対してデータ加工を行います。
最初に「契約コード」を選択し、画面右上にある「出力情報」の「編集」をクリックします。


Step12

出力情報設定画面が表示されますので、「関数」に「REPLACE_REG{^(..).....(.*)$,$1*****$2}」と入力し、「OK」ボタンをクリックします。

第4回の記事でも紹介していますが、「REPLACE_REG{a,b}」という関数は"a"を"b"に置き換える関数です。
今回は契約番号内の先頭2桁と末尾4桁を残し、間のデータは"*"に変換しています。
"()"と"$1"、"$2"を使用し、今回のように対象を複数指定することも可能です。

※本関数の詳細や、その他のコマンドについては「DataMagic Ver.3 リファレンスマニュアル」を参照してください。


Step13

Step12と同様に、「契約者氏名」にも関数を設定し、「OK」ボタンをクリックします。

入力する関数は「REPLACE_REG{^.(.*).$,*$1*}」です。
ここではStep12と逆に契約者氏名の先頭1文字と末尾1文字を「*」に置き換えています。


Step14

「契約者住所2」を設定します。
Step12、Step13と同様に、マンション名にも関数を設定し、「OK」ボタンをクリックします。

入力する関数は「REPLACE_REG{^(.).(.).(.).(.*)$,$1*$2*$3*$4}」です。
ここでは一文字置きに、「*」に置き換えています。


Step15

最後に「契約者電話番号」マッピングを表す線を選択し、右クリックメニューから「関係線を解除」を選択します。


Step16

関係線を解除後、画面右下の「出力フォーマット」の「編集」をクリックし、出力フォーマット画面を起動します。
画面が起動したら、固定値として「99-9999-99」を設定し、「OK」ボタンをクリックします。


Step17

任意の「ID」を入力し、データ加工情報設定画面の「適用」をクリックします。



項目名 説明
ID データ加工情報を識別するためのIDを指定します。
今回はIDを【SAMPLE_MSK】とします。

これで、「3.データ加工情報の設定」は完了です。

Step18

それでは実行してみましょう。データ加工情報設定画面上部の「実行」をクリックし、データ加工実行画面を起動します。
画面が起動したら、そのまま「実行」ボタンをクリックします。


Step19

出力データ格納先として指定した「C:\work\SAMPLE\outputdata\」を確認してください。
「MSK_out」というファイルが出力されているので、メモ帳などで中身を参照し、マスキングルールに合わせて加工された内容を確認してください。

さいごに

今回は第4回の記事で一度紹介したREPLACE_REG関数の使用方法を掘り下げてみましたが、いかがでしたでしょうか。
マスキング以外にも様々な加工に応用できる関数ですので、是非ご活用ください。

DataMagic評価版のダウンロード

DataMagic評価版は「my HULFT」からダウンロードできます。
DataMagic評価版のインストール

〔注意事項〕
  • 「my HULFT」を利用するには、別途「my HULFT」へのユーザ登録が必要となります。詳細については、「my HULFT」ページをご覧ください。
  • DataMagicの利用にあたっては、DataMagic本体のほか、GUIツールであるDataMagic Managerのインストールが必要となります。なお、DataMagic ManagerはDataMagic本体に付属しています。

〔インストール方法〕
DataMagicとDataMagic Managerのインストール方法については、以下のページを参照ください。
DataMagicのインストール方法
DataMagic Managerのインストール方法

サンプルデータ

サンプルデータはzip形式での提供となります。解凍してからご利用ください。

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント