第6回:実践!マージとソート〔重複削除と並び替え〕

OrangeLab. 運営チーム
作成日時: - 更新日時:
Avatar

使用ソフトウェア:DataMagic for Windows Ver.2.2.2
今回は「DataMagic」を利用したデータファイルの「マージ」と「ソート」についてご説明します。
※下記バージョンのDataMagicについては、次の記事をご参照ください。
DataMagic 実践!マージとソート〔重複削除と並び替え〕(Ver.3.0.0)

はじめに

HULFT Orange Lab.運営チームの佐々木です。
「DataMagic」の記事を担当しています。

今回用意したサンプルデータは、名簿をイメージしたデータです。
別々の店舗や担当者が管理してる3つのデータを統合し、重複した顧客IDを取り除き、IDでソートしたものを結果として出力します。
商品管理や、費用管理などでもデータの内容や、規模は違いますが似たようなケースはあると思います。

下記イメージのようにCSVファイルの加工を行います。


準備

サンプルデータ[CSV形式]

格納先は任意ではありますが、以下のフォルダを作成してください。
サンプルデータ格納先
C:\work\SAMPLE\inputdata\
出力データ格納先
C:\work\SAMPLE\outputdata\
準備として「DataMagic」を起動し、任意で作成した接続先に接続してください。

手順

Step01

タブボタンの「アダプタ」にある「CSV」を選択後、「新規作成」をクリックし入力出力ファイルの定義情報を作成します。

Step02

下記画面が起動しましたらIDと項目名を決め、囲み文字は「0x00」を選びます。
その後適用ボタンをクリックし、入力ファイル定義を保存します。
 ※ 定義名は任意ですが、入力ファイル定義を「SAMPLE_MARGE_IN」としています

項目名は以下の3つとなります。
  1. 顧客ID
  2. 氏名
  3. カナ

Step03

次に出力定義も作成しますが、内容が同じため今回もコピーを使い作成します。
入力ファイル定義を選択し操作メニューの「コピー」を押し、コピー先IDとして出力ファイル定義名を入力します。
 ※ 定義名は任意ですが、出力ファイル定義を「SAMPLE_MARGE_OUT」としています

以上でCSVの入力定義と出力定義が追加されます。

Step04

データ加工情報を作成するため、タブボタンから「データ加工」を選択し、操作メニューから「新規作成」を選択します。

Step05

下記画面が表示されますので任意のIDを入力してから、入力と書かれたボタンをダブルクリックします。
 ※ ここではID名を「SAMPLE_MARGE」としています

Step06

下記画面の赤線で囲まれた項目を次のように設定します。
  1. 形式はCSVを選択し、アダプタのIDはStep01で作成したアダプタの入力ファイル定義を設定します。
  2. ファイル名はサンプルとして用意したファイル名の「SAMPLE_名簿A_IN」を指定します。
  3. オプションの「項目数のチェックを行う」と「ヘッダレコード設定」にチェックを入れ、ヘッダレコードは「1行」とします。
     ※ ヘッダレコードを設定しない場合、データの編集時に入力データのタイトル行が原因で型不一致となります
  4. 「入力0レコードの扱い」は「正常」とします。

Step07

次に入力データのソート条件を設定します。
顧客IDでソートしますので顧客IDを選んでください。
 ※ 項目名をクリックすることで入力定義から名称が選択できます。

Step08

以下手順に従い、マージするファイルを追加し、マージキーと重複優先キーを設定します。
  1. 追加ファイルが2つあるので「追加ボタンを2回押します。
  2. マージファイルが追加されますので、それぞれ次の入力ファイル名を割り当てます。
  3. マージファイル1:「SAMPLE_名簿B_IN」
  4. マージファイル2:「SAMPLE_名簿C_IN」
  5. マージキーと重複優先キーは、項目名をクリックすることで項目を選択できますので、「顧客ID」設定します。

入力データの定義情報設定が終わりましたら「OK」ボタンを押し画面を閉じます。

Step09

入力データの定義情報設定が終わると新たに抽出情報が作成され、入力情報と抽出情報が線によって結ばれます。
次に抽出情報のボタンをダブルクリックします。

Step10

抽出条件設定画面が開きますので、下記設定を行い登録します。
  1. 比較先の「値」に「1」を設定します。
  2. 演算子「>=」を選択し、条件一覧の追加を押します。
  3.  出力ボタンをダブルクリックします。

以上で抽出条件の設定は終わりましたので「OK」を押し、設定を登録します。

Step11

次に出力と書かれたボタンをダブルクリックします。

Step12

下記画面が起動しましたらIDにStep03で定義した出力ファイル定義のIDを入れ
項目名を決めOKボタンをクリックし、出力設定を作成します。
 ※ 出力ファイル名は任意ですが「MARGE_out」としています

入力が終わりOKをクリックすると情報が保存されます。

Step13

抽出条件の●から出力条件の●へドラックし、つなげます。

Step14

次に灰色に反転しているオレンジ色の抽出条件をダブルクリックすると新たにマッピング画面が開き、下記メッセージが表示されますが
入出力の定義は同じである為「はい」を選択し、マッピング画面はそのままOKボタンで保存し画面を閉じます。

Step15

以上で設定はすべて完了しましたので、画面の実行ボタンを押下しデータ加工結果を確認します。

Step16

実行すると下記画面が表示されますので、出力ファイル生成モードを確認し実行します。
正常終了しましたら出力データを確認してください。

Step17

下記は編集後のデータです。
重複していたIDは排除されているのがわかると思います。
 

さいごに

今回のファイルマージですが、この機能はデータファイルの統合時などに役立てることができます。
また対象のファイルが1つだけであっても同様に動作しますので、エクセルなどでよく行う重複データを削除し、リストを作るということもできます。
シンプルですが汎用性は高いので応用編などで運用を考慮したケースを紹介できればと思います。

サンプルデータ

サンプルデータはzip形式での提供となります。解凍してからご利用ください。

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

コメント