テクニカルノート

データ構造化の概要

データ構造化の概要

一般に装置からの出力ファイルは、その装置メーカー固有のフォーマットに従って装置出力パラメータ(計測パラメータ)と数値データから記載されています。ARIMでは共用装置ごとに、次のようなコンセプトで計測メタデータと数値部を分けて構造化しています。

数値部のデータは汎用性の高いcsvフォーマットとし、その後の機械学習などのデータ処理に使いやすい形態にしています。

 

スキーマの流れ2

 

データ構造化の流れ

データ構造化は、次のようなスキーマ方式を採用しています。各機器固有のファイルフォーマットに基づいて、必要となる装置・計測メタデータをスキーマにより抽出しデータベースへ格納します。

 

スキーマの流れ1

 

ARIMでは、このデータ構造化された一連のファイルを利用課題の機器ごとに「データセット」として管理しています。一定のクローズ期間を経たあとエンバーゴ解除後のデータセットをフォルダーとしてライセンス提供します。

そのデータセットフォルダー構成は、こちらより参照ください。

 

装置(計測)メタデータスキーマ

機器のメタデータを抽出するスキーマの例としてリガク社のXRDの事例を示します。抜き出すメタデータをjsonで次のように項目を定めて、変換語彙、データ型、単位、参照情報を付与する辞書型配列をとる形式としています。

 

スキーマの流れ3