データ構造化の概要
一般に装置からの出力ファイルは、その装置メーカー固有のフォーマットに従って装置出力パラメータ(計測パラメータ)と数値データから記載されています。ARIMでは共用装置ごとに、次のようなコンセプトで計測メタデータと数値部を分けて構造化しています。
数値部のデータは汎用性の高いcsvフォーマットとし、その後の機械学習などのデータ処理に使いやすい形態にしています。
データ構造化の流れ
データ構造化は、次のようなスキーマ方式を採用しています。各機器固有のファイルフォーマットに基づいて、必要となる装置・計測メタデータをスキーマにより抽出しデータベースへ格納します。
ARIMでは、このデータ構造化された一連のファイルを利用課題の機器ごとに「データセット」として管理しています。一定のクローズ期間を経たあとエンバーゴ解除後のデータセットをフォルダーとしてライセンス提供します。
そのデータセットフォルダー構成は、こちらより参照ください。
装置(計測)メタデータスキーマ
機器のメタデータを抽出するスキーマの例としてリガク社のXRDの事例を示します。抜き出すメタデータをjsonで次のように項目を定めて、変換語彙、データ型、単位、参照情報を付与する辞書型配列をとる形式としています。