テクニカルノート

データ構造化

データ構造化システム(RDE)

データ構造化システム(アプリケーション名:RDE)は、物質・材料についての研究データをオンラインで迅速に登録するために物質・材料研究機構(NIMS)が開発したデータ基盤システムです。

装置からの生データを登録すると自動的にデータ駆動型のマテリアル研究に適した形に構造化してクラウドに蓄積します。

RDEロゴ

ARIM事業では本RDEを活用し、全国25機関の共用装置からのデータを機器利用者の同意があったデータに限り、第三者に使いやすい形で構造化・蓄積しています。また、一定の非共用(close)の期間の後に、第三者へデータ共用を行っています。

 

 

データ構造化の概要

一般に装置からの出力ファイルは、その装置メーカー固有のフォーマットに従って装置出力パラメータ(計測パラメータ)と数値データから記載されています。ARIMでは共用装置ごとに、次のようなコンセプトで計測メタデータと数値部を分けて構造化しています。

数値部のデータは汎用性の高いcsvフォーマットとし、その後の機械学習などのデータ処理に使いやすい形態にしています。

 

スキーマの流れ2

 

データ構造化の流れ

データ構造化は、次のようなスキーマ方式を採用しています。各機器固有のファイルフォーマットに基づいて、必要となる装置・計測メタデータをスキーマにより抽出しデータベースへ格納します。

 

スキーマの流れ1

 

ARIMでは、このデータ構造化された一連のファイルを利用課題の機器ごとに「データセット」として管理しています。一定のクローズ期間を経たあとエンバーゴ解除後のデータセットをフォルダーとしてライセンス提供します。

そのデータセットフォルダー構成は、こちらより参照ください。

 

装置(計測)メタデータスキーマ

機器のメタデータを抽出するスキーマの例としてリガク社のXRDの事例を示します。抜き出すメタデータをjsonで次のように項目を定めて、変換語彙、データ型、単位、参照情報を付与する辞書型配列をとる形式としています。

 

スキーマの流れ3