スクール・教材

上級者編(RDKit)

RDKit

Pythonで使用されるオープンソースの化学情報処理のライブラリ
 
RDKitは分子の描画、化学構造の解析、化学反応のシミュレーションなどの機能を提供。化学分野で一般的なChemDrawと比較すると、RDKitはプログラミングに基づいたアプローチを取っており、自動化や大規模なデータ処理に最適です。
 

1. RDKit(操作) NBViewer    Google=Clab

 

RDKitにおける化学構造情報のファイル操作の基本となる

  1. ファイルの読み取り
  2. 分子構造の描画
  3. ファイルへの保存

の3つの操作について学びます。

RDKit

 

2. RDKit(実践) NBViewer Google=Clab

先行研究の論文においては、サプリメントデータなどにSMILES構造が含まれたcsvファイルが含まれていることがあります。このようなファイルに記載されたSMILESを取得する手順を、具体的な例を用いて学びます。

データセット

本編で扱うdelaney-processed.csvは1128化合物の水溶解度をまとめたデータセットです。このデータセットは、Delaneyの論文『ESOL: Estimating Aqueous Solubility Directly from Molecular Structure』[1] で発表されたものに基づいており、ケモインフォマテックス分野では広く知られているデータセットです。

[1] John S. Delaney, "ESOL:  Estimating Aqueous Solubility Directly from Molecular Structure", J. Chem. Inf. Comput. Sci.44, 1000–1005 (2004) (DOI: 10.1021/ci034243x)

Delaney-processed.csvは、分子の化学式、SMILES表記、また、水溶解度としてオクタノール水分配係数が含まれており、これらの特性は薬物探索や環境影響評価などの目的で使用されています。

  1. Compound ID :化合物ID
  2. ESOL predicted log solubility in mols per litre :log水溶解度(オクタノール水分配係数)の予測値
  3. Minimum Degree: 最小次数
  4. Molecular Weight:分子量
  5. Number of H-Bond Donors : 水素結合に関与するDonor数
  6. Number of Rings :芳香環の数
  7. Number of Rotatable Bonds : 回転可能結合数
  8. Polar Surface Area : 極性表面積
  9. measured log solubility in mols per litre:log水溶解度の実測値
  10. smiles:SMILES表記