スクール・教材

上級者編(Scikit-Learn)

Scikit-learn

Scikit-learnは、分類、回帰、クラスタリング、次元削減などの機械学習アルゴリズムやツールを提供。データの前処理、特徴抽出、モデルの評価などもサポートしており、機械学習の実装を容易にします。
 

1. Scikit-learn(予測) NBViewer    Google=Clab

Boston Housingデータセットを使って機械学習の予測タスクを、以下の視点で学びます。

  1. 回帰分析の学習: Boston Housingデータセットは、住宅価格の中央値(MEDV)を予測するためのデータが含まれています。このデータセットを使用して回帰モデルを構築し、住宅価格の予測方法や関連する特徴量の重要性を理解することができます。

  2. 特徴量の重要性の評価: データセットに含まれる13種類の特徴量(犯罪率、部屋数など)を分析し、住宅価格にどの特徴量が最も影響を与えるのかを評価することができます。特徴量の重要性の理解は、データの特性や予測モデルの解釈に役立ちます。

  3. モデルの評価と改善: Boston Housingデータセットを使用して機械学習モデルを構築し、その性能を評価することができます。モデルの評価指標(平均二乗誤差など)を使用してモデルの性能を測定し、さらに改善を試みることができます。

  4. データ前処理の学習: Boston Housingデータセットは実際のデータであり、欠損値や異常値、特徴量のスケーリングなどのデータ前処理の課題が存在します。このデータセットを使用して、データの前処理手法を学び、適切なデータクリーニングやスケーリングを行う方法を習得することができます。

  5. 機械学習アルゴリズムの比較: Boston Housingデータセットを使用して、異なる機械学習アルゴリズム(線形回帰、決定木、ランダムフォレストなど)を適用し、それらの性能や予測精度を比較することができます。これにより、機械学習アルゴリズムの選択とその適用方法についての理解を深めることができます。 

 

2. Scikit-learn(分類) NBViewer Google=Clab

Irisデータセットを使用して機械学習の分類タスクを学びます。

  1. 分類アルゴリズムの学習: Irisデータセットは、3つの異なるアヤメの品種を分類するためのデータです。このデータセットを使用して、分類アルゴリズム(ロジスティック回帰、決定木、ランダムフォレストなど)を学び、品種の分類を実施することができます。

  2. 特徴選択と次元削減の理解: Irisデータセットには、ガクと花びらについてそれぞれ長さと幅の4つの特徴量が含まれています。これらの特徴を分析し、適切な特徴の選択や次元削減(主成分分析など)を行うことで、モデルのパフォーマンス向上につなげることができます。

  3. モデル評価とパフォーマンス指標の理解: Irisデータセットを使用してトレーニングしたモデルを評価し、予測のパフォーマンスを評価することができます。正解率、適合率、再現率、F1スコアなどのパフォーマンス指標を理解し、モデルの性能を評価するスキルを習得することができます。

  4. データの可視化と解釈: Irisデータセットは、データの可視化に適しています。特徴の分布や相関関係を可視化することで、データの特性やパターンを理解することができます。また、モデルの解釈や予測結果の説明に役立つ洞察を得ることもできます。