1.1. 機械学習の種類#

1.1.1. 教師あり学習#

機械学習は大きく教師あり学習supervised learning)、教師なし学習unsupervised Learning)、強化学習reinforcement learning)に分けられる。教師あり学習は、ラベル(正解)付きのデータを使って学習を行う手法です。たとえば、糖尿病患者の血液検査データに合併症リスクの情報が含まれる場合や、胸部 X 線画像に悪性腫瘍の有無がラベルとして付けられている場合です。ラベルは目的変数objective variable)または応答変数response variable)や「正解データ」とも呼ばれています。これに対して、ラベルを予測するために、モデルの学習に利用するデータ(血液検査データや胸部 X 線画像など)を特徴量feature)または説明変数explanatory variable)と呼びます。機械学習では、コンピュータが与えられたデータを利用してラベルと特徴量間の関係を学びます。

教師あり学習は、ラベルの種類によって回帰regression)と分類classification)に分けられます。回帰は、目的変数が連続値の場合を指します。たとえば、次のような応用例が考えられます。

  • 患者の年齢、血圧、コレステロール値、喫煙状況から心血管疾患の発症リスクを予測。

  • 腫瘍の大きさや治療法から治療後の生存期間を予測。

  • 移植手術後の拒絶反応のリスクを予測。

分類は、目的変数がカテゴリ値(例えば「ある・なし」「良性・悪性」など)の場合を指します。例えば、次のような応用例が考えられます。

  • X 線画像から特定の疾患の有無を予測。

  • 血液検査結果から疾患の有無を診断。

  • 遺伝情報や臨床データを基に、薬剤への反応を予測。

代表的なアルゴリズムには、ニューラルネットワーク、ロジスティック回帰、サポートベクトルマシン(SVM)、決定木、ランダムフォレスト、線形回帰、スパース回帰などがあります。線形回帰やスパース回帰のように連続値を扱うアルゴリズムは、主に回帰問題を解く際に使用されます。一方、それ以外のアルゴリズムは、回帰問題と分類問題の両方に適用可能です。例えば、ニューラルネットワークは主に分類問題で使用されますが、回帰問題にも応用できます。

1.1.2. 教師なし学習#

教師なし学習unsupervised learning)は、正解ラベルがないデータを使って学習する手法です。ラベルがないのに、機械はどのように学ぶかというと、データをいくつかのグループ(クラスタ)に分けることでパターンを見つけます。その後、必要に応じて、人間が各クラスタに分類されたデータの特徴をもとに各クラスタを意味づけを行います。医療分野において、例えば次のような応用例が考えられます。

  • 疾病データベースや電子カルテの記録から、症例の共通点を洗い出し、治療計画や治療法を改善に役立てる。

  • 遺伝子発現データをクラスタリングして、似たような発現パターンを持つ遺伝子をグループ化し、バイオマーカーを見つける。

このようなデータをクラスタに分ける作業をクラスタリングclustering)と呼びます。また、教師なし学習は、次元削減dimensionality reduction)あるいは特徴抽出feature extraction)にも応用されます。冗長性やノイズを含んだ高次元データを低次元データに圧縮して、機械学習の学習時の計算効率を向上させるなどの効果があります。教師なし学習でよく使われるアルゴリズムとして、階層型クラスタリング、k-means、トピックモデル、主成分分析(PCA)、t-SNE、UMAP などが挙げられます。

1.1.3. 強化学習#

強化学習reinforcement learning)とは、コンピュータやロボットなどの機械が、試行錯誤を繰り返しながら、最適な行動を学ぶ手法です。機械は、ある環境で行動を選び、その結果得られる報酬を基に少しずつ学習を進めます。イメージしやすい例として、自転車の練習があります。最初は転んだり失敗を繰り返しますが、徐々にバランスの取り方を覚え、スムーズに乗れるようになるのと似ています。

医療分野では、この強化学習を使って手術ロボットの操作を最適化する研究が進められています。たとえば、ロボットアームが人体に過剰な力を加えないよう、試行錯誤を通じて繊細な動きを身につける仕組みです。現在のところ、強化学習を活用したロボットアームはまだ普及には至っていません。しかし、既存の手術ロボットに強化学習を組み込む研究が活発に行われており、将来的には、より高精度で安全性の高い自動化が実現する可能性があります。

強化学習の「試行錯誤で最適解を見つける」という特性は、複雑な問題が多い医療分野に非常に適しているため、今後さらに注目されていくでしょう。