5.1. 代表的なアーキテクチャ#
5.1.1. FCN#
Fully Convolutional Network (FCN)7 は、セマンティックセグメンテーション用の深層ニューラルネットワークの一つです。FCN が登場する以前は、スライディングウィンドウを用いて画像を少しずつ領域分割する手法が一般的でした。しかし、FCN は畳み込みニューラルネットワークを活用し、画像全体を一括処理することで計算効率を大幅に向上させました。また、分類タスクで事前に学習されたモデルを活用することで、少ない訓練データでも高い性能を発揮できるようになりました。
通常、畳み込み層やプーリング層を重ねることで特徴量を抽出しますが、この過程で画像の空間情報が失われてしまいます。そのため、単純にこれらの特徴量を用いて領域分割を行うと、検出対象の輪郭がぼやけてしまうという問題が発生します。この問題に対処するため、FCN ではスキップ接続と呼ばれる仕組みを導入し、高解像度の特徴マップを低解像度の特徴マップと組み合わせて利用することで、より精度の高いセグメンテーションを実現しています。
5.1.2. U-Net#
U-Net6 は、畳み込みニューラルネットワーク(CNN)を基盤としたセマンティックセグメンテーションのアーキテクチャです。もともと生物画像解析を目的に開発されましたが、その高い汎用性から、医療、農業、地理情報システム(GIS)など幅広い分野で活用されています。
U-Net のアーキテクチャは、大きく エンコーダ(圧縮) と デコーダ(復元) の 2 つの部分から構成されています(Fig. 5.2)。エンコーダでは、畳み込み層とプーリング層を繰り返しながら特徴を抽出し、空間解像度を徐々に減少させつつ、抽象的な表現を学習します。一方、デコーダでは、アップサンプリングを行いながら空間解像度を復元し、最終的にセグメンテーションマスクを生成します。さらに、U-Net では スキップ接続 を導入し、エンコーダで得られた低次元の特徴をデコーダの高解像度な復元過程に統合することで、詳細な空間情報を維持します。この U 字型の構造が、U-Net の名称の由来となっています。

U-Net は特に 医療画像解析 で広く利用されており、MRI や CT 画像の臓器・病変のセグメンテーションに活用されています。また、農業分野 では衛星画像を用いた作物の分類や病害検出、GIS 分野 では道路や建物のマッピング、さらに 顕微鏡画像解析 など、多様な応用が可能です。
U-Net を基にした多くの改良版も提案されています。たとえば、3D U-Net8 は 3 次元データを対象とし、3D 医療画像のセグメンテーションに特化しています。また、Attention U-Net5 や Residual U-Net3 では、それぞれ注意機構や残差学習を組み込むことで、さらに精度を向上させています。
5.1.3. DeepLab#
DeepLab 2 は、ピクセル単位の画像分類を行うセマンティックセグメンテーション用のアーキテクチャです。DeepLab は、バックボーンネットワークとして ResNet や Xception などの強力な画像分類モデルを採用し、それをセグメンテーションタスク向けに適応させています。バックボーンモデルの特徴抽出能力と、DeepLab 独自のセグメンテーションモジュールを組み合わせることで、計算効率を保ちながら高い精度を実現しました。
5.1.4. Mask R-CNN#
Mask R-CNN 4 は、Meta 社によって提案されたインスタンスセグメンテーションモデルで、物体検出タスクとセグメンテーションタスクを統合的に扱う点で革新的です。このモデルは、物体の境界ボックスを検出するだけでなく、それぞれの物体のピクセルレベルのマスクも同時に予測します。Faster R-CNN を基盤として構築されており、特にインスタンスセグメンテーション分野で高い精度と柔軟性を実現しています。
Mask R-CNN のネットワーク構造は、主にバックボーン(ResNet や ResNeXt など)による特徴抽出、Region Proposal Network (RPN) による候補領域の生成、そして候補領域に基づく物体検出とセグメンテーションマスクの生成という 3 つの主要な部分から成ります。RPN では、候補領域を生成した後、ROI Align と呼ばれる特殊なプーリング手法を用いて領域を正確に特徴マップにマッピングします。この ROI Align により、位置の不正確さが排除され、マスク生成の精度が大幅に向上しました。
Mask R-CNN の特徴的な点は、検出された各領域について並列的にセグメンテーションマスクを生成する追加のブランチを持つことです。このブランチは、物体ごとのピクセルレベルの分類を行い、各物体インスタンスに対応するマスクを出力します。分類とマスク予測が同時に行われることで、計算効率が向上し、また学習が統合されるため精度が向上します。さらに、分類とマスク生成の両タスクを一つのフレームワーク内で処理するため、シンプルで効果的なモデル設計が可能です。
Mask R-CNN は、高精度なセグメンテーションが必要なタスクにおいて広く利用されています。自動運転では、道路上のオブジェクト(車両、歩行者など)の検出と同時に、それらの詳細な形状を把握するのに役立ちます。また、医療画像解析では、病変部位や臓器を正確に分割し、診断や治療計画に役立てられています。さらに、AR(拡張現実)や画像編集、ロボットビジョンといった応用でも、Mask R-CNN の能力が活かされています。
5.1.5. YOLACT#
YOLACT (You Only Look At CoefficienTs) 1 は、リアルタイムのインスタンスセグメンテーションを可能にする軽量かつ効率的なモデルとして提案されました。これまでの高精度なインスタンスセグメンテーション手法の多くが処理速度の犠牲を伴っていたのに対し、YOLACT は速度と精度のバランスを取ることに重点を置き、実用性の高い手法を実現しました。物体検出とインスタンスセグメンテーションを統合しながら、計算負荷を最小限に抑えています。
5.1.6. 参照文献#
Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee. Yolact: real-time instance segmentation. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), volume, 9156–9165. 2019. doi:10.1109/ICCV.2019.00925.
Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. 2016. URL: https://arxiv.org/abs/1412.7062, arXiv:1412.7062.
Foivos I. Diakogiannis, François Waldner, Peter Caccetta, and Chen Wu. Resunet-a: a deep learning framework for semantic segmentation of remotely sensed data. ISPRS Journal of Photogrammetry and Remote Sensing, 162:94–114, April 2020. URL: http://dx.doi.org/10.1016/j.isprsjprs.2020.01.013, doi:10.1016/j.isprsjprs.2020.01.013.
Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn. 2018. URL: https://arxiv.org/abs/1703.06870, arXiv:1703.06870.
Ozan Oktay, Jo Schlemper, Loic Le Folgoc, Matthew Lee, Mattias Heinrich, Kazunari Misawa, Kensaku Mori, Steven McDonagh, Nils Y Hammerla, Bernhard Kainz, Ben Glocker, and Daniel Rueckert. Attention u-net: learning where to look for the pancreas. 2018. URL: https://arxiv.org/abs/1804.03999, arXiv:1804.03999.
Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: convolutional networks for biomedical image segmentation. In Nassir Navab, Joachim Hornegger, William M. Wells, and Alejandro F. Frangi, editors, Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 234–241. Cham, 2015. Springer International Publishing.
Evan Shelhamer, Jonathan Long, and Trevor Darrell. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4):640–651, 2017. doi:10.1109/TPAMI.2016.2572683.
Özgün Çiçek, Ahmed Abdulkadir, Soeren S. Lienkamp, Thomas Brox, and Olaf Ronneberger. 3d u-net: learning dense volumetric segmentation from sparse annotation. 2016. URL: https://arxiv.org/abs/1606.06650, arXiv:1606.06650.