AI?コンピュータビジョン分野における世界最高峰の国際会議「CVPR2024」にて論文採択～現代的な畳み込みネットによりAIの説明性が劇的に改善～

2024/03/14 (THU)プレスリリース

AI?コンピュータビジョン分野における世界最高峰の国際会議「CVPR2024」にて論文採択
～現代的な畳み込みネットによりAIの説明性が劇的に改善～

OBJECTIVE.

立教大学大学院人工知能科学研究科（所在地：東京都豊島区、研究科委員長：内山泰伸）の博士課程後期課程1年次の安木駿介さんと瀧雅人准教授の論文がCVPR2024（The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024）に採択されました。本成果の詳細は、2024年6月17日から6月21日まで米国ワシントン州シアトルで開催される同国際会議にて発表されます。

CVPRはパターン認識?コンピュータビジョン分野に関する世界最高峰の国際会議として知られています。Google Scholarのh5-indexによる全科学分野の学術雑誌?国際会議のランキングによると、CVPRはNature、NEJM、Scienceに続いて第４位にランクインしているトップ国際会議です。

研究の概要

AIシステムが行う判断の根拠に関する説明性の向上は、AI分野の重要な課題です。特に画像を扱うシステムでは、AIが画像に関する判断を行う上で、特にAIが重視した画像領域を特定する説明アルゴリズムが広く利用されています。CAMと呼ばれる古い説明アルゴリズムを起点として、これまでたくさんの複雑な説明アルゴリズムが提案されてきました。ところが本研究では、最新の画像AIモデルの知見を利用すると、実は古くからあるCAMを使うだけで、他の工夫された最先端のアルゴリズムに匹敵するクオリティーの説明性が実現できることが明らかになりました。そのため、本論文には「CAM Back Again」というタイトルがつけられています。

背景

2012年頃から畳み込みニューラルネット（CNN）を用いた深層学習が大きく進展し、コンピュータビジョンの研究は著しく進歩しました。この数年は、ChatGPTなどのTransformerアーキテクチャの成功に触発され、コンピュータビジョンにおいてもCNNの代わりにTransformerを用いる研究が進み、その高い性能が脚光を浴びています。CNNはTransformerに性能面で劣るため、両アーキテクチャ間の性能差を縮めようとする研究も活発になされており、カーネルサイズを拡大した現代的なCNN（ラージカーネルCNN）などが注目されています。ラージカーネルCNNは、物体検出やセグメンテーションなどの幅広い視覚タスクで高い性能を示しています。先行研究によれば、この高い性能はラージカーネルを介して得られる大きな有効受容野に起因するとされています。しかし、この見解を支持する十分なエビデンスはありませんでした。そこで本研究では、この非自明な見解の妥当性を、弱教師ありオブジェクトローカリゼーション（WSOL）という視覚タスクの観点から掘り下げます。
WSOLは、画像分類のためのAIモデルを用いて、分類クラスだけではなく、オブジェクトが画像内のどこにあるのかという位置情報まで特定するタスクです。このタスクにおける古典的な手法として有名なアルゴリズムがCAMです。CAMはAIによる画像分類の予測根拠として、画像内の実際のオブジェクト領域を正確に炙り出すように設計されたアルゴリズムです。しかし実際のCAMにはオブジェクト全体ではなく、その一部分のみを根拠として抽出する傾向があります。例えば図の一番上の例では、鳥の顔部分にのみ焦点が当たっています。このようにCAMはオブジェクト全体の位置を正確に特定できない問題を抱えており、これまで巧妙に工夫された数多くの改善アルゴリズムが提案されてきました。

従来のWSOL手法と提案手法の比較

成果

本研究では、ラージカーネルCNNが高いWSOL性能（位置特定の性能）を示すことが明らかにされ、さらにその要因が徹底的に解析されています。まず既存の見解の妥当性について検証するため、有効受容野サイズがWSOL性能を向上させるかどうかを調査しました。その結果、有効受容野が性能向上を導くという従来の見解を支持しないいくつもの実験結果が提示されました。
次に本研究では、解析により得られた数々の発見を報告しています。第一に、現代的なラージカーネルCNNでは従来のCAMが抱えていた問題点が自動的に解消されていることが明らかになりました。2016年にCAMが登場して以来、その改善のために多くの手法が提案されてきました。しかし本研究では、ラージカーネルCNNとCAMを組み合わせるだけで、過去の数多くの研究の大半を上回るWSOL性能を実現しました。これは、ラージカーネルCNNが先天的に画像特徴量のグローバルな情報を過不足なく捉えられるためです。
さらに画像特徴量の主成分分析（PC1）を行うだけで、オブジェクトの位置を精密に特定できることを発見しました。この新たな手法により、CNNを用いたWSOLの最先端性能が達成されました。これらの発見を踏まえ私たちは、ラージカーネルCNNが様々なタスクで高い性能を示す要因は、アーキテクチャの先天的な能力とそれにより得られる画像特徴量の改善によるものであるとする、独自の見解を示しました。

展望

説明性アルゴリズムは、AIの透明性を高める手法として社会から大きな期待を寄せられています。しかし実際には、既存の説明性アルゴリズムでは手法ごとに説明結果が大きく変化し、十分信頼できる結果が得られていません。本研究では、最新の画像AIモデルの性能改善が、結果として古典的な説明性アルゴリズムから得られる説明結果も大きく改善し得ることを明らかにしました。このような発見は、説明性アルゴリズムの挙動を解明し、透明性を備えたAIの運用をより現実的なものにします。高い信頼性を備えたAIが得られれば、未知の科学的知識をAIから引き出したり、AIが学習から獲得した知見をAIから直接学ぶことができるなど、幅広い活用が期待できます。こうした人間社会のより深い部分で役にたつAIを見据えて、今後も研究を進めて参ります。

キーワード

畳み込み：局所的な情報を集約することで、画像などから情報抽出をする手法。一種のフィルタリング。
畳み込みニューラルネット：畳み込みを使った画像に特化したニューラルネット。
カーネルサイズ：畳み込みが局所的な情報を集約する際に、情報を集める範囲の広さ。
CAM：画像分類モデルの分類層の重みと推論過程の特徴量を用いた演算により、推論画像が予測したクラスに属すると判断した根拠に相当する領域を可視化。
弱教師ありオブジェクトローカリゼーション：画像の分類だけを学習したAIに、分類されたオブジェクト（物体）がどの位置?範囲にあるのかまでを特定させるタスク。分類は教えるが位置情報は教えないという意味で弱教師ありと呼ばれる。
有効受容野：AIモデルの持つ、一種の視野の広さ。
特徴量：AIの予測の手掛かりとなる変数。深層学習では、AI自身が特徴量を発見する。
コンピュータビジョン：コンピュータに画像の認識や処理を行わせる分野。
Transformer：大域的な情報集約が可能なニューラルネット。
主成分分析：多変数データの情報を要約し、元のデータの本質を表すような少ない変数のデータに変換する手法。

論文情報

論文タイトル：CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective
著者：Shunsuke Yasuki, Masato Taki
論文：https://arxiv.org/abs/2403.06676

人工知能科学研究科瀧雅人研究室について

瀧雅人研究室では、これからのAIを支える深層学習に関して、基礎から応用まで幅広く研究しています。本成果以外にもAI?機械学習分野の国際会議「NeurIPS 2022」「AAAI 2024」に論文が採択されるなど、さまざまな成果を出しています。

研究活動についての最新記事

2025/07/07 (MON)
プレスリリース

AI分野の世界最高峰国際会議「ICCV2025」にて論文採択～人工知能科学研究科の安木氏と瀧准教授ら、都市規模3D空間と自然言語で対話できる新技術を開発～

立教大学大学院人工知能科学研究科（所在地：東京都豊島区、研究科委員長：大西立顕）の博士後期課程３年次の安木駿介氏と瀧雅人准教授、東京大学松尾豊研究室の宮西大樹博士（兼ATR）...

研究活動