●2クラス分類モデルとは
機械学習においてデータを2つのカテゴリに分類するモデル。
●出題された回(平成29年度春期以降)
令和5年度春期
2クラス分類モデルの説明
2クラス分類モデルとは、機械学習においてデータを2つのカテゴリに分類するモデルです。入力されたデータが2つのカテゴリのどちらに属するかを判断します。
2クラス分類モデルの例
①スパムメールのフィルタリング
受信したメールを「スパム」か「非スパム」の2つのカテゴリに分類するモデルを作成してスパムメールを自動的にフィルタリングします。
②画像の分類
AIに「犬」と「猫」の画像を学習させることで、与えられた画像がどちらに属するか判断して分類します。
2クラス分類モデルの評価方法
入力したデータに対してAIが予測した分類と実際の分類の関係性は以下の4つに分けられます。
- 真陽性:実際の分類が陽性で、AIが予測した分類も陽性
- 偽陽性:実際の分類が陰性なのに、AIが予測した分類が陽性
- 偽陰性:実際の分類が陽性なのに、AIが予測した分類が陰性
- 真陰性:実際の分類が陰性で、AIが予測した分類も陰性
例えば、画像が猫の場合は陽性、犬の場合は陰性であるとします。画像が犬なのに、AIが猫だと判断してしまったら偽陽性となります。
では、AIはどのように画像を猫と判断するでしょうか。
「世の中にいる全ての猫のひげは6本で犬は4本」みたいな分かりやすいルールがあればAIも簡単に判断が出来ますが、実際はそうではありません。
猫っぽい犬もいれば、犬っぽい猫も世の中にはいます。
そこで、以下2つのモデルを作成します。
- モデルA:画像の猫っぽさを100点満点で採点して、60点以上ならば猫だとする。
- モデルB:画像の猫っぽさを100点満点で採点して、80点以上ならば猫だとする。
猫の判断基準が低いモデルAを採用すると、猫っぽい犬を間違えて猫だと判断してしまう可能性が上がりますが、その分、犬っぽい猫を正しく猫だと判断出来る可能性も上がります。
逆に、猫の判断基準が高いモデルBを採用すると、猫っぽい犬を正確に猫ではないと判断出来ますが、逆に犬っぽい猫も猫ではないと判断してしまうかもしれません。
モデルAのように、真陽性率を高めようとすれば偽陽性率も高くなります。逆に、モデルBのように、偽陽性率を低くしようとすれば真陽性率も低くなってしまいます。つまり、真陽性率と偽陽性率はトレードオフの関係になっています。
また、真陽性率は高いが偽陽性率が低いモデルは良いモデルである。ということも分かってもらえたと思います。
ROC曲線
2クラス分類モデルの性能を評価するためにROC曲線というグラフを用います。
ROC曲線は縦軸に真陽性率を、横軸に偽陽性率をとったグラフです。
全ての画像を無条件に猫だとすれば、全ての猫の画像を猫だと分類出来ますが、全ての犬の画像も猫だと分類してしまいます。よって、真陽性率も偽陽性率も1になります。
逆に、全ての画像を無条件に犬だとすれば、真陽性率も偽陽性率も0になります。
では、猫っぽさが70点以上の時に猫だとした時に真陽性率が0.9で偽陽性率が0.8であれば上のグラフのように点が打てます。
このように、何点以上で陽性とするかの境界線を動かしながら、真陽性率と偽陽性率の関係性をグラフに記すのがROC曲線です。
高い真陽性率を維持しながら偽陽性率の低く出来るようなモデルになっているのかをグラフにすることで分かりやすくしています。
過去問
応用情報技術者 午前試験
令和5年度春期問3
AIにおける機械学習で、2クラス分類モデルの評価方法として用いられるROC曲線の説明として、適切なものはどれか。
ア 真陽性率と偽陽性率の関係を示す曲線である。
イ 真陽性率と適合率の関係を示す曲線である。
ウ 正解率と適合率の関係を示す曲線である。
エ 適合率と偽陽性率の関係を示す曲線である。
正解は”ア”