子宮頸がん検診を高精度に迅速化する病理AIの開発に成功 - Cancersに論文が掲載 (7/9ページ)

2022.03.16 07:00 バリュープレス

タグ：: Pathology; DeepLearning; 深層学習; ヘルステック; cancer

一方で、「Clinical Balance」や「Equal Balance」と書かれたデータセットは、「細胞検査士の意見が割れたケース」です。多数決によって「ヒトによる最終診断」を決めて、AIに予測させたところ、ROC-AUCはそれぞれ0.774と0.827でした。悪くはないですが、決していい数字でもありません。

「でも、これ、外して当たり前だよな……」と私は思ったのです。

だって、歴戦の細胞検査士の意見が割れているケースですよ？　「多数決で正解を決めた」とは言え、AIの判断が多数決の結果と違っていたというだけで「誤診」と判定するのは厳しすぎます。

そこで我々は一考し、データセットの中から、「あまりに細胞検査士の意見が割れすぎたもの」をデータから除外しました。それがClinical Balance-rev.と、Equal Balance-rev.です。結果は驚くべきものでした。

Clinical Balance ROC-AUC 0.774　→　Clinical Balance rev. ROC-AUC 0.890↑
Equal Balance ROC-AUC 0.827　→　Equal Balance rev. 0.915↑

「人間の診断結果がぶれたもの」を取り除くと、AIの判断精度が目に見えて良くなったのです。「教師がぶれていれば生徒の点数は下がる」という当たり前のことをまざまざと見せつけられたようなものです。

実際の臨床現場では、意見の対立があるこれらの技師たちが、それぞれ責任をもって診断をしているのだよなあ……と、少し複雑な気分になりました。

これは、ヒトが信頼できない、という意味で言っているのではありません。そもそも、さまざまな検査・診断において、「検査者間のぶれ」があることは当たり前・織り込み済みなのです。ぶれがあることを前提として、医療は組まれています。しかし、強力なAIができたことで、「これまでどうしようもなかった、検査を行う人間どうしの不一致」が、もしかするとAIを用いれば解消できるかもしれない、ということに気づいてしまいました。

次のページへ