科学研究費 学術研究助成基金助成金 基盤研究(C) 19K12051

声真似による成りすまし攻撃に対する
話者照合の耐性向上に関する研究

研究の概要

 声による個人認証(話者照合)の実用化のためには,様々な「成りすまし攻撃」に対する対策を講じる必要がある. 本研究課題では,現時点では対策手法が確立していない「声真似による成りすまし」を取り上げる. 過去の関連研究「模倣音声による詐称攻撃に対して頑健な話者照合の研究 (科学研究費 学術研究助成基金助成金 基盤研究(C),25330206)」において, GMM-UMB法に基づく話者照合システムを利用し,声真似攻撃の特徴分析を行い,

  1. 声真似に特別なスキルを有していない一般の人の声真似攻撃では, 音声の特徴はほとんど対象者には近づかないが,成りすましは一定の確立で成功すること
  2. 声真似に高いスキルがある物真似タレントの声真似攻撃では, 音声の特徴が効率的に対象者に近づき,@よりも高い確率で成りすましが成功すること
を明らかにしている.
 本研究課題では,この物真似のスキルによる特徴・現象の違いを考慮して各種の分析を行い, その結果に基づいて双方の攻撃に対する効果的な対策手法の提案を目指す.

研究組織

研究代表者 岩野公司(東京都市大学)
研究分担者 篠田浩一(東京工業大学)

研究の背景

 近年,生体情報を利用した個人認証は,認証子の紛失や忘却の危険性が少ないため, セキュリティシステムへの積極的な導入,実用化が進められている. その中でも声による個人認証(話者照合)は,特殊な入力デバイスを必要としないことから, 安価で手軽な生体認証として各種システムへの導入が期待されている. これまでは主に海外において話者照合を利用した各種システムの商用化が進んできたが, 近年は国内でも実用例が見られるようになった.

 話者照合は他の生体認証と同様に,詐称による「成りすまし」の攻撃を受ける危険性がある. そのため,想定される様々な成りすまし攻撃に対し,照合システムが受ける影響を把握し, その対処方法を検討・確立することが非常に重要である.話者照合における成りすまし攻撃としては,

  1. 音声合成や声質変換技術によって攻撃対象者の声を人工的に生成しシステムに入力する攻撃
  2. 録音した対象者の声をスピーカなどで再生してシステムに入力する攻撃
  3. 人間が対象者の声を真似て発した音声をシステムに入力する攻撃(声真似攻撃)
 などが想定され,それぞれについてシステムの脆弱性が指摘されている. A, B の攻撃に対しては,入力音声が生体(人間)から発声されたものであるかを判断する生体検知機能の導入によって, 成りすましによる詐称者受理誤りの増加を小さく抑えることが可能である.
 一方,C の攻撃については,複数の研究で詐称者受理誤りの増加を引き起こすことが確認されているが, その攻撃に対する有効な対策手法は見出されていない.例えば,A, B の攻撃の対処手法である生体検知は, 実際に人間が発声しているCの攻撃に対しては無力であり,人間による声真似攻撃に対して特別な対処が必要となる.

 そこで,過去の関連研究「模倣音声による詐称攻撃に対して頑健な話者照合の研究(科学研究費 学術研究助成基金助成金 基盤研究(C),25330206)」 において,声真似に特別なスキルを有していない一般の人(12名)と, 声真似に熟練している物真似タレント(1名)の声真似音声を含む話者照合用音声データベースの構築と, それによる声真似攻撃の分析を行った.具体的には,深層学習登場以前の標準的な話者照合手法の一つである 「GMM-UMB法」で実装した話者照合システムに対し,声真似音声の攻撃力の調査と,声真似によって音声の特徴が本人の地声から どのように変化するのかの分析を行った.分析の結果,
  1. 一般の人は,声真似の際に自身の音声特徴量を大きく変化させることはできても,対象者の音声の特徴量にはほとんど近づかない.しかし,そのような声真似攻撃であっても,成りすましが一定の確率で成功し,詐称者受理誤りが増加する.
  2. 物真似タレントは,声真似によって音声の特徴量を効率的に攻撃対象者の声に近づけることができる.それによって一般の人よりも高い確率で成りすましが成功し,照合システムの詐称者受理誤りが増加する.
 ことが明らかになり,同じ声真似であっても物真似の「スキル」によって攻撃時の特徴が異なることが確認された. しかし,スキルごとに特徴の異なる物真似攻撃に対し,それぞれどのようなアプローチで対処を行うべきかについては未検討であった. 特に,一般の人の声真似攻撃は音声特徴が対象者に近づいていないにも関わらず,詐称者受理誤りの上昇が確認されるという, 一見すると矛盾する結果が表れており,詳細な分析による理由の解明が進められる必要がある.

研究項目

 本研究では,以下についての検討を行う.

@ 物真似のスキルが低い人の声真似が成りすましに成功する理由の解明

 GMM-UBM法による話者照合システムを用いて,物真似スキルが低い人の声真似が「発声ごと」にどのような特徴を持っているかを詳細に分析することで, このような詐称者の成りすましが成功してしまう理由の解明を行う.一つの仮説として, GMM-UBM法のような申告者と他人の尤度比に基づくスコアを利用した話者照合手法の場合に, 以下の図のような「申告者の音声特徴量分布と他人の音声特徴量の分布の両方から大きく離れた位置に申告者の受入れ領域が出現する(ウルフ特徴量が存在する)」 ことが考えられ,発声によって,特徴量がこの領域に入ってしまうことで成りすましが(偶然)成功してしまう可能性がある.

図1(ウルフ特徴量)

A 物真似のスキルが高い人の声真似の特徴分析

 @の分析を,物まねのスキルが高い人(物まねタレント)の声真似についても実施し,低いスキルの声真似の分析結果と比較し, 「スキルの違いによる特徴の違い」がみられるかを改めて調査する.

B 低スキルの声真似による成りすまし攻撃への対処手法の提案

 @による分析の結果,仮説が正しい場合には,声真似音声の特徴量空間における位置(各モデルとの距離) を入力として利用する成りすまし判別手法を構築できる可能性があることから,その検討を行う. また,GMM-UBM法に固有のウルフ特徴量の影響が考えられる場合には,別手法の導入や融合によってその影響の軽減が可能となる. そこで,近年注目されている高精度な話者照合技術である,深層学習に基づく話者照合の導入について検討を行う.

C 高スキルの声真似による成りすまし攻撃への対処手法の提案

 Aの分析結果に基づき,高スキルの声真似による成りすまし攻撃への対処手法の提案が可能か, Bで導入を行った深層学習に基づく話者照合手法が高スキルの声真似の成りすましに有効かについて検討を行う.

研究実績の概要

 上記の研究項目おいて示した@〜Cに関して,以下のような結果が得られた.

@ 物真似のスキルが低い人の声真似が成りすましに成功する理由の解明

 図2に,GMM-UBM法に基づく照合システムに対してスキルが低い人が声真似を行った際に, 個々の発声が,本人の地声から「申告者(申告話者)に近づいているか」, 「他人(対立話者:不特定話者モデルで表現される申告者以外の話者)に近づいているか」のそれぞれの度合いを, 照合システムで利用している話者モデルの尤度に基づいて算出し,プロットしたものを示す. このうち,照合システムによって詐称と見破ったものを「×」,見破れずに詐称が成功しているものを「▲」で示す.この結果から,

がわかる.これらの発声は,図1の上部にある「GMM-UBM法で理論上出現する,申告者と他人の両分布から大きく離れた位置の受入れ領域」に入ることで詐称が成功してしまっていると考えられ,仮説としてあげた「ウルフ特徴量」の影響を受けていると考えられる.
図2(高木さん低スキル)

A 物真似のスキルが高い人の声真似の特徴分析

 図3に,@と同様の方法で,スキルが高い人の声真似の発声ごとの分析を行った結果を示す.これをみると,

が明らかになった.すなわち,高スキル者では安定して攻撃対象話者(申告者)に近づくことが,詐称成功の支配的な要因であることが分かった.
図3(高木さん高スキル)

B 低スキルの声真似による成りすまし攻撃への対処手法の提案

 @の結果より,申告者と他人の尤度比に基づくスコアを利用した話者照合システムでは,低スキル者の声真似で見られる, 「申告者にはほとんど近づいておらず,申告者以外の他人から著しく遠のいている」こと(ウルフ特徴量の影響) による詐称成功が一定の確率で発生することがわかる.この要因による詐称成功を防止する一つの方法としては, 「申告者に近づく度合い」のみを用いた判定を取り入れることが考えられる.

 また,GMM-UBM法に固有のウルフ特徴量の影響を除外できるかを検討するため, 深層学習を取り入れた照合システムを利用した検証を実施した. 具体的には,x-vectorに基づく話者照合システムを実装し,低スキル者の声真似音声の照合実験を行った. その結果,GMM-UBM法で「申告者にはほとんど近づいておらず,申告者以外の他人から著しく遠のいている」 要因によって詐称に成功してしまった声真似については,x-vectorに基づくシステムでは照合スコアが有意に低い (正しく棄却される可能性が高い)ことが確認され,このような要因による詐称成功の防止に x-vectorに基づく手法が有効であることが確認された.

C 高スキルの声真似による成りすまし攻撃への対処手法の提案

 Aの結果を見ると,低スキル者の声真似における一部の詐称成功を防止する 「申告者に近づく度合い」を利用した判定の導入は,高スキル者の声真似における詐称成功の防止には有効ではないことがわかる. そこで,Bと同様に,深層学習に基づくx-vectorを用いた話者照合システムに対し, 高スキル者の声真似攻撃がどの程度の影響を持つのかを調査した.

 図4に,低スキル者(一般人)と高スキル者(物まねタレント)のx-vectorを用いた話者照合システムに対する地声発声時と, 声真似攻撃時の照合性能を示す.横軸は受理/棄却を判定するための照合スコアのしきい値を表しており, その変化によって,詐称を受理する誤り率がどのように変化するかを示している.この結果をみると,

が確認できた.今回の結果では,深層学習の単純によって結果的に詐称の成功率が抑えられてはいるが, 高スキル者の声真似攻撃力の大きさはこのようなシステムでも大きく表れており, 深層学習の導入だけでは対策として不十分である可能性が示された.高スキル者の声真似については, 今後さらに詳細な分析を実施して,対応策の検討を進める必要性がある.
図4(五味さんGMM-UBM法)
 以上で明らかにした,「低スキル者と高スキル者の声真似攻撃の傾向の違い」「低スキル者の詐称成功のメカニズム」 「深層学習の導入による低スキル者による詐称成功の抑制」等の結果は本研究による大きな独自の成果である.

成果発表