本研究では、機械学習モデルの設定値であるハイパーパラメータのチューニングを並列処理することで、モデル作成の効率化およびマルウェア検出の高精度化を図りました。
従来のウイルス検出では「過去に見つかった悪質なコードと一致するか」を照合するパターンマッチング方法が一般的ですが、この方法では毎日のように登場する新しいマルウェアへの対応が難しいという課題があります。そこで、本研究では、マルウェア情報を含む5万件以上のファイル情報をまとめた公開データセットを使って、機械学習によるマルウェア分類モデルを構築しました。さらに、自動で最適なハイパーパラメータを探すOptunaライブラリを用い、並列処理によって効率よく最適化を実現しました。
その結果、正解率 99.35% を達成し、従来研究の98.00%を上回る精度でマルウェアを判別できるようになりました。また、別のデータセットを使った検証でも 97%から99%台の高い精度となり、未知のマルウェアにも対応できる汎用性の高い分類モデル作成方法であることが確認できました。 以上より、並列処理を活用した効率的なパラメータ調整は、マルウェア検出の精度向上に貢献することがわかりました。

