본문 바로가기
Security

[Security] 적대적 기계학습 (Adversarial Machine Learning)

by gungle 2023. 10. 16.

인공지능(AI)과 딥 러닝(DL) 기법이 빠르게 발전하면서 배포된 알고리즘의 보안과 견고성을 보장하는 것이 중요하다.

최근에는 적대적 샘플에 대한 DL 알고리듬의 보안 취약성이 널리 인식되고 있다.

조작된 샘플은 인간에 의해 양성으로 인식되는 동안 DL 모델의 다양한 잘못된 행동을 초래할 수 있다.

실제로도 다양한 시나리오에서 적대적 공격의 성공적인 구현은 그 실용성이 입증되고 있으며, 적대적 공격과 방어 기술은 머신 러닝과 보안 커뮤니티 모두에서 점점 더 많은 관심을 끌고 있다.

적대적 기계학습은 기만적 입력을 제공하여 모델을 속이려 하는 머신 러닝 기법이다.

가장 일반적인 경우는 기계 학습 모델에 오작동을 일으키는 것이다.

대부분의 기계 학습 기법은 훈련과 시험 데이터가 동일한 통계 분포에서 생성되는 특정 문제 집단에서 작동하도록 설계되었다.

이러한 모델이 실제 환경에 적용될 때, 공격자는 통계 가정을 위반하는 데이터를 제공(삽입)할 수 있는데, 이 데이터는 특정 취약성을 이용하여 결과를 손상시키게 된다.


Attack Strategies

Evasion (회피)

Evasion attack 은 가장 일반적인 공격 유형이다.

예를 들어, 스팸 전자 메일 및 악성 프로그램의 내용을 난독화하여 스팸 발송자와 해커가 탐지를 회피하려는 경우가 많다.

여기서 수정된 검체는 탐지를 회피하게 되고, 적법한 것으로 분류된다.

즉 기존 학습 데이터와는 유형이 다른 데이터를 사용하게 되는데, 안티스팸 필터에 의한 텍스트 분석을 회피하기 위해 첨부된 이미지 내에 스팸 콘텐츠가 포함된 이미지 기반 스팸을 예로 들 수 있다.

그 밖에도 생체 인식 검증 시스템에 대한 스푸핑 공격을 통한 회피도 있다.

 

Poisoning (중독)

Poisoning 은 훈련 데이터의 적대적 오염이다.

기계 학습 시스템은 작동 중에 수집된 데이터를 사용하여 재교육할 수 있다.

예를 들어, 침입 탐지 시스템(IDS)은 수집된 데이터를 사용하여 재학습되는 경우가 많다.

공격자는 작업 중에 악의적인 샘플을 주입하여 공격하게 된다.

 

Model Stealing (모델 스틸링)

Model Stealing (모델 도용, 모델 추출(Extraction)이라고도 함)은 모델을 재구성하거나 훈련된 데이터를 추출하기 위해 블랙박스 머신 러닝 시스템을 조사하는 것을 말한다.

여기서 학습 데이터나 모델 자체가 민감하고 기밀인 경우 문제가 발생할 수 있다.

예를 들어, 자신의 재정적 이익을 위해 사용할 수 있는 독점적 주식 거래 모델을 Stealing 한다면, 공격자에 의해 악의적으로 사용될 수 있다.


Adversarial Examples

  • Fast Gradient Sign Method (FGSM)
  • Projected Gradient Descent (PGD)
  • Carlini and Wagner (C&W) attack
  • Adversarial patch attack

Defense

  • Threat modeling - Formalize the attackers goals and capabilities with respect to the target system.
  • Attack simulation - Formalize the optimization problem the attacker tries to solve according to possible attack strategies.
  • Attack impact evaluation
  • Countermeasure design
  • Noise detection (For evasion based attack)
  • Information laundering - Alter the information received by adversaries (for model stealing attacks)

Reference