본문 바로가기

Security/논문리뷰

[논문리뷰] Inaudible Adversarial Perturbation: Manipulating the Recognition of User Speech in Real Time

<ABSTRACT>

ASR systems는 적대적 예제에 취약한 것으로 드러났다.

기존 연구들은 음악/노이즈, 음성비서의 자발적인 응답에도 사용자는 공격을 알아차리지 못하는 것을 전제로 진행되었다. (그동안은 실제 사용자가 인식하기 쉬웠다는 것을 말하는 듯 싶다.)

그래서? 이 논문에선 기존 연구의 격차를 해소하고 실제 사용자 기반으로 확장하고자 한다.

VRIFLE이라는 Inaudible Adversarial Perturabtion(IAP)를 제안한다.

VRIFLE은 초음파 전송을 통해서 사용자가 스피커를 통해 말하는 도중 ASRs를 조작할 수 있다고 한다.

하지만 가청음과 초음파의 본질적인 차이로 IAP 전송은 distortion, noise, instability 같은 문제에 직면한다.

그래서? 물리적으로 효과 있고, 장거리 전송에서도 유지될 수 있도록 향상하는 새로운 초음파 변환 모델을 설계한다.

그게 바로? generation process에서 사용자와 실제 환경의 변화를 반영한 일련의 증강기법을 통해 VRIFLE의 강인성을 더욱 강하게 만드는 것이다. 이 방법은 VRIFLE이 다양한 거리에서 ASR 출력을 실시간으로 조작가능하고 alter-and-mute 전략을 적용하여 공격을 실패할 가능성(예상치 못한 발화 등)을 억제할 수 있다.

다양한 환경 하에 VRIFLE의 효과를 검증하고, 여섯 가지 종류의 방어에 대한 강도를 높이며, 목표 지향적인 방식으로 보편성을 제공한다. 그리고 휴대용 공격 디바이스와 일상생활 스피커를 통해서도 VRIFLE이 delivered 되는 것을 보여준다.

 

<INTRODUCTION>

구조도

① 유저가 명령하기 시작할 때

② 공격자가 초음파 변환 모델(UTM)을 통해 만들어낸 들리지 않는 adversarial perturbations를 Receiver에 주입

③ 유저의 명령과 공격자의 공격이 혼합된 신호

④ 공격자의 의도대로 ASR 모델을 속인다.

 

VRIFLE 구현의 주요 과제

(1) 비가청성(inaudible)을 유지하면서도 보편적인 adversarial perturbations를 생성하는 방법

 거의 모든 이전의 연구에서는 사용자가 인식하지 못하게끔 stealthiness를 우선시하여 ϵ, L2-Norm과 같은 제한을 가하거나, 오디오 형식(design short pulses)을 조정했다. 하지만 이런 방식에도 여전히 사용자는 공격을 인식할 수 있었고, adversarial perturbations의 보편성을 저해하기만 했다.

 그래서 인간의 청각 범위를 넘은 초음파 기반으로 완전한 비가청성을 유지하는 adversarial perturbations를 구현한다.

이를 위해 마이크의 비선형성 취약점(nonlinearity vulnerability)을 이용하여 ASR 시스템이 IAP를 수신하도록 하여 기존의 제약조건에서 벗어나 광범위한 최적화 공간을 확보할 수 있다.

 

(2) 사용자의 방해 속에서도 실시간으로 음성 인식을 조작하는 방법

사용자의 방해 속에서도 수행하기 위해선 3가지 도전과제가 존재한다.

1. 사용자의 음성이 IAP의 의도를 방해할 경우.

2. 사용자의 명령이 너무 길어져, ASR 시스템의 전체 transcription에 영향을 줄 경우.

3. 사용자가 공격을 인지하여 remedy commands를 발화하여 막을 경우

3가지를 제외하고도 다양한 요인들이 존재하긴 한다.(발화 시점, 발화 습관, 환경 소음 등)

위의 문제를 해결하기 위해 public corpus에서 다수의 음성 샘플을 사용한 데이터 증강을 수행하며, 사용자의 발화 크기 및 반향 변화까지 고려한 최적화 방식을 도입하였다. 이를 통해 VRIFLE은 content-agnostic, synchronization을 지원하며 사용자 요인에 robut한 공격이 가능하게 되었다.

 

(3) 초음파 기반 비가청 adversarial perturbations가 전달 후, 물리적으로 효과적인지 보장하는 방법

 기존 연구에서는 초음파 및 레이저를 이용한 voice command injection이 가능했지만, 초음파 기반 IAP를 실제 물리적 환경에서 효과적으로 전달할 수 있는지는 검증되지 않았다. 초음파 채널은 lossy, distorted가 심하며, nonlinear distortion, anomalous noise, hardware-induced instability와 같은 문제가 존재한다.

 본 연구에서는 새로운 초음파 모델(UTM)을 설계하고, 초음파 전달 패턴을 정확하게 추정하여 장거리에서도 공격할 수 있도록 한다. (해당 UTM은 잡음 해결, UFR 관찰, 위치 가변 공격 가능성 등으로 구성)

 

Compared with existing works

 

<BACKGROUND>

A. Automatic Speech Recognition

B. Audio Adversarial Examples

C. Ultrasound-based Attacks

D. Treat Model

 

 

<PRELIMINARY INVESTIGATION>

A. Failure of Traditional Inaudible Attacks

레이저 기반 공격

- 레이저 빔이 마이크에 닿는 부분이 가시적으로 보임.

- 엄격한 line-of-sight alignment가 필요함.

- 전송 과정에서 신호가 왜곡될 가능성이 높아 Adversarial Perturbation이 전달되지 않을 가능성이 있음.

 

초음파 기반 공격

- 최적 초음파 주파수 탐색(기존 이전 연구와 동일)

초음파 변조 주파수를 20kHz ~kHz 범위에서 조정하며 실험을 수행, 이를 통해 각각의 스마트폰 모델에 대해 최적의 초음파 주파수를 발견. (iPhone 14pro = 24.7, OPPO Reno5 pro = 27.7, Pixel 3a XL = 25.6, Xiaomi MIX2s = 25.1)

따라서 VRIFLE의 기본 초음파 주파수를 25 kHz로 설정.(airbone attenuation이 적어 장거리 공격 용이, ultrasonic transducer의 대표적인 주파수로 단가가 매우 저렴함.)

- 초음파 기반 공격의 실패

최적의 초음파를 사용하더라도, 실시간 사용자 음성 환경에서 실패.

공격 문장: "Turn on airplane mode" 등 10개의 음성 명령

결과 분석

즉, 사용자의 음성이 존재할 경우, 기존 초음파 기반 공격은 거의 완전히 실패함.

 

B. Ultrasonic Adversarial Perturbation Delivery

A에서 확인했듯이, 기존 초음파 공격은 사용자의 음성과 겹칠 경우 실패.

이를 해결하기 위해서 Adversarial Perturbation이 물리적으로 전달될 수 있는지 확인하는 실험을 수행.

실험 결과, 디지털에서 설계된 Adversarial Perturbation이 초음파 변조를 통해 전달될 경우 효과가 급격히 감소함을 확인. ( 공기 중에서 감쇠, 마이크 수신 과정에서 nonlinear distortion이 발생하여 원본 신호 변형, 반향과 잡음이 추가적으로 발생)

기존 연구에서는 가청 음역대의 Adversarial Perturbation을 물리적 환경에서 적용하기 위해 RIR(Room Impulse Response) 모델을 사용했으나, 초음파 환경에서는 이러한 기존 기법이 적용될 수 없었다. (가청에선 성공적이라는 뜻?)

 

C. Attempts at Ultrasound Delivery Modeling

- RIR 모델 적용 시도

B에서 말했듯이 RIR 모델은 제대로 동작하지 않았다. 이는 초음파 변형 과정이 비선형(nonlinear) 변환을 포함하기 때문으로 분석된다. (그니까 RIR 모델은 비선형 변환을 포함하고 있지 않다는 뜻)

- Neural Network를 활용한 초음파 전달 모델링 시도

비선형 변환을 처리할 수 있도록 다층 퍼셉트론(MLP) 모델을 사용하여 초음파 전달을 학습. 그러나 위치 및 환경 소음  등에 따라 초음파 변환이 달라지는 문제가 발생. ex) 기기 위치가 3cm만 이동해도, 초음파 신호의 패턴이 완전히 변형됨

Illustration of displacement-induced changes in recorded audio

 

D. 초음파 전달 모델링의 주요 난제

ultrasound-induced noise: 초음파는 마이크의 진동판을 강제로 진동시키며, 불규칙한 잡음을 유발

nonlinear distortion: 초음파 변조 과정에서 예측 불가능한 왜곡이 발생할 수 있음.

sound field variability: 초음파의 공간적 변동성이 크며, 위치가 조금만 변해도 공격 효과가 달라질 수 있음.

hardware-induced instability: 초음파는 일련의 신호처리와 정교한 장치에 의존하므로 하드웨어 결함으로 인한 instability를 초래할 수 있음. (여러 하드웨어를 거치면서 미세하게 변형을 유발시켜 물리적 환경에서 안정성이 보장되지 않을 수 있다는 의미)

 

 

<DESIGN OF VRIFLE>

 

A. 개요

Design Goal

사용자가 ASR을 사용할 때, 공격자는 universal Inaudible Adversarial Perturbations(보편적 비가청 적대적 섭동)를 생성.

그리고 이러한 섭동을 획득하고 전달하는 과정에서 다음과 같은 도전과제가 존재.

 

Ultrasound Complexity (C1): 기존 연구의 RIR 모델 적용 불가하며, 이상 소음(Anomalous Noise), 비선형 왜곡(Nonliner Distortion), 공간에 따라 변하는 음장(Sound Field Variability), 하드웨어 불완전성(Hardware Imperfection) 이 4가지가 초음파 관련 해결해야 함.

User-ASR Connection (C2): ASR시스템은 항상 사용자의 음성 명령에 응답하도록 설계됨. 공격자는 사용자의 장시간 음성 명령을 차단하거나(silence perturbation), 수정 명령(remedy commands)을 방해해야 함.

User Variation (C3): 사전에 사용자의 음성, 타이밍, 길이를 알지 못함. 따라서 보편적인 Adversarial Perturbations를 생성해야하며, 어떤 사용자의 음성이든 효과적으로 변조할 수 있어야 함.

Physical Robustness (C4): 다양한 요인(사용자의 음성 크기, 하드웨어의 불안정성, 환경적 요인)으로 인해 공격 성능이 저하될 수 있음. 따라서 이러한 변화에도 강건하게 유지될 수 있도록 설계해야함.

 

따라서 설계 방향은 다음과 같다.

(1) 초음파 복잡성 해결: 초음파 전달 모델을 구축.

(2) 사용자 방해 극복: 사용자의 음성을 무시하도록 하는 Silence Perturbation 공격.

(3) 공격 스텔스성 및 실용성 강화: 휴대용 장치 및 일반적인 스피커에서도 가능하도록 설계.

optimization workflow of VRIFLE

Problem Formalization

가청 대역 AE 공격이 은폐성을 유지해야 하는 제약이 있는 반면, 초음파 변조를 기반으로 비가청 공격이 가능하기에 기존 제약 ex) ϵ < 0.01 을 피하고, IAP의 최적화  공간을 최대한 확장할 수 있다. δ [1,1]^n

핵심 목표는 사용자 음성 x와 섭동 δ이 중첩된 신호 x + δ를 ASR 공격자가 원하는 전사 로 인식하도록 속이는 것.

minimize L( f( x + δ ) ,yt )

 

 

B. 초음파 변환 모델링 (Ultrasonic Transformation Modeling)

Baseband Audio 신호 m의 비선형 변환 H(f)m(f) + Anomalouse Noise 를 활용해, Recorded Audio와 높은 유사성을 가진 Estimated Audio를 가지게 된다. 해당 절에서 C1과 관련된 문제를 해결하기 위한 접근법을 설명한다.

 

1. 초음파로 인한 이상 소음 제거: baseband m을 변조하여 신호 를 생성한다. 여기서 캐리어 신호 c(t)는 항상 방출되며, 이 c(t)는 마이크의 diaphragm을 진동시키면서 이상소음이 결정됨을 확인하였다.

이를 해결하기 위해, 다양한 위치에서 캐리어 신호를 샘플링하여, 이상소음을 보정하는 데이터셋 Un을 구축.

 

2. 초음파 주파수 응답 추정: 기존 연구에서는 초음파가 전파되면서 일부 주파수 성분이 변형되거나 손실될 가능성이 높았다. 이를 해결하기 위해 초음파 주파수 응답(UFR, Ultrasound Frequency Response)을 측정하여, 이를 보정하는 방식으로 공격을 최적화 하였다.

( 실제 환경에서 초음파가 어떻게 변하는지를 먼저 측정해야 함 → 이것이 바로 초음파 주파수 응답(UFR) )

Sine Sweep 기법을 사용하여 50Hz ~ 7800Hz 범위의 신호를 10초 동안 변조 및 방출하고, 이를 수신 장치에 녹음하였다. 이를 통해 주파수 응답 H(f)을 역컨볼루션(^-1)을 사용하여 추출하였고, (녹음된 왜곡된 신호와 원래 신호 스윕을 비교) 이 과정에서 초음파 유발 소음을 제거하고 주파수 응답을 정확히 측정할 수 있었다. (즉, 녹음된 신호에서 원래 사인 스윕 신호를 제거하면 = UFR) 최종적으로 초음파 신호의 선형 및 비선형 변환을 합하여 총체적인 주파수 응답 모델을 구축하였다. Δ(f) = H(f) Δ(f),  여기서  는 푸리에 변환을 의미.

 

3. 다양한 위치에서 공격 가능하도록 설계: 기존의 연구에서는 송신기와 수신기의 위치가 조금만 변해도 신호가 달라지는 문제가 존재함. 이를 해결하기 위해 초음파 전파 모델을 고려한 변형된 UFR을 사용하여 보다 유연한 공격을 가능하게 했다.

1. : 우리가 생성할 초음파 기반 섭동

2. : 다양한 거리와 각도에서 수집한 초음파 응답 데이터

3. : 초음파 유도 이상 소음(Anomalous Noise) 데이터

4. x: 사용자의 실제 음성 (VRIFLE이 조작하려는 원본 데이터)

5. n: 초음파 신호가 전달될 때 마이크에서 발생하는 이상 소음(noise)

6. : 거리와 각도 변화를 반영한 섭동 변형

7. L( f( x + ... ), yt ): ASR이 목표 문장 yt를 출력하도록 학습

 

 

C. 침묵 섭동 (Silence Perturbation)

사용자가 명령을 내린 경우, 이때 침묵 섭동이 함께 실행되면 ASR은 사용자의 명령을 빈 텍스트로 변환.

눈치챈 사용자가 "취소" 등의 명령을 내려도 무시됨.

1. S(x): 사용자의 발화 시간의 랜덤 시프트

2. Ux: 일반적인 음성 명령 데이터셋

3. yb: 기댓값 빈 텍스트 (" ")

 

D. 보편적 섭동 (Universal Perturbation)

기존 연구에서는 CNN기반 음성 명령 분류 모델을 대상으로 한 AE 공격을 제시했지만, 상용 ASR 서비스(RNN)에는 공격이 훨씬 어렵다. 그 이유는 CTC를 사용하여 연속된 음성 특징 시퀀스와 목표 텍스트간의 손실을 계산하기 때문이다. 이러한 방식은 문맥 의존적이므로, 미세한 교란을 주입할 경우 목표로 수렴시키기 어렵다.

 

1) 내용 비종속성 (Content-Agnostic)

기존 연구에서는 사용자의 청각 감지, 사용자의 방해로 인해 어려움을 겪었다.  본 연구에서는 B와 C절을 통해서 alter-and-mute 방식으로 동작할 수 있게 되었다. 최적의 를 결정하는 기대 함수는 다음과 같다.

: <보편적 교란 뒤에 설계된 <Silence Perturbation >을 추가한 것을 의미

 

2) 동기화 지원 (Synchronization-Aided)

사용자가 말하는 순간과 정확히 동기화하여 공격을 수행하는 것은 어렵다. 이를 해결하기 위해 실시간 조작이 가능한 VAD(음성 활동 검출, Voice Activity Detection) 기반 동기화 메커니즘을 제안한다. 구체적으로 VAD를 통해 사용자의 발화를 감지하면 자동으로 사전에 준비된 교란을 방출하도록 설계되어있다. 실험을 통해 이 과정에서 발생하는 지연 시간이 다음 세 가지 단계에서 영향을 받음을 확인하였다.

1. 사용자가 발화한 후, VAD가 이를 감지하는 시간: 5 ~ 20ms

2. SW에서 HW로 IAP 신호를 전달하는 시간: 5 ~ 15ms

3. 초음파 전파에 소요되는 시간: 0 ~ 30ms

이 불확실성을 고려하여 최적화 과정에서 time randomness를 고려한 범위 T를 도입하며, 상한값을 100ms로 설정하였으나, 실험결과 4m 거리에서 공격을 수행할 때의 평균 지연 시간은 약 27ms로 훨씬 낮았다. 추가적으로 사용자 음성을 녹음하는 과정은 Man-in-the-Middle Attack 방식과 유사하여 사용자가 원하는 명령을 도청하는 방식으로 활용될 수도 있다.

최종적으로 기대 함수는 다음과 같다.

여기서 S () 는 VRIFLE이 임의의 시간 지점에서 피해자의 음성에 중첩될 수 있도록 시뮬레이션하는 함수이다.

 

E. 물리적 강건성 (Physical Robustness)

1) 음량 적응성과 하드웨어 불안정성 (Loudness Adaptive and Hardware Instability)

VRIFLE은 B절(초음파 변환 모델링)에서 문제를 해결하지만, 실제 물리적 공격에서는 추가적인 변수가 존재한다. 예를 들어 사용자의 음량은 상황이나 감정에 따라 달라지며, 하드웨어의 불안정성이 변수가 될 수 있다. 이를 해결하기 위해 상대적 볼륨 증가 기법을 도입하였다. 사용자 음성 볼륨 정도를 나타내는 하이퍼파라미터 β 를 활용하여 사용자 음성과 교란 간의 상호 관계에 무작위성을 부여한다.

 

2) 다양한 환경에서의 공격 (Attack of Different Environments)

사용자의 명령을 안정적으로 변경하기 위해, Aachen Impulse Response (AIR) Database에서 가져온 무작위 RIR(Room Impulse Response) 및 노이즈 샘플을 적용하여 환경 변화에 대응할 수 있도록 학습하였다. 이 데이터베이스에는 작은 방, 중간 방, 큰 방, 복도 등 다양한 환경의 음향 특성이 포함되어있어, 다양한 장소에서의 공격 성공률을 높이는데 기여한다.

 

3) 단측대역 변조 (Single-Sideband Extension)

일상에서 쉽게 볼 수 있는 일반 스피커나 휴대용 공격 장치를 사용하여 근거리에서도 공격을 수행할 수 있어야 한다. 그러나 단순한 앰프, 사운드 카드, 시중에 판매되는 일반 스피커는 고주파 DSB-AM 신호의 상호 변조 및 고조파를 충분히 억제하지 못한다. 이는 nonlinearity를 증가시켜 예상치 못한 leak를 유발할 수 있다. 이 문제를 해결하기 위해 Hilbert Transform을 기반으로 한 단측대역 변조(SSB-AM, Single-Sideband Amplitude Modulation)을 채택하였다.

 

+번외

전체 알고리즘

 

'Security > 논문리뷰' 카테고리의 다른 글

[논문리뷰] Dropout Attacks  (0) 2025.03.10