전체 글 (13) 썸네일형 리스트형 [NLP] Text Tokenization & Edit Distance Text Tokenization은 NLP Pipelines에 가장 근본적인 파트라고 할 수 있다.예를 들어서..Separating words in running textNormalizing word formats (e.g., favorurite = favorite)Segmenting sentences in running textex) I do uh.. main.. mainly business data processing.예문을 보면 중복된 단어(main/mainly), 불완전한 표현들(uh)이 있다. 한가지 더ex) Seuss's cat in the hat is different from other cats!예문을 보면 cat과 cats는 표면상 다르지만, Lemma 기준으로 둘 다 cat, 하지만 Wo.. [NLP] Text Preprocessing 대학교 2학년때 배웠던 과목 '오토마타와 형식언어론'동기들한테 오토마타 듣는다고 하면, 다들 힘들겠다며 측은하게 바라보던 '그 과목'배울때는 대체 이걸 어따 쓴다는거야.. 의문 투성이였지만, 막상 여러군데에서 사용되니 듣기 잘했다는 생각이 든다.생각해보면 그냥 아묻따 배운 나 자신이 후회되긴 한다. 좀 어디에 들어가는지 찾아보면서 공부할걸. Text Preprocessing: Regular expression? → 텍스트 패턴을 지정하기 위한 표현만약 문단에서 Happy가 나온 수를 측정한다고 생각해보자.근데 Happy, HAPPY, Happiness등 다양한 모양으로 분포되어 있을 수도 있다.그래서 요런걸 Regular expression(REX)를 사용하여 사전 정의된 패턴을 기반으로 관련 단어를 추.. [NLP] Finite State Dialogue Manager(FSDM) 대화를 미리 정해진 상태(State)들을 따라 흐르게 하는 방식State: 정해진 질문Edge: 사용자 응답에 따라 수행할 작업Pros: 설계가 간단하다. 에러 처리가 쉽다.Cons: 자유도가 낮다. 대화가 유연하지 않다.그래서 우리는 Dialogue State Traker & Dialogue Policy를 사용한다.Dialogue State Traker(DST)는?현재까지 대화에서 사용자가 제공한 정보를 기억하고 관리하는 컴포넌트이다.즉 사용자가 뭘 요청했는지, 어떤 정보를 이미 줬는지, 어떤 슬롯이 아직 비어있는지를 계속 추적한다.Dialogue Policy는?System이 다음으로 어떤 Action을 취해야하는지 결정하는 규칙이다. ex)질문 다시하기, 정보 제공, 대화 종료이 결정은 DST가 추적.. [NLP] Chatbot and NLU Rule-based Chatbot가정을 해보자.1. 1950년대에 살고 있다.2. 개인 컴퓨터는 보급되지 않았다.3. 인터넷이 존재하지 않는다.그렇다면 어떻게 chatbot을 build할까?요때 등장한게 바로 ELIZA project이다. 사용자: "나는 요즘 우울해."ELIZA: "왜 우울하다고 느끼나요?"사용자: "일이 너무 많아요."ELIZA: "일이 많다는 것이 당신에게 어떤 의미가 있나요?"이런 식으로 질문을 되돌리면서 상담사처럼 반응하는 대화 스타일이 특징.Rogerian Therapy에 기초했는데, 공감과 반영을 통해 마치 꽤 그럴듯하게 대화가 가능했다. pre-defined rules로 동작을 하며, 처리 순서는 다음과 같다.사용자: You hate meELIZA: WHAT MAKES YO.. [NLP] 시작 Human-Human Conversation: Dialogue사람과 사람간의 대화를 Dialogue라고 한다.그렇다면 이 Dialouge를 System으로 만드면 어떻게 될까? 에서 시작한다.Build a dialogue system = replace a human respondent as a machine (or a system)궁극적인 목적은 dialouge를 understaning하여 Natural Language Processing 하는 것이다. 그래서 사람간의 Dialogue는 다음과 같은 항목으로 분류할 수 있는데,1. Turn, Utterance : 내가 말하면, 상대방이 말할 차례에 대한 Turn, Utterance2. Endpoing Detection : 사람의 말이 언제 시작하고 언제 .. [논문리뷰] Dropout Attacks 2024 S&PDropout Attacks 최근 많은 기업과 연구자들이 클라우드 환경에서 신경망 모델을 훈련하고 있다. 즉 모델 소유자가 훈련 과정에 대한 직접적인 제어권을 잃고 있다는 말이다. (이는 다시 말해 훈련 과정이 외부에서 진행되므로, 조작이 발생해도 탐지하기 어렵다는 것) 따라서 본 논문은 해당 클라우드 환경에서 치명적인 dropout 공격을 서술하고 있다.먼저 드롭 아웃이라는 것은 모델의 과적합을 방지하기 위해서 나온 기법이다. 훈련과정에서 일부 뉴런을 랜덤하게 비활성화 하여 특정 뉴런에 의존하는 것을 방지하게 하는 것을 의미한다.드롭 아웃 공격은 여기서 아이디어를 얻어 뉴런을 랜덤하게 드랍 하는 것이 아닌, 특정 뉴런을 드랍 시키게 만들어 모델 정확도는 유지되지만, 정밀도와 재현율을 낮추.. [논문리뷰] Inaudible Adversarial Perturbation: Manipulating the Recognition of User Speech in Real Time ASR systems는 적대적 예제에 취약한 것으로 드러났다.기존 연구들은 음악/노이즈, 음성비서의 자발적인 응답에도 사용자는 공격을 알아차리지 못하는 것을 전제로 진행되었다. (그동안은 실제 사용자가 인식하기 쉬웠다는 것을 말하는 듯 싶다.)그래서? 이 논문에선 기존 연구의 격차를 해소하고 실제 사용자 기반으로 확장하고자 한다.VRIFLE이라는 Inaudible Adversarial Perturabtion(IAP)를 제안한다.VRIFLE은 초음파 전송을 통해서 사용자가 스피커를 통해 말하는 도중 ASRs를 조작할 수 있다고 한다.하지만 가청음과 초음파의 본질적인 차이로 IAP 전송은 distortion, noise, instability 같은 문제에 직면한다.그래서? 물리적으로 효과 있고, 장거리 전송.. Transformer Transformer based Pre-trained Language Model1. BERT(Encoder만 존재)BERT-base: 12 encoder layers, 12 attention heads, feature dimension (|word embedding vector|=768)BERT-large: 24 encoder layers, 16 attention heads, feature dimension (|word embedding vector|=1024)Training Objective: Masked Language Modeling, Next Sentence Prediction2. GPT(Decoder만 존재)12-layer decoder only model3. BART(Encoder, Deco.. 이전 1 2 다음