LM(Language Model) 언어라는 현상을 모델링 하고자 단어 시퀀스에 확률을 할당하는 모델 단어들로 모르는 단어를 예측 문장이 적절한지 판단 통계를 이용한 방법(SLM, 전통적 접근 방식)과 인공신경망(GPT, BERT...)을 이용한 방법이 있다. 목적 : 기계 번역, 오타 교정, 음성 인식 등 에서 언어 모델을 활용하여 보다 적합한 문장을 찾아낼 수 있다. CLM(Conditional Language Modeling) 다음 단어의 등장 확률 (W: 단어 시퀀스, w: 단어 하나, n개의 단어 등장) 단어 시퀀스의 확률 P(W) = P(w1, w2, w3, ...wn) 다음 단어 등장 확률 P(wn | w1,w2,...,n-1) 전체 단어 시퀀스 W의 확률 전체 단어 시퀀스 W의 확률은 모든 ..
seq2seq? 번역기에서 대표적으로 사용되는 모델이다. RNN을 기반으로 만들어진 모델이다. seq2seq구조 seq2seq는 인코더와 디코더로 구성된다. 입력문장을 받는 RNN셀 : 인코더, 출력문장을 내보내는 RNN셀 : 디코더 인코더 : 입력 문장의 단어들을 순차적으로 입력받은 후 이를 압축해서 하나의 벡터로 만든다. 이 벡터를 context vectgor라고 한다. 인코더는 압축된 벡터를 디코더로 전송한다. 디코더 : 인코더에서 받은 context vector를 받아서 번역된 단어를 하나씩 순차적으로 출력한다. 토크나이징 된 단어들이 인코더 RNN셀의 입력이 되고 이 셀의 마지막 시점의 hidden state를 RNN셀로 넘겨주는데 이것이 컨텍스트벡터이다. 컨텍스트벡터는 디코더RNN셀의 첫번째 ..
트랜스포머? 2017년 구글이 발표한 "Attention is all you need"의 논문에서 나온 딥러닝 모델이다. 기계번역의 발전과정은 다음과 같다. RNN -> LSTM -> Seq2Seq -> Attention -> Transformer 최근 모델인 GPT, BERT는 Transformer 아키텍쳐를 기본으로 한다. Seq2Seq 2개의 RNN 신경망으로 구성된 seq2seq 모델은 인코더-디코더 구조로 구성되어있는데, 인코더는 입력 시퀀스를 하나의 벡터로 압축하고 디코더는 이 벡터를 통해 출력시퀀스를 만든다. 하지만 고정된 크기의 context vextor를 사용해서 한 벡터로 압축해야하기 때문에 입력 시퀀스의 일부가 손실되는 한계가 존재했다. 2021.04.09 - [자연어처리NLP] - ..
❓ 이 글 왜 씀? 토이프로젝트로 킹받즈 라는 웹사이트를 만들었는데 블로그도 쓰고 공부도 하고 웹사이트 업그레이드도 시켜볼 겸 쓰기로 함 주의 아직 완성 글 아님 아래 사이트에 oauth 업데이트도 아직 안했음 글 다 쓰고 할 예정 👇 그 웹사이트 https://takingprize.com 별걸 다 시상하는 킹받즈 🏆오늘도 수고한 친구에게 특별한 상을 주세요! takingprize.com sns 공유를 목적으로 만든 웹사이트이니만큼 모바일 웹 기준으로 UI를 잡았다. Oauth에 대한 개념, 코드 구현의 예시는 다 이 사이트로 설명 할 예정 📌 Oauth의 개념 Open Authorization의 약자로 인터넷 사용자들이 비밀번호를 제공하지 않고, 다른 웹사이트 상의 자신들의 정보에 대해 웹사이트나 애플..