self-attention
-
이번에는 최근 CV 분야에서도 SOTA를 달성하고 있는 Transformer에 관련된 ICLR 2021에 게재된 논문인 ViT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)를 읽고, 리뷰해보고자 합니다. Index 1. Background 1.1. Attention, Self-Attention, Transformer 1.2. Inductive Bias 2. Abstract 3. Introduction 4. Related Work 4.1. Transformer 4.2. Attention in CV 4.3. On the relationship between self attention and convolutional la..
[리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale이번에는 최근 CV 분야에서도 SOTA를 달성하고 있는 Transformer에 관련된 ICLR 2021에 게재된 논문인 ViT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)를 읽고, 리뷰해보고자 합니다. Index 1. Background 1.1. Attention, Self-Attention, Transformer 1.2. Inductive Bias 2. Abstract 3. Introduction 4. Related Work 4.1. Transformer 4.2. Attention in CV 4.3. On the relationship between self attention and convolutional la..
2022.12.28 -
원래 attention은 NLP 분야에서 먼저 사용되었지만, 요즘은 다양한 영역에 접목시켜 사용한다고 한다. 목차1. 기본적인 Neural Network2. Convolutional Neural Network3. Attention 3.1. 등장 배경 3.2. Attention 3.3. Self-Attention4. 끝으로1. 기본적인 Neural Network Fully Connected neural Network에서 전체 input에 대해 input값 마다 weight를 적용시켜 feature를 추출하는 방식 2. Convolutional Neural NetworkFCN과 다르게 2차원(rgb channel이 있는 경우라면 3차원) input에 대해 filter를 이용하여 인접 픽셀에만..
Computer Vision영역에서의 Attention과 Self-Attention 간략 개념원래 attention은 NLP 분야에서 먼저 사용되었지만, 요즘은 다양한 영역에 접목시켜 사용한다고 한다. 목차1. 기본적인 Neural Network2. Convolutional Neural Network3. Attention 3.1. 등장 배경 3.2. Attention 3.3. Self-Attention4. 끝으로1. 기본적인 Neural Network Fully Connected neural Network에서 전체 input에 대해 input값 마다 weight를 적용시켜 feature를 추출하는 방식 2. Convolutional Neural NetworkFCN과 다르게 2차원(rgb channel이 있는 경우라면 3차원) input에 대해 filter를 이용하여 인접 픽셀에만..
2022.11.04 -
1. Attention 1.1. 개념 input sequence가 길어지면 output sequence의 정확도가 떨어지는 것을 보정해주기 위한 등장한 기법 데이터 전체를 살펴보고 집중해서 살펴볼 위치를 정하는 매커니즘 decoder에서 출력 단어를 예측하는 매 시점마다, encoder에서의 전체 입력 문장을 다시 참고 단, 전체 input sequence를 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야할 output과 연관이 있는 input 부분을 좀 더 집중 학습시키고자 하는 class에 해당하는 부분만 집중하는 효과를 나타낼 수 있음 Query, Key, Value로 구성되며, 일반적으로 Key와 Value를 같은 값을 가지게 함 Query : 찾고자 하는 대상으로, t시점의..
Attention, Self-Attention, Transformer1. Attention 1.1. 개념 input sequence가 길어지면 output sequence의 정확도가 떨어지는 것을 보정해주기 위한 등장한 기법 데이터 전체를 살펴보고 집중해서 살펴볼 위치를 정하는 매커니즘 decoder에서 출력 단어를 예측하는 매 시점마다, encoder에서의 전체 입력 문장을 다시 참고 단, 전체 input sequence를 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야할 output과 연관이 있는 input 부분을 좀 더 집중 학습시키고자 하는 class에 해당하는 부분만 집중하는 효과를 나타낼 수 있음 Query, Key, Value로 구성되며, 일반적으로 Key와 Value를 같은 값을 가지게 함 Query : 찾고자 하는 대상으로, t시점의..
2022.11.02