개발로 하는 개발

[Encoder - Decoder] Architecture 본문

Study

[Encoder - Decoder] Architecture

jiwon152 2024. 2. 27. 19:13

Image-level prediction

: classification -> output : probability vector class $class \times 1$

( input 관계없이 output size가 정해져 있다)

 

Pixel-level prediction ( input : $224\times224\times3$)

: segmentation -> output : probability volume $224 \times 224 \times class$

: denoising -> output : clean(denoised) image $224\times 224 \times 3$

( input 크기에 비례해 output 크기가 정해진다)

 

- Semantic Segmentation

-> pixel (instance X) 기준으로 class label을 정한다.

    - 객체의 개수는 영향을 미치지 않고, 구분되지도 않는다.

    - 단순히 같은 class끼리 labeling한다.

  • sliding window

local region만 생각해서 그 window를 통째로 AlexNet에 통과시키는 방식

local한 범위 내에서의 prediction이 어려움

window가 겹치는 곳의 계산을 share하지 않아서 비효율적

  • fully convolutional network

$3 \times H \times W$ -> conv layer -> $D \times H \times W$ -> conv layer -> $ C \times H \times W$ -> argmax -> $H \times W$

각 클래스(C개) 별 score를 pixel 단위로 전부 계산

original resolution에서 계산을 하게 되므로 expensive

  • encoder - decoder network

downsampling & upsampling inside the network

-> upsampling methods

 

'Study' 카테고리의 다른 글

[Linear Algebra] 12 - 22 필기한 내용  (0) 2024.02.27
[Linear Algebra] 02 - 11 필기한 내용  (0) 2024.02.27
[CNN] architecture  (0) 2024.02.06
[LG Aimers] Module 6. Deep Learning  (1) 2024.01.26
[CS231n] Assignment 1 - Two Layer Net  (0) 2024.01.16