Study

[Encoder - Decoder] Architecture

jiwon152 2024. 2. 27. 19:13

Image-level prediction

: classification -> output : probability vector class $class \times 1$

( input 관계없이 output size가 정해져 있다)

 

Pixel-level prediction ( input : $224\times224\times3$)

: segmentation -> output : probability volume $224 \times 224 \times class$

: denoising -> output : clean(denoised) image $224\times 224 \times 3$

( input 크기에 비례해 output 크기가 정해진다)

 

- Semantic Segmentation

-> pixel (instance X) 기준으로 class label을 정한다.

    - 객체의 개수는 영향을 미치지 않고, 구분되지도 않는다.

    - 단순히 같은 class끼리 labeling한다.

  • sliding window

local region만 생각해서 그 window를 통째로 AlexNet에 통과시키는 방식

local한 범위 내에서의 prediction이 어려움

window가 겹치는 곳의 계산을 share하지 않아서 비효율적

  • fully convolutional network

$3 \times H \times W$ -> conv layer -> $D \times H \times W$ -> conv layer -> $ C \times H \times W$ -> argmax -> $H \times W$

각 클래스(C개) 별 score를 pixel 단위로 전부 계산

original resolution에서 계산을 하게 되므로 expensive

  • encoder - decoder network

downsampling & upsampling inside the network

-> upsampling methods