[Paper Review] Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields

E0u0n·2023년 12월 3일
0

NeRF

목록 보기
11/12

Paper : Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields

Abstract

배경

  • NeRF(Neural Radiance Fields)는 사실적인 새로운 뷰 합성을 달성했으나 정확한 카메라 포즈에 대한 요구 사항으로 인해 적용이 제한됨
  • 신경 3D 표현을 공동으로 학습하고 카메라 프레임을 등록하기 위한 합성별 분석 확장이 존재함에도 불구하고 제대로 초기화되지 않으면 차선책에 취약

제안

  • 번들 조정 Neural Radiance Fields를 위한 로컬-투-글로벌 등록 방법인 L2G-NeRF를 제안
  • 픽셀 단위의 유연한 정렬과 프레임 단위의 제한된 파라메트릭 정렬이 이어짐
  • 픽셀별 로컬 정렬은 광도 재구성 오류를 최적화하는 심층 네트워크를 통해 감독되지 않는 방식으로 학습
  • 프레임별 전역 정렬은 전역 변환을 찾기 위해 픽셀별 대응에 대해 미분 가능한 매개변수 추정 솔버를 사용하여 수행됩니다.

결과

  • 합성 및 실제 데이터에 대한 실험을 통해 우리의 방법이 충실도가 높은 재구성 및 대형 카메라 자세 오정렬 해결 측면에서 현재의 최첨단 방법보다 성능이 우수하다는 것을 보여줌

3. Approach

카메라 매개변수와 함께 neural field를 재구성하는 공식을 제시한다. 이미지 세트 {Ii}i=1M\{\mathcal I_i\}^M_{i=1}이 주어지면 우리는 neural field R\mathcal R의 매개변수 ΘΘ와 렌더링된 이미지와 실제 이미지 사이의 photometric error를 최소화하는 카메라 매개변수 {Ti}i=1M\{\mathbf T_i\}^M_{i=1}을 공동으로 찾는 것을 목표로 한다. 샘플링된 좌표 {xj}j=1N\{\mathbf x^j\}^N_{j=1} 에 대한 이미징 함수를 다음과 같이 공식화한다:

min{Ti}i=1M,Θi=1Mj=1N(R(Tixj;Θ)Ii(xj)22).(1)\min_{\{\mathbf T_i\}^M_{i=1},\Theta} \sum^M_{i=1} \sum^N_{j=1}(\| \mathcal R(\mathbf T_i \mathbf x^j;\Theta)- \mathcal I_i(\mathbf x^j)\|^2_2). \tag 1

Gradient-based optimization은 최적이 아닌 카메라 포즈를 찾는 경향이 있다. 따라서 본 논문은 local-to-global registration을 위한 전략을 제안한다. 핵심 아이디어는 photometric reconstruction error를 픽셀별 유연한 정렬을 적용하여 개별적으로 최적화한 다음, 식 1을 확장하여 local geometric transformation을 global로 제한하는 프레임별 정렬을 적용하는 것이다:

min{Ti}i=1M,N,Θi=1Mj=1N(R(Tixj;Θ)Ii(xj)22)+λTijTixj22),(3)\min_{\{\mathbf T_i\}^{M,N}_{i=1},\Theta} \sum^M_{i=1} \sum^N_{j=1}(\| \mathcal R(\mathbf T_i \mathbf x^j;\Theta)- \mathcal I_i(\mathbf x^j)\|^2_2) +\lambda\|\mathbf T_i^j - \mathbf T_i^* \mathbf x^j \|^2_2), \tag 3
  • {Tij}i=1,j=1M,N\{\mathbf T_i^j\}^{M,N}_{i=1,j=1} : pixel-wise local transformation으로, frame-dependent embedding {i}i=1M\{ℓ_i\}^M_{i=1}과 함께 ΦΦ로 매개변수화된 warp neural field W\mathcal W에 의해 모델링
    Tij=W(xj;i,Φ),(3)\mathbf T_i^j = \mathcal W(\mathbf x^j;ℓ_i, \Phi), \tag 3

{Ti}i=1M\{T^*_i\}^M_{i=1} 은 픽셀별 대응(pixel-wise correspondences)에 대해 미분 가능한 매개변수 추정 솔버를 사용하여 추정한다:

Ti=arg minTij=1NTijxjTixj22(4)\mathbf T_i^* = \argmin_{\mathbf T_i}\sum^N_{j=1}\| \mathbf T^j_i\mathbf x^j-\mathbf T_i\mathbf x^j \|^2_2 \tag 4

3.1. Neural Image Alignment (2D)

직관적으로 문제를 정의하기 위해 먼저 2차원에서의 이미지 정렬 문제를 가정해보자. xR2\mathbf x ∈ \mathbb R^2 를 2D 픽셀 좌표로 하고 I:R2R3\mathcal I : \mathbb R^2 → \mathbb R^3 이라고 하면 가중치 ΘΘ로 매개변수화된 MLP fR:R2R3f_{\mathcal R} : \mathbb R^2 → \mathbb R^3 2D neural field를 최적화하는 것을 목표로 한다.

R(Tx;Θ)=fR(Tx;Θ),(5)\mathcal R(\mathbf {Tx}; Θ) = f_{\mathcal R}(\mathbf {Tx}; Θ), \tag 5
  • T=[Rt]\mathbf T = \mathbf{[R|t]} ∈ SE(2) 또는 T\mathbf T ∈ SL(3)과 같은 geometric transformation parameters
    를 해결
  • R\mathbf R ∈ SO(2) 및 tR2\mathbf t ∈ \mathbb R^2 : rigid rotation and translation
  • T\mathbf T ∈ SL(3) : 각각의 homography transformation matrix

가중치 Φ\Phi로 매개변수화된 다른 MLP를 사용하여 frame-dependent embedding 에서 coordinate-based warp neural field fW:R2R3f_{\mathcal W}: \mathbb R^2 → \mathbb R^3 조건을 모델링한다:

W(x;,Φ)=exp(fW(x;,Φ)),(6)\mathcal W(\mathbf x; ℓ, Φ) = \exp (f_{\mathcal W}(\mathbf x; ℓ, Φ)), \tag 6
  • exp(·) : Lie algebra se(2)se(2) 또는 sl(3)sl(3)에서 Lie group SE(2) 또는 SL(3)까지의 지수 맵을 나타내며, 이는 gradient-based optimization 동안 최적화된 변환 행렬 T\mathbf T가 Lie group manifold에 놓이도록 함

3.2. Bundle-Adjusting Neural Radiance Fields (3D)

3D NeRF(Neural Radiance Fields)와 카메라 포즈를 동시에 추정하는 문제에 대해 논의한다. 3D 점이 주어지면 네트워크 매개변수를 사용하여 3D 장면을 인코딩하는 MLP fR:R3R4f_{\mathcal R} :\mathbb R^3 →\mathbb R^4를 통해 RGB 색상 cR3\mathbf c ∈ \mathbb R^3 및 볼륨 밀도 σRσ ∈ \mathbb R을 예측한다.

이는 카메라 뷰 공간에서 NeRF의 렌더링 프로세스를 공식화하는 것부터 시작한다. 픽셀 좌표 uR2\mathbf u ∈ \mathbb R^2 의 homogeneous 좌표는 x=[u;1]R3\mathbf x = [\mathbf u; 1]^⊤ ∈ \mathbb R^3로, 깊이 ziz_i에서 ray위의 3D 점은 zixz_i\mathbf x로 표현될 수 있다. 따라서 query quantity는 y=[c;σ]=fR(zix;Θ)\mathbf y = [\mathbf c; σ]^⊤ = f_{\mathcal R}(z_i\mathbf x; Θ)이며, 여기서 ΘΘfRf_{\mathcal R}의 매개변수이다. 그런 다음 픽셀 위치 x\mathbf x의 렌더링 색상 R\mathcal R은 볼륨 렌더링으로 계산할 수 있다

R(x)=znearzfarT(x,z)σ(zx)c(zx)dz,(7)\mathcal R(\mathbf x) = \int^{z_{\text{far}}}_{z_{\text{near}}} T(\mathbf x, z)σ(z\mathbf x)\mathbf c(z\mathbf x)dz , \tag 7
  • T(x,z)=exp(znearzσ(zx)dz)T(\mathbf x, z) = \exp (− \int^{z}_{z_{\text{near}}} σ(z^′\mathbf x)dz^′)
  • zfarz_{\text{far}}zfarz_{\text{far}} : 장면의 근거리 및 원거리 깊이 경계

수치적으로 적분 공식은 깊이 {z1,...,zK}\{z_1, ..., z_K\}의 ray 위의 샘플링된 KK개의 점을 사용하여 이산적으로 근사된다. 네트워크 fRf_{\mathcal R}KK번 평가되고, 출력 {y1,...,yK}\{y_1, ..., y_K\}는 볼륨 렌더링을 통해 합성된다. R(x)\mathcal R(\mathbf x)g(y1,...,yK)g(\mathbf y_1, ..., \mathbf y_K)로 표현될 수 있도록 미분 가능하고 결정론적인 합성 함수를 g:R4KR3g: \mathbb R^{4K} → \mathbb R^3으로 표시한다.

카메라 포즈는 T=[Rt]\mathbf T = [\mathbf R|\mathbf t] ∈ SE(3) (R\mathbf R ∈ SO(3) 및 tR3\mathbf t ∈ \mathbb R^3)로 매개변수화된다. 다음으로, 3D rigid transformation T\mathbf T를 사용하여 3D 점 zixz_i\mathbf x를 카메라 뷰 공간에서 세계 좌표로 변환하고 픽셀 x\mathbf x의 렌더링 색상을 다음과 같이 공식화한다:

R(Tx;Θ)=g(fR(Tz1x;Θ),...,fR(TzKx;Θ)).(8)\mathcal R(\mathbf {Tx}; Θ) = g( f_{\mathcal R}(\mathbf T{z_1}\mathbf x; Θ), . . . , f_{\mathcal R}(\mathbf T{z_K}\mathbf x; Θ)). \tag 8

Neural 이미지 정렬과 유사하게 가중치 ΦΦ를 갖는 또 다른 MLP를 사용하여 frame-dependent embedding 과 함께 coordinate-based warp neural field fW:R2R6f_{\mathcal W} : \mathbb R^2 → \mathbb R^6를 모델링한다.

W(x;,Φ)=exp(fW(x;,Φ)),(9)\mathcal W(\mathbf x; ℓ, Φ) = \exp (f_{\mathcal W}(\mathbf x; ℓ, Φ)), \tag 9
  • exp(·) : Lie algebra se(3)se(3)에서 Lie group SE(3)까지의 지수 맵

IDK

3.3. Differentiable Parameter Estimation

profile
이세계 개발자입니다.

0개의 댓글