9. 등식 제약조건

김재희·2021년 9월 17일

최적화 이론

목록 보기

8/9

지금까지는 주어진 목적함수에 대해 최소화하는 다양한 방법들을 살펴보았다. 하지만 실제로는 단순히 목적함수만 주어지지 않는다. 선형회귀에서도 랏소나 릿지와 같이 가중치들에 대한 제약식이 주어진다. 이렇게 제약식이 주어졌을 때, 어떻게 문제를 해결할 수 있는지 알아보자.

1. 예시

다음과 같은 최적화 문제 수식을 생각해보자.

minimize_\textbf{x} f(\textbf{x})\\ \text{subject to } \textbf{x} \in X \tag{1}

위 문제를 풀 때, 제약조건이 없다면 가능한 집합 $X$ 는 $R^n$ 로 실수 전체가 될 것이다. 하지만 제약 조건이 있는 문제에서는 $R^n$ 의 부분집합이 된다. 가중치에 대한 상한 혹은 하한이 있는 제약식을 생각해보자. 이는 아래 그림과 같이 일변수 문제에선 가중치의 범위를 제한하는 꼴이다.

minimize_x f(x) \\ \text{subject to } x \in [a, b] \tag{2}

만약 다변량 목적함수에 대해 위와 같은 제약식이 있다면, 이는 아래 그림과 같이 초사각형 내에서 최적해를 찾는 문제가 될 것이다.

2. 제약조건의 형태

제약조건은 보통 부분집합으로 직접 주어지지 않고, 두가지 형태로 주어진다.

등식 제약조건 $h(x) = 0$
부등식 제약조건 $g(x) \leq 0$

이때, 이러한 제약조건은 다음처럼 표현할 수 있을 것이다.

\begin{aligned} &minimize_\textbf{x} f(\textbf{x})\\ &\text{subject to } \begin{dcases} h_i(\textbf{x}) = 0 \;\;(i =1, \dots, l)\\ g_j(\textbf{x}) \leq 0 \;\;(j = 1, \dots , m) \end{dcases} \end{aligned}

이 식에서 등식 제약조건은 가능한 집합을 이용해서 표현할 수도 있다

h(\textbf{x}) = (\textbf{x} \not \in X)

3. 제약조건 제거

가장 간단하게 제약조건이 있을 때 어떻게 최적화할 수 있는지 생각해보자.
부등식 제약조건
예를 들어 제약식이 $a \leq x \leq b$ 라고 하면, $x$ 를 다음과 같이 변형하면 제약식을 지워도 제약식 아래에서 최적해를 찾을 수 있다.

x = t_{a, b}(\hat{x}) = {b+a\over 2} + {b-a \over 2}({2\hat{x} \over 1+\hat{x}^2})

$x$ 를 위처럼 변형하면, 아래 그림에서 보는 것처럼 $\hat{x} =1$ 에서 $x =a$ 고, $\hat{x} = -1$ 에서 $x =b$ 가 된다.

목적함수가 $f(x) = x^2 + 3x + 1$ 일 때, 위의 제약식에서 최적화하기 위해선, 결국 목적함수가 다음과 같이 변화한다.

minimize_{\hat{x}} f(\hat{x})\\ minimize_{\hat{x}} ({b+a\over 2} + {b-a \over 2}({2\hat{x} \over 1+\hat{x}^2}))^2 + 3({b+a\over 2} + {b-a \over 2}({2\hat{x} \over 1+\hat{x}^2})) + 1

등식 제약조건
등식 제약 조건은 더 쉽게 제거할 수 있다.
예를 들어 다음과 같은 제약 조건이 있다고 해보자.

h(\textbf{x}) = x_1^2 + x_2^2 + \dots + x_n^2 -1 = 0

이때, 만약 $i = 1, \dots, n-1$ 의 값을 알고 있다면, $x_n$ 에 대해 다음과 같이 정리하여 풀 수 있다.

x_n = \pm \sqrt{1- x_1^2 -x_2^2-\dots-x_{n-1}^2}

이를 통해 기존의 최적화문제인

minimize_{\textbf{x}} f(\textbf{x})\\ \text{subject to } h(\textbf{x}) = 0

를 다음처럼 이전에 다룬 방법들로 최적해를 찾을 수 있는 제약식으로 변환할 수 있다.

minimize_{x_1, \dots x_{n-1}} f([x_1, \dots, x_{n-1}, \pm \sqrt{1- x_1^2 -x_2^2-\dots-x_{n-1}^2}])

4. 라그랑주 승수

라그랑주 승수는 등식 제약조건에서 함수를 최적화하는데 이용된다. 다음과 같이 제약식이 있는 최적화문제를 생각해보자.

minimize_x f(\textbf{x}) = -exp(-(x_1x_2 -{3 \over 2})^2 - (x_2 - {3 \over 2})^2)\\ \text{subject to } x_1 - x^2_2 = 0

이는 $x_1 = x_2^2$ 으로 제약조건을 변형하여 목적함수에 대입할 수 있을 것이다.

f(\textbf{x})_{unc} = -exp(-(x^3_2 - {3 \over 2})^2 - (x_2 - {3 \over 2})^2)

위의 식은 간단히 미분이 가능하고 이를 통해 쉽게 최적해를 구할 수 있다.

{\partial f_{unc} \over \partial x_2 } =6exp(-(x^3_2 - {3 \over 2})^2 - (x_2 - {3 \over 2})^2)(x^5_2 - {3 \over 2}x^2_2 + {1 \over 3}x_2 - {1 \over 2}) =0\\ \therefore x_2 = 1.165, x_1 = (1.165)^2 \approx 1.358

최적은을 본래의 목적함수 $f$ 의 등고선이 $h$ 가 일치하는 지점에 놓이게 될 것이다.

본래 3차원 공간에서 표현되겠지만, 간단하게 표현하고자, 위에서 내려다보는 2차원으로 표현해보면 위와 같은 상황이다.

$f$ 는 등고선을 통해 색으로 표현되어 있고, $h$ 는 곡선으로 검은 선으로 표현되어 있다. 이때 $h$ 역시 3차원 공간에서 선이 아니라 사실은 수직으로 서 있는 평면이 될 것이다. 결국 우리는 제약식 $h$ 위의 점들 중에 $f$ 등고선 중 가장 아래에 있는 점이 최적해로 간주할 수 있다. 그때의 등고선은 $h$ 와 접하는 등고선일 것이다.

이때 중요한 점은 등고선과 그래디언트는 서로 수직이라는 점이다. 높이가 $c$ 인 등고선을 $r(t)$ ( $t$ 는 매개변수)로 나타내보면, $f(r(t)) = c$ 가 될 것이다. 등고선의 어떤 지점이든 높이가 똑같기 때문이다. 이때, 만약 지점을 $t = a$ 로 고정하고 등고선과 그래디언트를 내적해보면 다음과 같을 것이다.

\nabla f(r(t))r(t) = \nabla c r(t) = 0 r(t) = 0

이 된다.

즉, 등고선과 그래디언트의 내적은 항상 0이 되므로 수직임을 알 수 있다.

이를 이용하면 $f$ 의 등고선과 $h$ 가 접하는 점에서 $f$ 의 그래디언트는 당연히 수직일 것이다. 또한, $h$ 가 $f$ 의 등고선에 접하고 있다면, 해당 점에서 등고선 $h(\textbf{x}) = 0$ 의 방향의 $h$ 의 방향도 함수 값은 당연수 0일 것이다.

이를 종합하면 우리는 등식 제약조건에서 최적해를 찾을 때, $f$ 의 등고선과 $h(\textbf{x}) = 0$ 의 등고선과 일치하는 점을 찾는 문제가 된다. 이를 라그랑주 승수법이라 한다.

자 이제 수식으로 정리해보자.
우선 다음 제약식을 만족해야 한다.

h(\textbf{x}) = 0

이때, 그래디언트가 다음 식처럼 어떤 계수(라그랑주 승수) $\lambda$ 에 대해 일치하는 $\textbf{x}$ 를 구하면 된다.

\nabla f(\textbf{x}) = \lambda \nabla h(\textbf{x})

이때 $\lambda$ 는 두 그래디언트가 방향은 같으나 크기가 같다는 보장이 없기 때문에 보정을 위해 들어간다.

가중치와 승수의 함수인 라그랑지안의 공식은 다음과 같아진다.

L(\textbf{x}, \lambda) = f(\textbf{x}) - \lambda h(\textbf{x})

결국 라그랑지안 공식의 그래디언트를 푸는 문제로 전환되는데, $\nabla L(\textbf{x}, \lambda) = 0$ 의 해는 두가지로 나뉘게 된다. 첫번째로, $\nabla_{\textbf{x}} L = 0$ 는 $\nabla f(\textbf{x}) = \lambda \nabla h(\textbf{x})$ 의 조건을 제공하게 되고, $\nabla_{\lambda} L = 0$ 은 $h(\textbf{x}) = 0$ 의 조건을 제공한다. 이렇게 구해진 해는 모두 critical point이다.

이해가 잘 가지 않으니, 전에 풀던 문제로 돌아가보자.
라그랑주 승수법으로 식을 다시 구성하면 다음과 같다.

L(x_1, x_2, \lambda) = -exp(-(x_1x_2 - 3/2)^2 - (x_2 - 3/2)^2) - \lambda(x_1 - x_2^2)

위 식의 그래디언트를 계산하면 다음과 같다.

\begin{aligned} {\partial L \over \partial x_1} &= {\partial f \over \partial x_1} \times {\partial h \over \partial x_1}\\ &= -2x_2(x_1x_2 - {3/2})\times f(\textbf{x}) - \lambda\\ {\partial L \over \partial x_2} &= {\partial f \over \partial x_2} \times {\partial h \over \partial x_2}\\ &= 2\lambda x_2 + f(\textbf{x})(-2x_1(x_1x_2-3/2)-2(x_2 - 3/2))\\ {\partial L \over \partial \lambda} &= x_2^2 - x_1 \end{aligned}

우리는 라그랑주 공식의 그래디언트가 0인 지점을 찾는 것이므로 0으로 설정하고 해를 구하게 되면, $x \approx 1.358, x_2 \approx 1.165, \lambda \approx 0.170$ 인 것을 확인할 수 있다.

라그랑주 승수법은 하나의 등식 제약조건만 풀 수 있는 것이 아니라 복수의 등식 제약조건이 주어진 경우에도 사용이 가능하다. 2개의 등식 제약조건이 있다면 아래와 같이 풀 수 있을 것이다.

minimize_{\textbf{x}} f(\textbf{x})\\ \text{subject to } \begin{dcases} h_1(\textbf{x}) = 0\\ h_2(\textbf{x}) = 0 \end{dcases}

위 식에서 두 제약조건을 하나로 합치는 것은 어려운 일이 아니다.

h_{new}(\textbf{x}) = h_1(\textbf{x})^2 + h_2(\textbf{x})^2 = 0

으로 구성하면 된다. 이렇게 제약조건을 변경한다 하더라도, 이전과 동일한 점들을 만족하기 때문에 해는 변하지 않고, 기존의 라그랑주 승수법을 그대로 이용할 수 있다. 다만 그래디언트 계산시 조금 조심할 부분이 있다. 우선 위의 식으로 그래디언트를 계산하면 다음과 같을 것이다.