바이오 대표

[ kernel ridge regression 논문 ] "A comparative Study of Pairwise Learning Methods based on Kernel Ridge Regression" 본문

논문

[ kernel ridge regression 논문 ] "A comparative Study of Pairwise Learning Methods based on Kernel Ridge Regression"

바이오 대표 2022. 6. 29. 12:32

 

" A comparative Study of Pairwise Learning Methods based on Kernel Ridge Regression " 

 

< Abstact >

많은 머신러닝 (ML) 문제들은 객체들의 쌍 (pair)의 라벨 (label)들의 예측으로 표현될 수 있다. 이러한 문제들을 pairwise learning, dyadic prediction 혹은 network inference 라 칭하기도 한다. 지난 10년동안, pairwise learning 을 푸는데 kernel 방법이 압도적이였고 아직까지 state-of-art 예측 성과를 낸다. 하지만 아직 이론적으로 분석된바가 없다. 

 

따라서 해당 논문에서는, 여러 pairwise learning 문제에서 자주 사용되는 kenel-based 알고리즘을 통합하여 리뷰하였다. 이를 위해, 우리는 closed-form (유한한 해가 있는) Kronecker kernel ridge regression 을 예시로 초점을 두었다. Kronecke kernel ridge regrssion 은 [1] independent kernel ridge regression 과, [2] Two-step kernel ridge regression 그리고 [3] linear matrix filter 등의 경우가 있고 이 방법들은 모두 suqred loss function 을 이용한다. 추가적으로 해당 논문은 보편성, 일관성, 스텍트럼 필터링을 분석했고 이는 현존하는 Pairwise learning 방법들의 장단점을 평가할만한 가치 있는 통찰을 보인다. 

 

Introduction 

Pairwise learning 의 중점은 pairs of obejcts 에 과한 예측을 하는 것이고 각각의 pair은 feature representation으로 나타낼수 있다. Kernel ridge regression 의 특징은 object를 feature representation으로 나타낼 수 있다는 것이고, 이 덕분에 newly introduced object에 관한 예측도 할 수 있다. 

 

( 블로그 주인장 - Drug-drug interaction predcition을 위해 이 글을 참조했음으로 비슷한 사례를 이용하겠다. 간단히 말해 Input data는 두개의 drugs 즉 한쌍의 drug 이고, label은 interaction이 있고 없음이 될 수 있다. 그리고, 예를 들어 drug 는 chemical notation e.g. SMILES 로 표현 할 수 있기에, 새로운 약이 개발된다 하더라고 다른 정보 없이 데이타로 활용 될 수 있다. )

 

해당 논문에서는 D (instance) 와 T (task) 를 한쌍으로 pairwise learning model을 다음과 같은 prediction function f(d,t) 라 표현하였다. 

Kernel function

=  pairwise kernels, 즉 두개의 dyads (d,t) 와 (d-,t-) 간의 similarity 를 계산해주는 식

 

우리가 prediction function에서 구해야 하는 것은 α_kdual parameter이고 learning algorithm을 통해 알아 낼 수 있다. 해당 parameter은 object function/loss function 을 최소화 해주는 값이다.  KRR 에서는 squared loss + L2 penalty 를 이용한다. 

 

 

Kernel Ridge Regression

3.1 Independent-task kernel ridge regression

dyads 즉 한쌍의 training set을 (d, di) ∈ D 그리고 해당 라벨 혹은 task 를 t 라고 했을 때,  다음과 같이 표현할 수 있다. 

Independent task KRR

여기서 k( , ) 는 다른 instances 들 간의 similarity 를 계산해 주는 kernel function 이다.  Obeject function 은 다음과 같이 표현된다. AIT 는 모든 aIT 를 포함한 벡터이다.

이는 다음과 같은 Linear system을 이용해서 풀이 가능하다. 

 

3.2 Two-step kernel ridge regression 

두개의 Kernel ridge regression을 이용해서, 문제를 해결하는 방법이다. 이를 이용하면, 새로운 instance 나 새로운 task가 들어와도 문제를 해결 할 수있다. 우리가 dyad(d,t) 에 관한 function 을 예측하고 싶을때 k∈ R^m k(d) = (k(d, d1), . . . , k(d, dm))^T , g ∈ R^q g(t) = (g(t, t1), . . . , g(t, tq))^T 일 때 다음과 같은 식으로 나타낼 수 있다.

Object function 은 다음과 같은 Linear system을 이용하면 된다.

 

 

 

reference https://arxiv.org/pdf/1606.04275.pdf