바이오 대표

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP) 본문

Bioinformatics/NGS 기본지식

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP)

바이오 대표 2023. 2. 23. 11:46

- PCA

- 해당 글에서는 UMAP 관련해서 좀 자세히 다뤄보려 한다. 다음 내용은 StatQuest 을 참조하였다. 

 

 

UMAP 을 이용해서 High dimension 데이터를 low-dimension에 표현할 수 있다. 

 

How?

전체적인 그림은, 낮은차원에서 point를 움직여서, high dimention 에서와 비슷한 모습을 보이도록 조정하는 방법이고 이를 Similarity score 을 계산하여 사용한다.

 

1. High-dimention points 에서 서로간의 distance 를 계산한다.

 

2. High-dimention neighbor 숫자 (default 15) 에 따라 log2 (#of neighbor) 을 이용하여 curve 를 그리고, 각 포인트의 similarity score 을 계산한다. 이때 ABC 를 계산할 때, 노랑이처럼 먼 애들은 0이라 무시해준다. 이래서 UMAP 그래프에서 얼마나 먼가는 중요하지 않고 얼마나 가깝냐가 더 중요한 것이다.이때 neighbor 숫자가 높으면, 좀 더 global 한 부분을 확인 할 수 있지만 less detail. neightbor 숫자가 낮으면 focus on details but not big picture.

 

3. 각 포인트에서의 similarity score 이 (A → B 0.6, B→A 1) 다를수 있기에 average를 해준.

 

4. 2 Dimension 에서 가깝고 멀어야하는지는 first clustering 에서의 similarity score을 중 높은 score을 갖는 2개의 point 를 정하고 far clustering에서는 random으로 정해서 움직여준다. 이때 얼마나 움직여야하는지 low-dimensional similarity score을 구해서 정하는데 이때는 fixed t-distribution curve 를 이용한다

 

5. 계속 2개의 point 를 골라서, 계산한 distance, clusters를 이용하여, low-dimension 에서 멀어저야 하는지말아햐 하는지 정해준다.

 

 

t-sne와의 비교

  1. tsne는 low-dimensional graph 을 그릴때 random 으로 시작한다. 따라서 매번 그릴때마다 다를수 있다. 반면에 UMAP은 spectral embedding 을 사용하여 시작하여 항상 같다.
  2. tsne 의 low-dimension 에서 포인트를 조절할때, 각 iteration 마다 모든 포인트를 조금씩 움직인다. 반면에 UMAP 에서는 한번에 하나의 포인트 (or subset) 만 움직여서 big dataset에서 scale이 더 유용하다.
          •