[single cell Analysis] 싱글셀 분석 기본 다지기 4

Notice

Recent Posts

Recent Comments

Link

Link to blog "한 사람의 일상"

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

바이오 대표

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP) 본문

Bioinformatics/NGS 기본지식

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP)

바이오 대표 2023. 2. 23. 11:46

- PCA

- 해당 글에서는 UMAP 관련해서 좀 자세히 다뤄보려 한다. 다음 내용은 StatQuest 을 참조하였다.

UMAP 을 이용해서 High dimension 데이터를 low-dimension에 표현할 수 있다.

How?

전체적인 그림은, 낮은차원에서 point를 움직여서, high dimention 에서와 비슷한 모습을 보이도록 조정하는 방법이고 이를 Similarity score 을 계산하여 사용한다.

1. High-dimention points 에서 서로간의 distance 를 계산한다.

2. High-dimention neighbor 숫자 (default 15) 에 따라 log2 (#of neighbor) 을 이용하여 curve 를 그리고, 각 포인트의 similarity score 을 계산한다. 이때 ABC 를 계산할 때, 노랑이처럼 먼 애들은 0이라 무시해준다. 이래서 UMAP 그래프에서 얼마나 먼가는 중요하지 않고 얼마나 가깝냐가 더 중요한 것이다.이때 neighbor 숫자가 높으면, 좀 더 global 한 부분을 확인 할 수 있지만 less detail. neightbor 숫자가 낮으면 focus on details but not big picture.

3. 각 포인트에서의 similarity score 이 (A → B 0.6, B→A 1) 다를수 있기에 average를 해준.

4. 2 Dimension 에서 가깝고 멀어야하는지는 first clustering 에서의 similarity score을 중 높은 score을 갖는 2개의 point 를 정하고 far clustering에서는 random으로 정해서 움직여준다. 이때 얼마나 움직여야하는지 low-dimensional similarity score을 구해서 정하는데 이때는 fixed t-distribution curve 를 이용한다

5. 계속 2개의 point 를 골라서, 계산한 distance, clusters를 이용하여, low-dimension 에서 멀어저야 하는지말아햐 하는지 정해준다.

t-sne와의 비교

tsne는 low-dimensional graph 을 그릴때 random 으로 시작한다. 따라서 매번 그릴때마다 다를수 있다. 반면에 UMAP은 spectral embedding 을 사용하여 시작하여 항상 같다.
tsne 의 low-dimension 에서 포인트를 조절할때, 각 iteration 마다 모든 포인트를 조금씩 움직인다. 반면에 UMAP 에서는 한번에 하나의 포인트 (or subset) 만 움직여서 big dataset에서 scale이 더 유용하다.

저작자표시 (새창열림)

'Bioinformatics > NGS 기본지식' 카테고리의 다른 글

[single cell Analysis] 싱글셀 분석 기본 다지기 2 - normalization & batch correction (1)	2023.02.20
[single cell Analysis] 싱글셀 분석 기본 지식 다지기 1 (0)	2023.01.30
[Bioinformatics] NGS 파일 포맷 - fastq, sam, bam, bed, bigwig,,, (1)	2022.12.04

'Bioinformatics/NGS 기본지식' Related Articles

바이오 대표

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP) 본문

[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP)

How?

'Bioinformatics > NGS 기본지식' 카테고리의 다른 글

티스토리툴바