일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- matplotlib
- julia
- MACS2
- 비타민 C
- Git
- scRNAseq
- EdgeR
- scRNAseq analysis
- 싱글셀 분석
- cellranger
- single cell
- PYTHON
- single cell rnaseq
- DataFrame
- ChIPseq
- Batch effect
- ngs
- js
- python matplotlib
- single cell analysis
- drug development
- CSS
- CUT&RUN
- CUTandRUN
- github
- HTML
- drug muggers
- Bioinformatics
- javascript
- Today
- Total
바이오 대표
[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP) 본문
[single cell Analysis] 싱글셀 분석 기본 다지기 4 - 클러스터 visualization (UMAP)
바이오 대표 2023. 2. 23. 11:46- PCA
- 해당 글에서는 UMAP 관련해서 좀 자세히 다뤄보려 한다. 다음 내용은 StatQuest 을 참조하였다.
UMAP 을 이용해서 High dimension 데이터를 low-dimension에 표현할 수 있다.
How?
전체적인 그림은, 낮은차원에서 point를 움직여서, high dimention 에서와 비슷한 모습을 보이도록 조정하는 방법이고 이를 Similarity score 을 계산하여 사용한다.
1. High-dimention points 에서 서로간의 distance 를 계산한다.
2. High-dimention neighbor 숫자 (default 15) 에 따라 log2 (#of neighbor) 을 이용하여 curve 를 그리고, 각 포인트의 similarity score 을 계산한다. 이때 ABC 를 계산할 때, 노랑이처럼 먼 애들은 0이라 무시해준다. 이래서 UMAP 그래프에서 얼마나 먼가는 중요하지 않고 얼마나 가깝냐가 더 중요한 것이다.이때 neighbor 숫자가 높으면, 좀 더 global 한 부분을 확인 할 수 있지만 less detail. neightbor 숫자가 낮으면 focus on details but not big picture.
3. 각 포인트에서의 similarity score 이 (A → B 0.6, B→A 1) 다를수 있기에 average를 해준.
4. 2 Dimension 에서 가깝고 멀어야하는지는 first clustering 에서의 similarity score을 중 높은 score을 갖는 2개의 point 를 정하고 far clustering에서는 random으로 정해서 움직여준다. 이때 얼마나 움직여야하는지 low-dimensional similarity score을 구해서 정하는데 이때는 fixed t-distribution curve 를 이용한다
5. 계속 2개의 point 를 골라서, 계산한 distance, clusters를 이용하여, low-dimension 에서 멀어저야 하는지말아햐 하는지 정해준다.
t-sne와의 비교
- tsne는 low-dimensional graph 을 그릴때 random 으로 시작한다. 따라서 매번 그릴때마다 다를수 있다. 반면에 UMAP은 spectral embedding 을 사용하여 시작하여 항상 같다.
- tsne 의 low-dimension 에서 포인트를 조절할때, 각 iteration 마다 모든 포인트를 조금씩 움직인다. 반면에 UMAP 에서는 한번에 하나의 포인트 (or subset) 만 움직여서 big dataset에서 scale이 더 유용하다.
'Bioinformatics > NGS 기본지식' 카테고리의 다른 글
[single cell Analysis] 싱글셀 분석 기본 다지기 2 - normalization & batch correction (1) | 2023.02.20 |
---|---|
[single cell Analysis] 싱글셀 분석 기본 지식 다지기 1 (0) | 2023.01.30 |
[Bioinformatics] NGS 파일 포맷 - fastq, sam, bam, bed, bigwig,,, (1) | 2022.12.04 |