바이오 대표

[single cell Analysis] 싱글셀 분석 기본 다지기 2 - normalization & batch correction 본문

Bioinformatics/NGS 기본지식

[single cell Analysis] 싱글셀 분석 기본 다지기 2 - normalization & batch correction

바이오 대표 2023. 2. 20. 09:02

 

해당 글은 지마님의 블로그의 Batch effect https://ruins880.tistory.com/88 를 참고하였습니다. 좀 더 자세한 사항은 지마님의 블로그를 참고바랍니다.

 

Normalization vs Batch effect correction in scRNAseq

  • Normalization: 라이브러리 제작, dropout, 유전자 길이, GC 비율 등에 따른 증푹 치우침 (amplification bias) - raw count matrix 이용
  • Batch Effect correction: 실험 설계 및 실험 과정 (시퀀싱 기계, 실험 시각, 시약, 실험실) 에서 오는 변이 통제 - 차원이 축소된 데이터 이용 (계산 시간 줄이기 위하여)

⇒ batch effect 가 제거된 결과는 차원이 축소된 데이터 (corrected data)를 이용함으로, 시각화나 그래프 기반의 클러스터링에는 유용하지만, DEG를 찾는 등의 분석은 축소 전의 데이터 (measured data)를 이용해야한다.

 

scRNAseq 에서 batch effect 를 알아내는 방법

  1. PCA 살펴보기 : 주성분 분석 (PCA: principla component analysis) 는 어떠한 인자가 데이터에서 가장 변이가 큰지 밝혀준다. 상위 주성분을 살펴보면서, 주요 변이가 batch를 따라가면, batch effect 가 존재하는 것이다. 이것을 어떻게?
  2. Cluster 살펴보기 : UMAP, tsne를 그려보았을때, batch 별로 클러스터링이 되면 이는 batch effect 가 있는 것이다.

 

scRNAseq 에서 batch effect 예방하는 방법

  1. 실험 디자인 잘하기
    1. 추가 방법
      1. Cell hasing: 세포 표면 단백질에 붙는 항체에 짧은 DNA 시퀀스를 붙여 각 세포를 바코딩하는 방법
      2. Spike-in: 시퀀싱 전에 샘플에 첨가하는 인공 rna 서열이며, 분석 후에 쉽게 구분이 가능하다. spike-in 양을 측정하여, 유전자 발현량을 정규화 하는데 도움을 줄 수 있음. (요새는 그닥 효과적이지 못하다는 논문이 많음)
  2. batch correction 하는 알고리즘 스터디에 맞게 선택하자
    1. 대표적인 알고리즘 (많은 수의 세포와 drop-out 염두)
      1. Mutual Nearest Neighbors (MNN) (Haghberdi et al., 2018): batch 들 사이에서 가장 비슷한 세포 찾아내기 이것을 어떻게? → 해당 세포들은 mutual neighbor로 간주 및 같은 세포유형이라고 추정. 같은 세포유형이라고 추정된 애들끼리의 차이를 batch effect 라고 생각하고 이 차이점을 수식화 하여, batch 합칠때 사용
      2. Seurat Canonical Correlation Analysis (CAA) (Butler et al., 2018): 공통적으로 연결된 구조 (canonical correlation vectors)를 찾고 해당 백터를 이용하여 batch 를 합칠때, 세포 정렬.
      3. Harmony (Korsunsky et al., 2019) : PCA를 이용하여 세포들은 낮은 차원공간에 깔아놓고, 클러스터 중심을 찾아내고, 각 클러스터의 고유한 수정 요소 (correction factr)를 이용하여 재배열. 해당 과정을 batch effect 가 제거되고 클러스터들이 완벽히 겹쳐질때 까지 반복.
  3. Overcorrection 을 했는 지 확인하기 : 생물학적인 차이를 batch effect로 착각하고 제거했을 수 있다. PCA 상으로 batch effect 가 거의 보이지 않는다면, batch correction 이 없을 때 결과가 더 좋을 수도 있다.