바이오 대표

[ Molecular Descriptors ] ECFPs, Morgan 본문

Drug

[ Molecular Descriptors ] ECFPs, Morgan

바이오 대표 2022. 1. 13. 23:10

 

Molecular Structure을 컴퓨터가 이해하기위해 숫자화된 Molecular Descriptors로 바꿔야 한다. 

 

< Molecular Descriptors >

  • Constitutional descriptors  - molecular weight, # of H-bonds ,,, 
  • Physicochemical descriptors  -  lipophilicity, polarizability ,,,
  • Topological descriptors  - atomic branching ,,, 
  • Electric, geometrical, and quantum-chemical descriptors
  • Fragmental/Structural Keys (Finger Print)  -  MACCS keys, ECFP 

 

Descriptor 구조: 1D (mw), 2D(topological representations), 3D(3차원 구조) 

Descriptor 대표 예시: PaDEL descriptor  # 1875 descriptor 

 

Fragment Codes  Exmaple 

[1] Substructual 'key'

      MACCS Keys - 가장 빨라 많이 사용된다 (QSAR 할때 정확도가 높아 대표적으로 사용된다) 

[2] hashed fingerprint

      ECFPs (Extened Connectivity FingePrints)

      Morgan Fingerprint 

# Substructure 가 있으면 1 , if not 0&amp;amp;nbsp;

ECFP

https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md 

논문 'Extended-Connectivity Fingerprints' https://pubs.acs.org/doi/10.1021/ci100050t 

    

 

Molecular Fingerprint (ECFPs, Morgan)

binary (bit) 으로 표현되기 때문에 computational (계산하기 쉽고), 단순하지만 정확해서 대표적으로 사용된다. 

 

< Similarity >

[1] Tanimoto Coefficient

      0 <= 교집합/합집합 <= 1 

      # 보통 0.9 이상이면 두 molecule은 구조적으로 비슷하다고 예측한다. 

      # 0.4 이하면, 유사성이 거의 없다고 한다. 

FP는 보통 0,1 을 이용한 1024, 2048 이진수로 표현된다.

 

 

< Fingerprint Algorithm >

[1] Atom Identifier Assign

     # 원자만을 이용해서 Identifier 부여

hash를 이용해서 만들어진 Identifier Assign

 [2] Idenfifier Update

       # Bond 갯수(Radius) 를 늘리면서 고유 sub-structure로 Identifier 부여

[3] 중복 제거 = Final Identifier 생성 

[4] Fixed Length bit stiring 만들기

      # 긴 Array 를 folding 해서 고정된 1024, 2048 bit sting 으로 만든다.

      # 대표적으로 (radius=2, bit =1024) 로 만든다. ~ ECFP4 (diameter 4) , morgan2 (radius2)

! Folding 을 하기 때문에 겹칠수도 있다.