일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- drug development
- js
- Bioinformatics
- single cell analysis
- javascript
- pandas
- ngs
- HTML
- DataFrame
- 비타민 C
- scRNAseq analysis
- 싱글셀 분석
- CUTandRUN
- julia
- cellranger
- scRNAseq
- EdgeR
- drug muggers
- matplotlib
- github
- single cell rnaseq
- CUT&RUN
- python matplotlib
- CSS
- PYTHON
- single cell
- Git
- Batch effect
- ChIPseq
- MACS2
- Today
- Total
바이오 대표
[ 논문 ] ICD10 Code Hierarchy Similarity - "Using concept hierarchies to improve calculation of patient similarity" 본문
[ 논문 ] ICD10 Code Hierarchy Similarity - "Using concept hierarchies to improve calculation of patient similarity"
바이오 대표 2022. 2. 24. 17:42
Hierarchy 가 있는 데이터의 similarity 를 구하기 위한 방법을 찾다가 해당 논문 "Using concept of hierarchies to improve calculation of patient similarity"를 발견하였다. 나는 해당 논문으로 ICD-10 categorical Data의 similarity 를 measure 하였다.
Abstract
목표: 환자 기록에서의 유사성을 보다 더 잘 측정하기 위해 hierarchy 개념을 이용한 새로운 distance measure 방법을 소개한다
재료 및 방법: hierarchy 개념을 이용해서 categorical values의 path distance을 측정해서 distance measure 을 개선하였다
결과: 새로운 방법 --> 양/질 적으로 놀라운 향상하였다
결론: hierarchy categorical values 가 있다면 해당 새로운 방법으로 결과를 향상 시킬 수 있다
1 Introduction
Similarity measures를 하는 이뉴는 the original data space 를 2D representation 으로 mapping (의미있게) 하기 위해서이다.
ICD-10 은 WHO(World Health Organization) 이 만든 International Classification of Disease catalog 이다. 12,000 의 질병이 크게 22개 그리고 sub categories로 분류된다. 데이터의 모든 환자들이 ICD-10을 이용해서 분류된다고 했을때, 만약 두 환자의 진단(diagnose)이 비슷하거나 겹쳐질때 smilar 하다고 판단한다는 가정하에 이 논문이 기재되었다. 그 가정을 두가지 방법으로 뒫받침해준다. 첫째, Graphical representation of clusterings 을 이용해서 새로운 hierarchical distance measures을 이용해서 깔끔하게 분류되는 것을 보여준다. 둘째, ICD-10 level2 에서 같은 진단(diagnose) 만 이용해서 distance 를 계산하고 새로운 방법과 비요하였다.
2 Related work
2.1 Semantic similarity between concepts
[1] Edge Distance 이용 ref1
[2] Wu and Palmar ref2 (Depth of the nodes 이용)
[3] Li et al. ref3
[4] Resnik ref4
[5] Lin ref5
* LCS (least common superconcept) = number of nodes on the path from c(node) to the root node
* Distance = 1 - Similarity
2.2 Semantic similarity between sets of concepts
두개의 dots 가 아니라 두개의 set 을 비교하는 방법도 해당 논문에서 서술하였다 (Detailed in section 3 Method)
2.3 Jaccard Similarity == Tanimoto Similarity
3 Method
Pmin(x,y) == mininum number of edges between nodes x and y
l(x) + l(y) == the longest possible path between two nodes
* Jaccard concept과 같이 Distance = 1 - Similarity 이고Pmin(x,x) = 0 이기 때문에 d(x,x) = 0 이다.
예시) 다음 Graph 에서 두개의 node의 distance 를 구할 때 method 의 function 1 을 이용하여 d(node1, node2)를 구하였다.
reference
Main = https://pubmed.ncbi.nlm.nih.gov/27477837/
[3] Y. Li, Z.A. Bandar, D. McLean, An approach to measuring semantic similarity between words using multiple information sources, IEEE Trans. Knowl. Data Eng. 15 (4) (2003) 871–882.