바이오 대표

[ 논문 ] ICD10 Code Hierarchy Similarity - "Using concept hierarchies to improve calculation of patient similarity" 본문

논문

[ 논문 ] ICD10 Code Hierarchy Similarity - "Using concept hierarchies to improve calculation of patient similarity"

바이오 대표 2022. 2. 24. 17:42

 

Hierarchy 가 있는 데이터의 similarity 를 구하기 위한 방법을 찾다가 해당 논문 "Using concept of hierarchies to improve calculation of patient similarity"를 발견하였다. 나는 해당 논문으로 ICD-10 categorical Data의 similarity 를 measure 하였다. 

 

Abstract 

목표: 환자 기록에서의 유사성을 보다 더 잘 측정하기 위해 hierarchy 개념을 이용한 새로운 distance measure 방법을 소개한다

재료 및 방법: hierarchy 개념을 이용해서 categorical values의 path distance을 측정해서 distance measure 을 개선하였다

결과: 새로운 방법 --> 양/질 적으로 놀라운 향상하였다

결론: hierarchy categorical values 가 있다면 해당 새로운 방법으로 결과를 향상 시킬 수 있다 

 

1 Introduction

Similarity measures를 하는 이뉴는 the original data space 를 2D representation 으로 mapping (의미있게) 하기 위해서이다.

 

ICD-10 은 WHO(World Health Organization) 이 만든 International Classification of Disease catalog 이다. 12,000 의 질병이 크게 22개 그리고 sub categories로 분류된다. 데이터의 모든 환자들이 ICD-10을 이용해서 분류된다고 했을때, 만약 두 환자의 진단(diagnose)이 비슷하거나 겹쳐질때 smilar 하다고 판단한다는 가정하에 이 논문이 기재되었다. 그 가정을 두가지 방법으로 뒫받침해준다. 첫째, Graphical representation of clusterings 을 이용해서 새로운 hierarchical distance measures을 이용해서 깔끔하게 분류되는 것을 보여준다. 둘째, ICD-10 level2 에서 같은 진단(diagnose) 만 이용해서 distance 를 계산하고 새로운 방법과 비요하였다. 

 

2 Related work

2.1 Semantic similarity between concepts 

[1] Edge Distance 이용  ref1

 [2] Wu and Palmar  ref2 (Depth of the nodes 이용)

[3] Li et al.  ref3

[4] Resnik ref4 

[5] Lin  ref5

* LCS (least common superconcept) = number of nodes on the path from c(node) to the root node 

* Distance = 1 - Similarity 

 

2.2 Semantic similarity between sets of concepts 

두개의 dots 가 아니라 두개의 set 을 비교하는 방법도 해당 논문에서 서술하였다 (Detailed in section 3 Method) 

 

2.3 Jaccard Similarity == Tanimoto Similarity 

 

3 Method

Function 1

Pmin(x,y) == mininum number of edges between nodes x and y

l(x) + l(y) == the longest possible path between two nodes 

 

* Jaccard concept과 같이 Distance = 1 - Similarity 이고Pmin(x,x) = 0 이기 때문에 d(x,x) = 0 이다. 

 

예시) 다음 Graph 에서 두개의 node의 distance 를 구할 때 method 의 function 1  을 이용하여 d(node1, node2)를 구하였다.

 

 

 

 

reference

Main = https://pubmed.ncbi.nlm.nih.gov/27477837/ 

[1] R. Rada, H. Mili, E. Bicknell, M. Blettner, Development and application of a metric on semantic nets, IEEE Trans. Syst. Man Cyb. 19 (1) (1989) 17–30.

[2] Z. Wu, M. Palmer, Verb semantics and lexical selection, in Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, 1994, pp. 133–138.

[3] Y. Li, Z.A. Bandar, D. McLean, An approach to measuring semantic similarity between words using multiple information sources, IEEE Trans. Knowl. Data Eng. 15 (4) (2003) 871–882.

[4] P. Resnik, Using information content to evaluate semantic similarity in taxonomy, in Proceedings of the 1995 International Joint Conference on AI, 1995, pp. 448–453.

[5] D. Lin, An information-theoretic definition of similarity, in Proceedings of the 15th International Conference on Machine Learning, 1998, pp. 296–304.