바이오 대표

[ IGV ] IGV 에 custom annotation track 만들고 업로드 하기 (유전자 이름으로 검색) 본문

Bioinformatics/Tools

[ IGV ] IGV 에 custom annotation track 만들고 업로드 하기 (유전자 이름으로 검색)

바이오 대표 2023. 7. 11. 09:10

Custom annotation track

IGV에서 annotation track을 통해 원하는 유전자 검색으로 해당 위치를 관찰 할 수 있다. 하지만 내가 가지고 있는 데이터가 custom 이여서 유전자 검색이 되지않아서 custom annotation track을 만들어 보았다.

How? 보통 “standard’ gene track 은 ncbi refseq 형식이다. 예로, ncbiRefSeq.sorted.txt and ncbiRefSeq.sql (참고 링크와, 그림1,2 참고). Custom genome을 가지고 있다면 annotation track 을 그림2 와 같은 format으로 만들어 줄수 있다. 이는 [1] gtf파일이 있으면 ucsc의 ‘gtfToGenePred’ 로 만들고 [2] column #1 ‘bins’ 를 추가해줘야 한다. (왜냐하면 gtfToGenePred는 name column부터만 존재하기 때문이다.)

참고: IGV/genome, Genome Format

 

 

 

[1] 데이터 형식 확인하기

그림 1 GenomeBroswer https://genome.ucsc.edu/cgi-bin/hgTables ) → ‘data format description’ 클릭
그림 2 만들어야 할 format ~ ncbiRefSeq.sorted.txt

 

 

[2] GTF를 이용해서 gene.Pred.txt 만들기

코드 예시

# wget <http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred>
# chmod +x gtfToGenePred
GTF=data/custom_genome.gtf
OUT=data/custome_genome.genePred.txt
./gtfToGenePred -genePredExt -geneNameAsName2 $GTF $OUT
sed -E "s/^(.+)/585\\t\\1/" $OUT > ${OUT%.txt}.bins.txt # column1 values 들을 다 585 값으로 지정해주기

# -geneNameAsName2 옵션을 사용해서, gene_id 대신 gene_name을 사용할 수 있는데 custom gtf여서 gene_name이 아닌, trnasctipt_id를 인식한다. 그래서 gtf 파일을 R에서 불러서 mapping 해줬다. 

파일 예시

#custom_genome.gtf
scaffold_1	CAT	gene	38781	62078	8930.00	+	.	gene_id "nbisL1-mrna-1"; ID "nbisL1-mrna-1"; geneID "custom_G0000001"; gene_name "Apmap";

#custom_genome.genePred.txt
custom_T0000001	scaffold_1	+	38780	62078	52068	61237	10	38780,46391,46910,52049,55513,56689,57866,58514,59049,61029,	38958,46508,47002,52165,55606,56806,58041,58649,59242,62078,	0		incmpl	incmpl	-1,-1,-1,0,1,1,1,2,2,0,

#custom_genome.genePred.bins.txt
585	custom_T0000001	scaffold_1	+	38780	62078	52068	61237	10	38780,46391,46910,52049,55513,56689,57866,58514,59049,61029,	38958,46508,47002,52165,55606,56806,58041,58649,59242,62078,	0		incmpl	incmpl	-1,-1,-1,0,1,1,1,2,2,0,

 

 

[3] IGV 에 파일 업로드

IGV 실행 → File → Load from File … → 파일 업로드. 만약 name이 NA로 뜬다면, track 을 우클릭 한후, "Set Feature Label Field" -> type "id" showed gene_name on the track.