일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- cellranger
- single cell rnaseq
- DataFrame
- matplotlib
- 비타민 C
- EdgeR
- 싱글셀 분석
- Batch effect
- github
- HTML
- single cell
- js
- drug muggers
- Bioinformatics
- drug development
- single cell analysis
- CUTandRUN
- javascript
- ChIPseq
- pandas
- MACS2
- python matplotlib
- ngs
- PYTHON
- Git
- julia
- CSS
- CUT&RUN
- scRNAseq
- scRNAseq analysis
Archives
- Today
- Total
바이오 대표
[ IGV ] IGV 에 custom annotation track 만들고 업로드 하기 (유전자 이름으로 검색) 본문
Bioinformatics/Tools
[ IGV ] IGV 에 custom annotation track 만들고 업로드 하기 (유전자 이름으로 검색)
바이오 대표 2023. 7. 11. 09:10Custom annotation track
IGV에서 annotation track을 통해 원하는 유전자 검색으로 해당 위치를 관찰 할 수 있다. 하지만 내가 가지고 있는 데이터가 custom 이여서 유전자 검색이 되지않아서 custom annotation track을 만들어 보았다.
How? 보통 “standard’ gene track 은 ncbi refseq 형식이다. 예로, ncbiRefSeq.sorted.txt and ncbiRefSeq.sql (참고 링크와, 그림1,2 참고). Custom genome을 가지고 있다면 annotation track 을 그림2 와 같은 format으로 만들어 줄수 있다. 이는 [1] gtf파일이 있으면 ucsc의 ‘gtfToGenePred’ 로 만들고 [2] column #1 ‘bins’ 를 추가해줘야 한다. (왜냐하면 gtfToGenePred는 name column부터만 존재하기 때문이다.)
참고: IGV/genome, Genome Format
[1] 데이터 형식 확인하기
[2] GTF를 이용해서 gene.Pred.txt 만들기
코드 예시
# wget <http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred>
# chmod +x gtfToGenePred
GTF=data/custom_genome.gtf
OUT=data/custome_genome.genePred.txt
./gtfToGenePred -genePredExt -geneNameAsName2 $GTF $OUT
sed -E "s/^(.+)/585\\t\\1/" $OUT > ${OUT%.txt}.bins.txt # column1 values 들을 다 585 값으로 지정해주기
# -geneNameAsName2 옵션을 사용해서, gene_id 대신 gene_name을 사용할 수 있는데 custom gtf여서 gene_name이 아닌, trnasctipt_id를 인식한다. 그래서 gtf 파일을 R에서 불러서 mapping 해줬다.
파일 예시
#custom_genome.gtf
scaffold_1 CAT gene 38781 62078 8930.00 + . gene_id "nbisL1-mrna-1"; ID "nbisL1-mrna-1"; geneID "custom_G0000001"; gene_name "Apmap";
#custom_genome.genePred.txt
custom_T0000001 scaffold_1 + 38780 62078 52068 61237 10 38780,46391,46910,52049,55513,56689,57866,58514,59049,61029, 38958,46508,47002,52165,55606,56806,58041,58649,59242,62078, 0 incmpl incmpl -1,-1,-1,0,1,1,1,2,2,0,
#custom_genome.genePred.bins.txt
585 custom_T0000001 scaffold_1 + 38780 62078 52068 61237 10 38780,46391,46910,52049,55513,56689,57866,58514,59049,61029, 38958,46508,47002,52165,55606,56806,58041,58649,59242,62078, 0 incmpl incmpl -1,-1,-1,0,1,1,1,2,2,0,
[3] IGV 에 파일 업로드
IGV 실행 → File → Load from File … → 파일 업로드. 만약 name이 NA로 뜬다면, track 을 우클릭 한후, "Set Feature Label Field" -> type "id" showed gene_name on the track.