일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- PYTHON
- single cell
- Batch effect
- julia
- Git
- HTML
- javascript
- 싱글셀 분석
- CUTandRUN
- ngs
- js
- python matplotlib
- DataFrame
- Bioinformatics
- single cell analysis
- cellranger
- CSS
- drug muggers
- pandas
- CUT&RUN
- 비타민 C
- EdgeR
- drug development
- matplotlib
- scRNAseq
- ChIPseq
- github
- scRNAseq analysis
- single cell rnaseq
- MACS2
- Today
- Total
목록Python/dataframe (pandas) (11)
바이오 대표
목표: Disease_uniq 에 "ICD10_L" (from Disease)합치기 # Diesas_name 에 맞은 ICD10_L 만 찾아서 758 row 를 유지하면서 합치기 Merge, concat, join을 이용해도 다 중복적으로 합쳐지고 내가 원하는 모양이 나오지 않는다. 따라서 내가 알아낸 제일 쉬운 방법: 합치고 중복 지우기 [1] A.merge(B) [2] drop_duplicates(subset = [" "]) 따라서 해당 두 테이블을 합치기 위해서는 disease_all = disease_uniq.merge(disease) # how defalt = "inner" disease_all = disease_all.drop_duplicates(subset = ["Disease_index"]..
# 아래의 Dataframe 에서 중복되는 Row Drop df = df.drop(df[df.duplicated()].index) # by "Y" df = df.sort_values("Y") df = df.reset_index(drop=True) # 만약 drop=True 옵션을 넣어주지 않는다면 그전 index가 새로운 column으로 형성된다.
Drug Data 만지다가,,, 괜히 리스트 만들어서 병합하고 버리고 하다가 26시간 걸린거 pandas 및 dataframe 으로 건드니까 5분으로 해결된거에 화가나서 같은 실수를 반복하지말자며 끄적끄적 ,,, DL 은 장비빨,,, 장비가 부족하면 Complexity 를 최대한 줄이자 df.Drug1.unique( ) df.duplicated( ) df.duplicated(subset=['Drug1', 'Drug2']) df.drop(["Drug1_ID", "Drug2_ID"]) df.drop_duplicates(subset=['Drug1', 'Drug2']) pd.merge( df1, df2, on=["Drug1", "Dr..