바이오 대표

[ Python pandas ] Dataframe 다루기 - unique, drop, fill, duplicate, merge 본문

Python/dataframe (pandas)

[ Python pandas ] Dataframe 다루기 - unique, drop, fill, duplicate, merge

바이오 대표 2021. 10. 7. 22:19

 

Drug Data 만지다가,,,  괜히 리스트 만들어서 병합하고 버리고 하다가 26시간 걸린거 pandas 및 dataframe 으로 건드니까 5분으로 해결된거에 화가나서 같은 실수를 반복하지말자며 끄적끄적 ,,, 

 

DL 은 장비빨,,, 장비가 부족하면 Complexity 를 최대한 줄이자 

 

 

< unique >

df.Drug1.unique( )

 

< duplicate > 

df.duplicated( ) 

df.duplicated(subset=['Drug1', 'Drug2'])

 

< drop > 

df.drop(["Drug1_ID", "Drug2_ID"])

df.drop_duplicates(subset=['Drug1', 'Drug2'])

 

< merge > 

pd.merge( df1, df2, on=["Drug1", "Drug2"])   # drug1, drug2 이 같으면 merge 아니면 NaN

pd.Dataframe(list, columns = ["A", "B", "c"])

 

< columns > 

df["Y"].values[:] = 1   # column Y 모든 값을 1 로 변경 

 

 

 

여기서 Y = side effect 이다, 

durg1 & drug2 combination 중복된 부분을 지우고 

unique 한 drug의 possible combination을 side effect yes (=1) or no (=0) 인 DF 로 바꿔주었다