라벨이 pandas인 게시물 표시

[python] 파이썬: pandas 중복 값 제거

이미지
pandas 중복 값 제거 pandas.DataFrame.drop_duplicates drop_duplicates는 중복된 값을 제거한 뒤 DataFrame을 반환합니다. subset: 중복제거할 column을 결정합니다. DataFrame의 column 혹은 [column, column]으로 명시하면 명시된 column을 기준으로 중복제거가 일어납니다. subset을 명시하지 않으면 전체 데이터 셋을 기준으로 중복제거를 합니다. keep: 중복된 값을 어떻게 처리할지 정합니다. first: 첫 번째 중복 값을 남기고, 이외 중복 값을 모두 제거합니다. last: 마지막 번째 중복 값을 남기고, 이외 중복 값을 모두 제거합니다. False: 중복된 값들을 모두 제거합니다. inplace: boolean 값으로써 True면 원본 DataFrame 자체에서 중복제거를 합니다. 반환 값은 None False면 원본 DataFrame을 건들지 않고 중복제거한 새로운 DataFrame을 만들어 값을 반환합니다. import pandas as pd data = {      "Name" : [ "A" , "B" , "C" , "D" , "E" , "F" ] ,       "Age" : [ 25 , 35 , 35 , 35 , 15 , 45 ] ,       "Country" : [ "KOR" , "KOR" , "KOR" , "USA" , "USA" , "GBR" ] } df = pd.DataFrame(data ,  columns =data.keys()) print (df) # 출력 # Name Age

[python] pandas 행 개수 얻는 법

pandas 행 개수 얻는 법 DataFrame 초기화 import pandas as pd import numpy as np  data = {        "A" : [ 1.1 , 1.2 , 1.3 , 1.4 , 1.5 ] ,         "B" : [ 2.1 , 2.2 , 2.3 , 2.4 , 2.5 ] ,         "C" : [np.nan] * 5 } df = pd.DataFrame(data) print (df) # 출력 #        A      B      C # 0  1.1  2.1 NaN # 1  1.2  2.2 NaN # 2  1.3  2.3 NaN # 3  1.4  2.4 NaN # 4  1.5  2.5 NaN 데이터 행 개수 구하기 print ( "len(df): {0}" .format( len (df))) print ( "len(df.axes[0]): {0}" .format( len (df.axes[ 0 ]))) print ( "df.shape[0]: {0}" .format(df.shape[ 0 ])) print ( "df.C: {0}" .format( len (df.C))) print ( "len(df.index): {0}" .format( len (df.index))) print ( "df.C.count(): {0}" .format(df.C.count())) # 출력 # len(df): 5 # len(df.axes[0]): 5 # df.shape[0]: 5 # df.C: 5 # len(df.index): 5 # df.C.count(): 0 위의 방법 중 편한 방법으로 사용하시면 됩니다. 참고문헌 [1]  https://codeday.me/ko/qa/201

[python] pandas 행, 열 삭제하는 법

이미지
pandas 행, 열 삭제하는 법 import pandas as pd  rows = [ "c1" , "c2" , "c3" , "c4" , "c5" ] cols = [ "A" , "B" , "C" , "D" , "E" ] data = {        cols[0]: [ 100 , 101 , 102 , 103 , 104 ] ,           cols[2]: [ 300 , 301 , 302 , 303 , 304 ] } df = pd.DataFrame(data , index =rows , columns =cols) df = df.fillna( 0 ) print (df) # 출력 #          A    B     C   D  E # c1  100  0  300  0  0 # c2  101  0  301  0  0 # c3  102  0  302  0  0 # c4  103  0  303  0  0 # c5  104  0  304  0  0 row, column에 사용할 명칭을 설정하고 data 값을 넣어 DataFrame을 생성했습니다. 1. column(열) 삭제 1-1. del을 이용한 column 삭제 [1] del은 index 값을 기반으로 값을 삭제하며 특정 index 또는 slice를 통해 값을 삭제할 수 있습니다. del df[ "A" ] print (df) # 출력 #      B       C  D  E # c1  0  300  0  0 # c2  0  301  0  0 # c3  0  302  0  0 # c4  0  303  0  0 # c5  0  304  0  0 pandas 객체를 slice하여 여러행을 삭제하기 위해서는 아래와

[python]파이썬: pandas read csv에서 OSError: Initializing from file failed

이미지
에러 해결방법 import pandas as pd pd.read_csv(your_file_path, engine="python") engine="python" 을 명시하면 OSError 해결이 가능합니다. 참고문헌 https://kkckc.tistory.com/187

[python]파이썬: pandas을 이용한 excel.csv에 저장하기, 한글깨짐 해결

이미지
pandas를 이용한 excel.csv에 파일 저장하는 방법 excel에 저장할 DataFrame 초기화 import pandas as pd  rows = [ "c1" , "c2" , "c3" , "c4" , "c5" ]  columns = [ "A" , "B" , "C" , "D" ]  data = {       columns[0]: [ 100 , 101 , 102 , 103 , 104 ] ,         columns[2]: [ 300 , 301 , 302 , 303 , 304 ]  }  frame = pd.DataFrame(data , index =rows , columns =columns) print (frame) # 출력 #         A      B     C     D # c1  100  NaN  300  NaN # c2  101  NaN  301  NaN # c3  102  NaN  302  NaN # c4  103  NaN  303  NaN # c5  104  NaN  304  NaN pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) pandas DataFrame의 3요소로 column, row, data가 있습니다. index는 행, columns는 열을 의미하며, data는 index, columns에 해당하는 값을 뜻합니다. pandas DataFrame을 excel에 저장 frame.to_csv( "frame_data.csv" ) pandas.DataFrame.to_csv(path_or_buf=None) pandas DataFrame을 cs

[python]파이썬: pandas 특정 행에 값 넣기

이미지
현재 pandas의 DataFrame을 이용한 데이터 구조 5x4 행렬에서 B,c3에 값을 넣는 법 을 알아보겠습니다. 행과 열을 명시적으로 선언 하여 값을 넣어주는 방법 index로 접근하여 값을 넣어주는 방법 B, c3에 값을 넣었기에 index 방법은 B, c4에 값을 넣었습니다. 값을 넣은 결과 연관문헌 csv 파일 첫번째 행 무시하고 읽기 https://daewoonginfo.blogspot.com/2019/04/python-csv-reader-header-skip.html