본문 바로가기
  • 문과생의 백엔드 개발자 성장기

|Playdata_study/Python29

210914_powershell 실행오류 Powershell Error ImportError: DLL load failed while importing qhull : 지정된 모듈을 찾을 수 없습니다. 1. 아래의 폴더 경로를 복사해 환경변수에 입력한다. 2. Window Powershell > 관리자 권한으로 실행 3. Set-ExecutionPolicy RemoteSigned 을 입력한다. (y 누르면 된다) 4. Anaconda Prompt 열고 conda init powershell 을 입력한다. 5. VScode 로 돌아가 cmd prompt 창을 확인한다. conda activate base 라고 떠 있으면 성공! 이제 다시 python 을 실행하면 된다 2021. 9. 16.
210727_시각화(Matplot, Seaborn) Matplot을 이용한 시각화 파이썬으로 데이터를 시각화 하는데에는 Matplotlib 라이브러리를 가장 많이 사용한다. Matplotlib 은 파이썬에서 2D 형태의 그래프, 이미지 등을 그릴때 사용하는 것으로 실제 과학 컴퓨팅 분야나 인공지능 분야에서도 많이 사용 됨. Matplotlib 모듈에는 다양한 모듈들이 많이 있는데 그 중에서 가장 기본이 되는 pyplot이 서브모듈이다. 직선 그래프 import matplotlib.pyplot as plt # 1. plot() : 직선 혹은 꺽은선의 그래프를 그릴 때 사용 # 꺽은선 그래프 plt.plot([1,2,3,4],[1,4,9,16]) # x, y축 plt.show() # 직선그래프 plt.plot([10,20,30,40]) plt.show() #.. 2021. 7. 27.
210726_Pivot Tables 2 import numpy as np import pandas as pd from pandas import DataFrame, Series import matplotlib.pyplot as plt tipdf = pd.read_csv('../data/tips.csv') tipdf # 인덱스 라벨 지정해서 nan 값 추가하기 tipdf.loc['25020'] = np.nan tipdf.loc['25021'] = np.nan tipdf.tail() tipdf.ndim np.ndim(tipdf) ================== 2 tipdf.shape np.shape(tipdf) ====================== (247, 7) tipdf.info() ======================= Index:.. 2021. 7. 26.
210723_GroupBy, Pivot Tables DataFrame - 데이터 그룹핑하기 통계자료에서 많이 사용한다. 그룹핑 시켜서 합을 도출하거나 혹은 평균값을 구하거나 등 import numpy as np import pandas as pd from pandas import DataFrame import matplotlib.pyplot as plt np.random.seed(100) df = DataFrame({ 'Gender':['Female','Male','Female','Male','Female','Male','Female','Female'], 'Smoking':['Smoker', 'Smoker', 'Smoker', 'Non-Smoker','Non-Smoker','Non-Smoker','Non-Smoker','Smoker'], 'JumpHeig.. 2021. 7. 24.
210723_Concat,Merge DataFrame - 데이터 병합 Concat 단순히 하나의 DataFrame에 다른 DataFrame 을 연속적으로 붙이는 방법 이 경우에는 두 DataFrame 이 서로 동일한 인덱스, 컬럼을 가지고 있는 경우가 대부분이다. 위, 아래로 연결되는 방식이 기본이지만 좌, 우 연결도 가능하다. outer join이 기본으로 동작 key를 이용한 Concat 활용해서 사용한다. Merge 두 개의 DataFrame을 병합. 좌, 우로 연결되는 방식이 기본. inner join이 기본으로 동작 on을 이용해 Merge 활용해서 사용한다. pandas 의 concat import numpy as np import pandas as pd from pandas import DataFrame, Series impo.. 2021. 7. 24.
210722_NaN (누락데이터) DataFrame - 누락데이터 처리하기 데이터 분석시 제공된 데이터를 살펴보면 값이 입력되어 있지 않은 경우가 종종 있다. 이런 경우를 Missing Value 가 있다고 표현한다. ✔ Missing Value를 처리하는 대표적인 전략 데이터가 거의 없는 Feature는 Feature 자체를 Drop 시킨다. 데이터가 없으면 바로 Drop Missing Value의 최소 갯수를 정해서 어느 이상 갯수를 넘어서면 Drop 최빈값, 평균값, 0 등의 값으로 비어있는 데이터를 채우기 판다스는 누락된 데이터를 모두 NaN 으로 처리한다. 또한 판다스 객체의 모든 통계함수는 누락데이터를 무시하고 연산을 진행한다. ✔ 누락데이터를 처리하는 함수들 dropna() → NaN이 하나라도 있는 로우는 모두 삭제 dro.. 2021. 7. 23.
210722_Pandas (DataFrame) DataFrame 생성 DataFrame은 2차원 배열 형식 표와 같은 스프레드 시트 자료 구조 (엑셀과 비슷) 여러개의 컬럼을 가지며 서로 다른 종류의 값(?)이 담긴다. DataFrame 생성하는 방법 리스트 값을 딕셔너리로 사용 Numpy 배열을 이용 read_csv, read_excel(),,, 함수사용 import numpy as np import pandas as pd from pandas import DataFrame,Series import matplotlib.pyplot as plt # 딕셔너리로 데이터 프레임 생성 딕셔너리의 key가 데이터 프레임의 column 값으로 들어간다? 여러 개의 컬럼을 가지면서 서로 다른 시리즈의 값이 담긴다. 중요!!! state, year, pop 는 각.. 2021. 7. 23.
210721_Pandas(Series, Matplot) ✔ 데이터 분석 :: Numpy, Pandas(DataFrame) ✔ 시각화 :: Matplot, Seaborn Pandas Pandas는 Panel Datas 의 약자 파이썬을 이용한 데이터 분석에서 가장 많이 사용되는 라이브러리이다. Numpy 기반으로 만들어졌으며 데이터 분석을 하기위한 효율적인 구조를 제공한다. 자료구조 Series (1차원, Vector) : 1차원 배열형태의 데이터 구조를 가진다. 별도로 행과 열을 지정해 주지 않으면 인덱스는 리스트처럼 정수로 설정 DataFrame (2차원, Matrix) : 2차원 배열 형태의 데이터 구조를 가진다. 가장 많이 사용하는 구조 행을 구분하는 index와 열을 구분하는 column이 있다. 별도로 행과 열을 지정해 주지 않으면 인덱스는 리스트처.. 2021. 7. 23.
210720_Numpy (array, random, 인덱싱, 슬라이싱) AI : 머신러닝/딥러닝(더 deep하게 들어간다) NN -> FNN, ANN, DNN, CNN(여기서 부터 딥러닝이시작) → UGG, UNGT 1. 데이터분석 Numby / Pandas (Series, DataFrame - 데이터프레임 정수) Matplot/seaborn : 시각화 Featuer Engineering Data PreProcessing Visualization 2. 머신러닝 머신에서 기기가 학습한다. 머신이 학습하기위해 머신에 데이터를 제공해야한다 (big data) bigdata는 Feature, 전처리가 되어있어야한다. 1) 학습의형태 지도학습 : 기업에서 추구 Decision Tree, Random Forest, Boostring, Linear, Sum 비지도학습 Clastrerin.. 2021. 7. 20.