본문 바로가기
  • 문과생의 백엔드 개발자 성장기

|Playdata_study90

210806_MachinLearning 3 (Random Forest, Confusion Matrix) 지도학습 1. 분류 2. 회귀 2.1 Linear Regression 분류모델의 성능평가 (정답 률 맞추기 위함) 1. score () : 내부적으로 predict 사용 (x_test, y_test) → predict, y_test 비교 2. accuracy_score() : 먼저 predict를 사용 후에 비교 분류모델의 성능 평가 지수 1. Accuracy : 일반적으로 Accuracy 가 높으면 precision, Recall 지수도 높아진다. 일반적이지 않은 경우를 위해 정리를 해야한다. 2. precision : 정밀도 3. Recall : 재현율 Decision Tree 엔트로피 지수 : (0~1) 0에 가까울수록 좋다, 엔트로피가 1이면 불순도가 최대 0에 가까울 수록 한 영역에 타깃이 하나.. 2021. 8. 9.
210805_MachinLearning 2 (Decision Tree) 실습 03_ML_SVM_point 선형으로 분리되는 데이터 실습하기 import sys, os import matplotlib.pyplot as plt import pandas as pd import numpy as np from sklearn import svm from sklearn.model_selection import train_test_split, GridSearchCV Custom Funtion Definition red_RGB = (1, 0, 0) blue_RGB = (0, 0, 1) data_colors = [red_RGB, blue_RGB] def read_points_file(filename): points = [] with open(filename, "r") as f: for poi.. 2021. 8. 5.
210804_MachinLearning 1 (정의, 분류 - SVM) Data 분석 Numpy, Pandas 1. 일반적으로 xml, xtml, csv, json 파일을 불러와서 분석 작업을 한다. 2. cloud 환경 (크롤링)에서 데이터 불러와서 분석 작업 한다. ✔ Data Load ✔ 전처리 : Explore Data → Feature Engineering Data 마이닝 → Encoding (mapping) Binning (구간) ✔ 분석 : 머신러닝 , 딥러닝 MachinLearning computers the ability to learn without being explic itly programmed. 기계가 스스로 학습 1. 많은 데이터가 있어야지 학습이 가능하다. 2. computer power 도 좋아야 한다. 3. 수학적 알고리즘 가능해야 한다. 학.. 2021. 8. 5.
210727_시각화(Matplot, Seaborn) Matplot을 이용한 시각화 파이썬으로 데이터를 시각화 하는데에는 Matplotlib 라이브러리를 가장 많이 사용한다. Matplotlib 은 파이썬에서 2D 형태의 그래프, 이미지 등을 그릴때 사용하는 것으로 실제 과학 컴퓨팅 분야나 인공지능 분야에서도 많이 사용 됨. Matplotlib 모듈에는 다양한 모듈들이 많이 있는데 그 중에서 가장 기본이 되는 pyplot이 서브모듈이다. 직선 그래프 import matplotlib.pyplot as plt # 1. plot() : 직선 혹은 꺽은선의 그래프를 그릴 때 사용 # 꺽은선 그래프 plt.plot([1,2,3,4],[1,4,9,16]) # x, y축 plt.show() # 직선그래프 plt.plot([10,20,30,40]) plt.show() #.. 2021. 7. 27.
210726_Pivot Tables 2 import numpy as np import pandas as pd from pandas import DataFrame, Series import matplotlib.pyplot as plt tipdf = pd.read_csv('../data/tips.csv') tipdf # 인덱스 라벨 지정해서 nan 값 추가하기 tipdf.loc['25020'] = np.nan tipdf.loc['25021'] = np.nan tipdf.tail() tipdf.ndim np.ndim(tipdf) ================== 2 tipdf.shape np.shape(tipdf) ====================== (247, 7) tipdf.info() ======================= Index:.. 2021. 7. 26.
210723_GroupBy, Pivot Tables DataFrame - 데이터 그룹핑하기 통계자료에서 많이 사용한다. 그룹핑 시켜서 합을 도출하거나 혹은 평균값을 구하거나 등 import numpy as np import pandas as pd from pandas import DataFrame import matplotlib.pyplot as plt np.random.seed(100) df = DataFrame({ 'Gender':['Female','Male','Female','Male','Female','Male','Female','Female'], 'Smoking':['Smoker', 'Smoker', 'Smoker', 'Non-Smoker','Non-Smoker','Non-Smoker','Non-Smoker','Smoker'], 'JumpHeig.. 2021. 7. 24.
210723_Concat,Merge DataFrame - 데이터 병합 Concat 단순히 하나의 DataFrame에 다른 DataFrame 을 연속적으로 붙이는 방법 이 경우에는 두 DataFrame 이 서로 동일한 인덱스, 컬럼을 가지고 있는 경우가 대부분이다. 위, 아래로 연결되는 방식이 기본이지만 좌, 우 연결도 가능하다. outer join이 기본으로 동작 key를 이용한 Concat 활용해서 사용한다. Merge 두 개의 DataFrame을 병합. 좌, 우로 연결되는 방식이 기본. inner join이 기본으로 동작 on을 이용해 Merge 활용해서 사용한다. pandas 의 concat import numpy as np import pandas as pd from pandas import DataFrame, Series impo.. 2021. 7. 24.
210722_NaN (누락데이터) DataFrame - 누락데이터 처리하기 데이터 분석시 제공된 데이터를 살펴보면 값이 입력되어 있지 않은 경우가 종종 있다. 이런 경우를 Missing Value 가 있다고 표현한다. ✔ Missing Value를 처리하는 대표적인 전략 데이터가 거의 없는 Feature는 Feature 자체를 Drop 시킨다. 데이터가 없으면 바로 Drop Missing Value의 최소 갯수를 정해서 어느 이상 갯수를 넘어서면 Drop 최빈값, 평균값, 0 등의 값으로 비어있는 데이터를 채우기 판다스는 누락된 데이터를 모두 NaN 으로 처리한다. 또한 판다스 객체의 모든 통계함수는 누락데이터를 무시하고 연산을 진행한다. ✔ 누락데이터를 처리하는 함수들 dropna() → NaN이 하나라도 있는 로우는 모두 삭제 dro.. 2021. 7. 23.
210722_Pandas (DataFrame) DataFrame 생성 DataFrame은 2차원 배열 형식 표와 같은 스프레드 시트 자료 구조 (엑셀과 비슷) 여러개의 컬럼을 가지며 서로 다른 종류의 값(?)이 담긴다. DataFrame 생성하는 방법 리스트 값을 딕셔너리로 사용 Numpy 배열을 이용 read_csv, read_excel(),,, 함수사용 import numpy as np import pandas as pd from pandas import DataFrame,Series import matplotlib.pyplot as plt # 딕셔너리로 데이터 프레임 생성 딕셔너리의 key가 데이터 프레임의 column 값으로 들어간다? 여러 개의 컬럼을 가지면서 서로 다른 시리즈의 값이 담긴다. 중요!!! state, year, pop 는 각.. 2021. 7. 23.