HackerRank 정규표현식 weather observation station 6 11

HackerRank 정규표현식 weather observation station 6 11

Linear regression equation 방정식Best fit line 아래 식으로 수많은 선을 그릴 수 있지만 우리는 손실함수를 가장 최소로 하는 선을 그리고 싶습니다. 에러를 찾아야 합니다.


imgCaption0
pairplot

pairplot

sns.pairplotpenguinsfinal

짝을 이뤄서 스캐터그래프를 그려줍니다. 두 변수 사이에 관계를 scatterplot matrix로 일괄 표현해줍니다. 이 pairplot을 사용해 선형회귀 가정을 판단해보자. Linearity billlength와 bodymass는 correlated 합니다. bill length와 flipper length도 correlated합니다. flipper length와 body mass 역시 correlated합니다.

Normality 빨강색으로 칠해진부분은 대략적으로 continuous variable의 분포를 보여줍니다. 분포가 정규형을 따르므로 잔차항도 정규분포일 것이라 가정할 있습니다.

Rsquared 결정계수

The coefficient of determination 결정계수 Measures the proportion of variation in the dependent variable, Y, explained by the independent variables, X 아래의 그래프를 보면 푸른색 선이 개발된 회귀 모델입니다. 그런데요 현실 데이터가 놓여진 위치를 보면, 데이터들이 완벽히 선과 일치하지 않는다는 것을 알 있습니다.

R스퀘어는 X 변수의 변동이 Y 변수의 변동을 얼마나 설명하는지를 확인하는데 도움이 됩니다. 0범위를 갖는데 1이면 완벽히 일치합니다. 0이면 완벽히 다르다는 것을 알려줍니다. 1에 가깝게 될 수록 효과적인 모델입니다.

linear regression formula

yvairable xvariable 가 중요한 의미를 갖는다. 컴퓨터가 이해할 수 있는 formula로 적어줘야 합니다. olsformula bodymassg billlengthmm

해당 라이브러리를 import 합니다. from statsmodels.formula.api import ols

ols함수로 OLS 모델을 만들고, 데이터를 학습시킨다.

olsformula, datafitOLS olsformula olsformula, data olsdatamodel OLS.fitsummary 모델의 정보를 요약해줍니다.

Model evaluation

데이터 분석에서 매우 중요한 과정입니다. 본인이 만든 regression model에 관해 제대로 평가하고 분석하는 것이 이 모델의 퍼포먼스와 정확도를 이해하는데 도움을 주기 때문입니다. 예를 들어보자. 만약 빌드한 모델의 결과로 y 141x 1707이라는 선형회귀식을 도출했다고 하자. 아무리 모델이 좋다해도, 현실 데이터값과 예측값 사이에는 차이가 발생합니다.

자주 묻는 질문

pairplot

sns 자세한 내용은 본문을 참고 해주시기 바랍니다.

Rsquared 결정계수

The coefficient of determination 결정계수 Measures the proportion of variation in the dependent variable, Y, explained by the independent variables, X 아래의 그래프를 보면 푸른색 선이 개발된 회귀 모델입니다. 좀 더 자세한 사항은 본문을 참고해 주세요.

linear regression

yvairable xvariable 가 중요한 의미를 갖는다. 더 알고싶으시면 본문을 클릭해주세요.