들어가며 지난 1,2편을 통해서 부산 남구 아파트의 실거래가 데이터를 가지고 특징을 살펴보았습니다. 이제 실거래가 데이터를 가지고서 간단하게 '거래금액'을 예측하는 모델을 만들어서 확인해보겠습니다. 여러가지 머신러닝 기법들이 있는데 가장 직관적인 회귀모형(Linear Regression), 의사결정나무(Decison Tree)기반의 RandomForest, 의사결정나무 같은 학습법을 추가로 학습하는 Gradient Boosting 기반의 XgBoost, Gradient Boosting 을 더 개선한 LightGbm 모델, 그리고 Elastic Net, Ranger, SVR 등으로 예측모델을 만들어서 비교를 해보도록 하겠습니다. 학습용 데이터셋 정리머신러닝 기법은 기본적으로 데이터셋이 학습에 적합하도록 ..
실거래가데이터분석
들어가며왜 부산 남구 아파트 실거래 데이터를 분석해야 할까?아파트 실거래 데이터를 기반으로 가격 예측모형을 만들때 우선 고려할 요소는 부동산의 특성입니다. 상대적 입지와 비교에 대한 상품인 부동산의 경우, 특정 지역에 한정되는 특성이 있습니다. 세부적으로 보면 어떤 특정 동의 특정 지역에 한정할 수도 있습니다. 그렇다고 시 전체의 데이터를 가지고 하면, 넓은 지역의 특징이 모두 평균적으로 반영되어 개별 아파트의 가격 예측의 정확성이 떨어질 수 밖에 없습니다. 그래서 구 단위의 데이터를 가지고, 구 단위의 예측모델을 만드는게 목표입니다. 부산의 13개의 구,군이 있습니다. 이중에서 제가 살고 있는 부산남구의 데이터를 가지고 예측모델을 만들어보고, 다음에는 해운대구, 수영구, 동래구 등으로 개별 모델을 만..