티스토리 뷰
* 머신러닝(Machine Leaning) - 컴퓨터가 데이터를 통해 유의미한 패턴과 통계적인 함수를 발견하여 행동의 지침이 되는 지식을 얻어내는 행위 (예측, 분류, 회귀, 추천 등)
* 회귀 - 입력데이터를 바탕으로 원하는 타겟변수의 미래결과 예측
* 분류 - 입력데이터를 바탕으로 개별 데이터의 부류(Class)를 예측하거나 계급 결정
* 추천 - 고객이 선호하는 상품 혹은 그 대안 예측
* 대체 - 누락된 입력데이터의 값을 보강(인구조사 자료 보충, 손상된 고객 데이터 보충)
* 머신러닝 work flow
* EDA(Exploratory Data Analysis 탐색적 데이터 분석) - 수집한 데이터가 들어왔을때, 이를 다양한 각도에서 관찰하고 이해하는 과정. 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정. 이를 통해 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제 발견.
머신러닝 모델을 만들기 위한 전단계로 특성을 추출하거나 데이터로서 영감을 얻거나 전반적인 패턴을 알기 위하여 통계적인 분석을 시도하는 일. 향후 사용될 알고리즘에 대한 결정
https://eda-ai-lab.tistory.com/13
* 머신러닝 방법론
1. 지도학습 - 훈련데이터 안에 예측해야 할 타겟이 존재하는 방법론
2. 비지도학습 - 훈련데이터 안에 예측해야 할 타겟이 없음, 함수모형을 만들지 않고 데이터의 패턴을 추출, 데이터의 숨겨진 구조를 파악
3. 강화학습 - 데이터가 스스로 정답을 찾기위해 환경과 상호작용함, 타겟 값을 만들면서 훈현, 벌점과 리워드를 통해 적용
Idea! - 특정 모델을 만든 뒤, 현 상황에 대한 데이터를 보고 이 상황에 적합한 상품이 어떤 것인지 추천 및 자동매매
* 데이터 전처리 작업
- 데이터 Munging
- 랭글링 Wrangling
- Missing Data 처리
- Outlier 처리 등