- 데이터 전처리
데이터 전처리란? - 데이터 분석을 위한 필수 과정으로 데이터를 정제한 뒤, 데이터 가공, 통합, 정리, 변환을 통해 데이터 분석 변수를 처리하는 등의 작업으로 데이터 분석 결과의 신뢰도를 높이기 위한 과정
- 데이터 전처리는 데이터 정제와 분석변수 처리로 구분
데이터 정제
- 결측값 처리
- 이상값 처리
분석변수 처리
- 변수선택
- 차원축소
- 파생변수 생성
- 변수변환
- 뷸균형 데이터 처리
- 데이터 전처리 과정
- 데이터셋 확인
- 변수 유형 확인
- 변수 간의 관계 및 분포 확인
- 결측값과 이상값 처리
- 결측값 처리
- 이상값 처리
- 피처 엔지니어링
- 기존 변수사용, 정보추가, 기존데이터 보완
- 스케일링 : 정규화, 최소최대 스케일러, 최대 절대 스케일러, 로버스트 스케일러(중앙값), 일반화
- 변수 구간화 : 연속형 변수를 범주형 변수로 변환
- 변수 전환 : 기 변수를 다른 변수로 변환
- 더미 변수화 : 범주형 변수를 연속형 변수로 변환
- 데이터셋 확인
- 데이터 정제
- 데이터 정제
- 데이터 정제 - 결측값, 잡음, 이상값 등 데이터 오류의 원인을 분석 작업 전에 처리하는 것을 의미
- 결측값 - 분석대상에서 제외 또는 보완하여 처리 가능
- 이상값 - 삭제, 대체 스케일링, 정규화 등의 방법으로 처리 가능
- 결측값 유형
- 완전 무작위 결측 - 다른 변수와 무관하게 랜덤으로 발생한 결측 (ex 설문조사시 성별, 나이 같은 변수 요인과 무관하게 대답하지 않는 경우)
- 무작위 결측 - 결측이 다른 변수와 연관은 있지만, 그 자체가 결과 분포 자체에 영향을 미치지 않음 (ex 성별에 따라 응답확률이 달라서 결측치가 남성 또는 여성을 높게 나올 수 있지만 결좌 자체의 편향이 생기지 않는 경우)
- 비무작위 결측 - 결측값이 결과값에 영향을 미치는 경우 (ex 임금분포에 대한 조사 중 임금이 낮은 사람이 응답할 확률이 낮아 임금분포 결과에 영향을 미치는 결측)
- 결측값 처리 : 삭제, 대체(보완)
- 삭제 : 데이터 수가 충분히 많으 경우 결측치를 제거하는 방법으로 해결가능
- 대체 : 특정 대표값, 추정값으로 대체
- 이상값 검출
- 이상값 처리 방법 : 삭제, 대체, 스케일링, 정규화 등을 통해 처리
- 데이터 정제