공부하기싫어
  • 데이터 전처리

데이터 전처리란? - 데이터 분석을 위한 필수 과정으로 데이터를 정제한 뒤, 데이터 가공, 통합, 정리, 변환을 통해 데이터 분석 변수를 처리하는 등의 작업으로 데이터 분석 결과의 신뢰도를 높이기 위한 과정

 

  • 데이터 전처리는 데이터 정제와 분석변수 처리로 구분

데이터 정제

- 결측값 처리

- 이상값 처리

분석변수 처리

- 변수선택

- 차원축소

- 파생변수 생성

- 변수변환

- 뷸균형 데이터 처리

 

  • 데이터 전처리 과정
    • 데이터셋 확인
      • 변수 유형 확인
      • 변수 간의 관계 및 분포 확인
    • 결측값과 이상값 처리
      • 결측값 처리
      • 이상값 처리
    • 피처 엔지니어링
      • 기존 변수사용, 정보추가, 기존데이터 보완
      • 스케일링 : 정규화, 최소최대 스케일러, 최대 절대 스케일러, 로버스트 스케일러(중앙값), 일반화
      • 변수 구간화 : 연속형 변수를 범주형 변수로 변환
      • 변수 전환 : 기 변수를 다른 변수로 변환
      • 더미 변수화 : 범주형 변수를 연속형 변수로 변환
  • 데이터 정제
    • 데이터 정제
      • 데이터 정제 - 결측값, 잡음, 이상값 등 데이터 오류의 원인을 분석 작업 전에 처리하는 것을 의미
      • 결측값 - 분석대상에서 제외 또는 보완하여 처리 가능
      • 이상값 - 삭제, 대체 스케일링, 정규화 등의 방법으로 처리 가능
    • 결측값 유형
      • 완전 무작위 결측 - 다른 변수와 무관하게 랜덤으로 발생한 결측 (ex 설문조사시 성별, 나이 같은 변수 요인과 무관하게 대답하지 않는 경우)
      • 무작위 결측 - 결측이 다른 변수와 연관은 있지만, 그 자체가 결과 분포 자체에 영향을 미치지 않음 (ex 성별에 따라 응답확률이 달라서 결측치가 남성 또는 여성을 높게 나올 수 있지만 결좌 자체의 편향이 생기지 않는 경우)
      • 비무작위 결측 - 결측값이 결과값에 영향을 미치는 경우 (ex 임금분포에 대한 조사 중 임금이 낮은 사람이 응답할 확률이 낮아 임금분포 결과에 영향을 미치는 결측)
    • 결측값 처리 : 삭제, 대체(보완)
      • 삭제 : 데이터 수가 충분히 많으 경우 결측치를 제거하는 방법으로 해결가능
      • 대체 : 특정 대표값, 추정값으로 대체
    • 이상값 검출
      • 이상값 처리 방법 : 삭제, 대체, 스케일링, 정규화 등을 통해 처리