[Data Pre-Processing] 전 처리 과정

728x90

머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정을 데이터 전처리라고 한다.

전처리 과정에서 해야 하는 일들을 다음과 같다.

데이터 실수화: 문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환
불완전 데이터(결측치) 제거: NaN, NA, NULL 값 등을 제거
데이터 노이즈 제거
- 가격 데이터의 '-', '없음' 등 적절하지 않은 데이터 제거
- 이상치 제거
  - 나이 값으로 200, 1200 등이 존재하는 경우 등
모순된 데이터 제거: 남성 주민번호가 2로 시작하는 경우 등
데이터 불균형 해결
- 과소포집(Undersampling), 과대포집(Oversampling)

주요 데이터 전처리 기법

1. 데이터 전처리 (Data Pre-Processing)

머신러닝 프로젝트에 사용하기 위해, 데이터를 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 일련의 과정을 데이터 전처리라고 한다. 전처리 과정에서 해야 하는 일들을 다음과 같

skyil.tistory.com

[Java] 기초 정리 자바 ArrayList 선언, 추가 및 사용법 (0)	2022.12.01
[기초 정리] Static, Final, private static final & private final 차이 (0)	2022.12.01
Q. 세션을 사용하면 좋은데 왜 쿠키를 사용할까? (0)	2022.11.25
무엇을 풀스택 개발자로 부를 것인가? (0)	2022.11.21
[RESTful]XMLHttpRequest사용법 (0)	2022.10.07

티스토리툴바