본문 바로가기

데이터29

[데이터 모델링 및 평가] 분류 모델 - KNN, SVM 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 0. 분류 모델 독립 변수들을 이용하여 범주형인 종속변수를 예측하고자 할 때 쓰는 방법론 대표적으로 사기 탐지, 질병 진단 등이 있음 분류하고자는 종속변수의 범주 수에 따라 이진 분류 또는 다중 분류로 구분 ◆ 분류 모델 대표 모델 KNN 입력된 데이터의 거리가 가장 가까운 데이터를 통해서 예측 SVM 결정 경계(Decision boundary)를 기반으로 예측 Decisionn Tree(의사결정 나무) 나무 구조를 이용하여 학습된 규칙을 기반으로 예측 이외에도 Logistic Regress.. 2023. 4. 3.
[데이터 모델링 및 평가] 정규화 선형 모델 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 과적합 및 정규화 1.1. 과적합 과적합 : 학습 데이터에 대해 과도하게 모델을 학습하여 학습 데이터에 대해서는 성능이 매우 높지만, 테스트 데이터에 대해서는 성능이 좋지 못한 상황을 의미 1.1.1. 과적합의 문제 모델 학습 단계에서 학습 성능을 높이기 위해 모델 복잡도를 높이면서 설명력을 높이는 과정을 거침 일반적인으로 테스트 데이터는 학습 데이터와 다른 패턴을 갖는 경우가 많음 학습한 모델을 실제 상황에 적용하기 위해서는 테스트 데이터에 성능이 높아야 하며, 과적합이 발생하면 테스.. 2023. 4. 3.
[데이터 전처리] [Python] 데이터 처리 기초 내용 정리 (문자열, 시계) Python을 통해서 문자열 데이터를 전처리하기 위해서 필요한 기초적인 내용을 정리하는 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 파이썬 문자열 파이썬 문자열 선언은 작은 따옴표, 큰 따옴표를 이용하여 선언 문자열의 길이는 특수문자를 포함한 문자의 개수 인덱스를 사용하여 문자열을 추출할 수도 있음. 1.1. 문자열 메소드 문자열을 내가 원하는 방법으로 변환하고 싶을 때 사용 ex. 대소문자 변환(lower, upper) 문자 개.. 2023. 4. 1.
[데이터 전처리] Python을 통한 데이터 전처리 기초 내용 정리 (데이터 변형, 연속형 데이터 범주화, 더미 변수) Python을 통해서 데이터 전처리를 하는 과정에 대한 기초적인 내용을 정리하는 글 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 데이터 변형 및 치환 1. 1. 함수를 사용한 데이터 변환 map, lambda를 사용하여 원하는 형태로 변환할 수 있음. lower() 메소드를 활용하여 문자열 데이터를 소문자로 변환하는지 lambda를 활용하여 숫자 데이터를 전부 두배로 증가하던지 1.2. 값 치환하기 replace() 메소드를 사용.. 2023. 3. 31.
[데이터 전처리] Python을 통한 데이터 전처리 기초 내용 정리 (누락 데이터 처리, 중복 데이터 처리, 판다스 자료형) Python을 통해서 데이터 전처리를 하는 과정에 대한 기초적인 내용을 정리하는 글 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 누락 데이터 처리 1.1. 누락값 실제 데이터에는 다양한 누락값이 존재 데이터가 존재하지 않는 경우 NaN(Not a Number)로 표현 누락값은 0또는 빈 문자열과는 다른 개념, 데이터 자체가 존재하지 없는 것을 의미 1.1.1. 누락 데이터 확인하기 데이터프레임의 info() 메소드로 요약 정보를 .. 2023. 3. 31.