본문 바로가기

분류 전체보기93

[정보 보안] 정보 보안에 일반적인 이해 내용 정리 보호되어 있는 글 입니다. 2023. 4. 4.
[데이터 모델링 및 평가] 군집 분석 및 앙상블 방법론 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 군집 분석 1.1. 군집분석이란 데이터셋의 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 군집으로 묶는 모델 대표적인 비지도 학습 모델이며, 관측값을 몇 개의 집단으로 나눈다는 점에서 분류 모델과 흡사하지만, 정답이 없는 상에서 데이터 자체의 유사성만을 기준으로 하는 점에서 차이가 있음 1.2. K-Means 모델 대표적인 군집 분석 모델로, 데이터 간의 유사성을 측정하는 기준으로 각 클러스터의 중심까지의 거리를 이용함. K개의 클러스터 중심에서 거리.. 2023. 4. 3.
[데이터 모델링 및 평가] 의사결정 나무(Decision Tree) 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 정보이론 기초 잘 일어나지 않는 사건(unlikely event)은 자주 발생하는 사건보다 정보량이 많다(informative) 자주 발생하는 사건은 낮은 정보량을 가짐. 발생이 보장된 사건은 그 내용에 상관없이 전혀 정보가 없다는 것을 의미 예시자주 발생하는 사건 : ‘아침에 해가 뜬다’는 메세지로 보낼 필요가 없을 정도로 정보 가치가 없음잘 일어나지 않는 사건 : 오늘 아침에 일식이 있었다’는 메세지는 정보량 측면에서 매우 중요한 사건 1.1. 정보와 엔트로피 정보 : 확률 변수에 .. 2023. 4. 3.
[데이터 모델링 및 평가] 분류 모델 - KNN, SVM 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 0. 분류 모델 독립 변수들을 이용하여 범주형인 종속변수를 예측하고자 할 때 쓰는 방법론 대표적으로 사기 탐지, 질병 진단 등이 있음 분류하고자는 종속변수의 범주 수에 따라 이진 분류 또는 다중 분류로 구분 ◆ 분류 모델 대표 모델 KNN 입력된 데이터의 거리가 가장 가까운 데이터를 통해서 예측 SVM 결정 경계(Decision boundary)를 기반으로 예측 Decisionn Tree(의사결정 나무) 나무 구조를 이용하여 학습된 규칙을 기반으로 예측 이외에도 Logistic Regress.. 2023. 4. 3.
[데이터 모델링 및 평가] 정규화 선형 모델 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 과적합 및 정규화 1.1. 과적합 과적합 : 학습 데이터에 대해 과도하게 모델을 학습하여 학습 데이터에 대해서는 성능이 매우 높지만, 테스트 데이터에 대해서는 성능이 좋지 못한 상황을 의미 1.1.1. 과적합의 문제 모델 학습 단계에서 학습 성능을 높이기 위해 모델 복잡도를 높이면서 설명력을 높이는 과정을 거침 일반적인으로 테스트 데이터는 학습 데이터와 다른 패턴을 갖는 경우가 많음 학습한 모델을 실제 상황에 적용하기 위해서는 테스트 데이터에 성능이 높아야 하며, 과적합이 발생하면 테스.. 2023. 4. 3.
[데이터 모델링 및 평가] 선형 회귀 모델 내용 정리 데이터 분석 모델링을 위해 여러가지 데이터 모델들에 대해서 학습하고 정리한 내용임을 밝힘. 목차 데이터 모델링 회귀 모델 (Regression Models) 회귀 모델이란, 머신러닝 모델 중에서도 쉽고 널리 활용되는 모델이며 가격, 수량, 주가 등 연속적인 값을 갖는 변수를 예측하는데 활용됨 분석 모형이 예측하고자는 목표 값을 종속(dependent)변수 또는 타겟(Target)변수 라고 하며, 이를 예측하기 위해 사용하는 변수를 독립(independent) 변수 또는 설명(explanatory) 변수라고 함 정리하자면 → 어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균 1. 단순 선형 회귀 모델 0.a. 회귀 모델 (Regression Models) 회귀 모델이란, 머신러닝 모델 중.. 2023. 4. 1.
[데이터 전처리] [Python] 데이터 처리 기초 내용 정리 (문자열, 시계) Python을 통해서 문자열 데이터를 전처리하기 위해서 필요한 기초적인 내용을 정리하는 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 파이썬 문자열 파이썬 문자열 선언은 작은 따옴표, 큰 따옴표를 이용하여 선언 문자열의 길이는 특수문자를 포함한 문자의 개수 인덱스를 사용하여 문자열을 추출할 수도 있음. 1.1. 문자열 메소드 문자열을 내가 원하는 방법으로 변환하고 싶을 때 사용 ex. 대소문자 변환(lower, upper) 문자 개.. 2023. 4. 1.
[데이터 전처리] Python을 통한 데이터 전처리 기초 내용 정리 (데이터 변형, 연속형 데이터 범주화, 더미 변수) Python을 통해서 데이터 전처리를 하는 과정에 대한 기초적인 내용을 정리하는 글 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 데이터 변형 및 치환 1. 1. 함수를 사용한 데이터 변환 map, lambda를 사용하여 원하는 형태로 변환할 수 있음. lower() 메소드를 활용하여 문자열 데이터를 소문자로 변환하는지 lambda를 활용하여 숫자 데이터를 전부 두배로 증가하던지 1.2. 값 치환하기 replace() 메소드를 사용.. 2023. 3. 31.