전체 글93 [데이터 모델링 및 평가] 선형 회귀 모델 내용 정리 데이터 분석 모델링을 위해 여러가지 데이터 모델들에 대해서 학습하고 정리한 내용임을 밝힘. 목차 데이터 모델링 회귀 모델 (Regression Models) 회귀 모델이란, 머신러닝 모델 중에서도 쉽고 널리 활용되는 모델이며 가격, 수량, 주가 등 연속적인 값을 갖는 변수를 예측하는데 활용됨 분석 모형이 예측하고자는 목표 값을 종속(dependent)변수 또는 타겟(Target)변수 라고 하며, 이를 예측하기 위해 사용하는 변수를 독립(independent) 변수 또는 설명(explanatory) 변수라고 함 정리하자면 → 어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균 1. 단순 선형 회귀 모델 0.a. 회귀 모델 (Regression Models) 회귀 모델이란, 머신러닝 모델 중.. 2023. 4. 1. [데이터 전처리] [Python] 데이터 처리 기초 내용 정리 (문자열, 시계) Python을 통해서 문자열 데이터를 전처리하기 위해서 필요한 기초적인 내용을 정리하는 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 파이썬 문자열 파이썬 문자열 선언은 작은 따옴표, 큰 따옴표를 이용하여 선언 문자열의 길이는 특수문자를 포함한 문자의 개수 인덱스를 사용하여 문자열을 추출할 수도 있음. 1.1. 문자열 메소드 문자열을 내가 원하는 방법으로 변환하고 싶을 때 사용 ex. 대소문자 변환(lower, upper) 문자 개.. 2023. 4. 1. [데이터 전처리] Python을 통한 데이터 전처리 기초 내용 정리 (데이터 변형, 연속형 데이터 범주화, 더미 변수) Python을 통해서 데이터 전처리를 하는 과정에 대한 기초적인 내용을 정리하는 글 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 데이터 변형 및 치환 1. 1. 함수를 사용한 데이터 변환 map, lambda를 사용하여 원하는 형태로 변환할 수 있음. lower() 메소드를 활용하여 문자열 데이터를 소문자로 변환하는지 lambda를 활용하여 숫자 데이터를 전부 두배로 증가하던지 1.2. 값 치환하기 replace() 메소드를 사용.. 2023. 3. 31. [데이터 전처리] Python을 통한 데이터 전처리 기초 내용 정리 (누락 데이터 처리, 중복 데이터 처리, 판다스 자료형) Python을 통해서 데이터 전처리를 하는 과정에 대한 기초적인 내용을 정리하는 글 목차 데이터 전처리 데이터 전처리는 데이터 분석과 모델링에서 가장 많은 시간과 노력이 소요되는 부분으로 데이터의 값이나 형태를 변환하여 분석에 적합한 형태로 만드는 것을 의미 결측치/중복치 처리 데이터 변형 및 치환 범주형 데이터 처리 문자열 시계열 데이터는 자료형에 알맞은 처리가 필요하기 때문에 이 내용이 중요함! 1. 누락 데이터 처리 1.1. 누락값 실제 데이터에는 다양한 누락값이 존재 데이터가 존재하지 않는 경우 NaN(Not a Number)로 표현 누락값은 0또는 빈 문자열과는 다른 개념, 데이터 자체가 존재하지 없는 것을 의미 1.1.1. 누락 데이터 확인하기 데이터프레임의 info() 메소드로 요약 정보를 .. 2023. 3. 31. [데이터 시각화] Python-라이브러리 Seaborn 기초 내용 정리 본 글은 파이썬의 데이터 시각화 라이브러리 중 하나인 Seaborn에 대한 기초적인 내용을 공부하고 정리한 글임을 밝힘. 목차 Seaborn 라이브러리 Matplotlib의 기능과 스타일을 확장한 파이썬 시각화 도구의 고급버전 오히려 Matplotlib보다 단순한 인터페이스를 제공 1. 연속형 데이터의 시각화 1.1. 산점도와 회귀선 (regplot) 서로 다른 2개 연속 변수의 산점도 선형회귀분석에 의한 회귀선 1.2. 히스토그램 (distplot) bins의 개수에 따라서 히스토그램이 달라짐 1.3. 커널 밀도 그래프 (kde) 커널 밀도 함수는 그래프와 x축 사이의 면적이 1이 되도록 그림 2. 범주형 데이터 분포 2.1. 빈도 그래프(countplot) 범주형 변수에 대해 빈도수를 막대 그래프로 .. 2023. 3. 31. [데이터 시각화] Python-라이브러리 matplotlib 기초 내용 정리 본 글은 Python에서 제공하는 데이터 시각화 라이브러리인 matplotlib에 대해서 공부한 기초적인 내용을 정리하는 글임을 밝힘. 목차 Matplotlib 데이터 분석에서는 다루는 데이터는 매우 다양함 이러한 데이터의 크기가 수천, 수만개를 넘어가기 때문에 데이터 시각화가 필요 판다스 내장 메소드로는 한계가 존재 시각화 전문 도구를 사용해서 원하는 형태의 그래프를 그려야 함. 1. 선 그래프 연속하는 데이터 값들을 직선 또는 곡선으로 연결한 그래프 시계열 데이터와 같이 시간에 따른 연속적인 값의 변화와 패턴을 활용하는 데 적합함 1.1. 선 그래프 만들기 ⓐ. 기본 그래프 데이터프레음으로 연도별 매출액 현황 데이터를 로드 plt.plot() 메소드를 사용함 (plt는 matplotlib.pyplot.. 2023. 3. 31. [데이터 처리] Python-pandas 기초 공부 내용 정리(연산, 데이터프레임 구조,통계 추출, 데이터 입출력) 본 글은 데이터 처리를 위해 자주 사용되는 파이썬의 판다스 라이브러리에 대해 공부한 기초적인 내용을 정리하는 글임을 밝힘. 목차 pandas 1. 판다스 연산 산술 연산 판다스 객체는 산술 연산을 지원 사칙연산은 물론 로그, 지수등의 연산도 가능 시리즈 vs 숫자, 시리즈 vs 시리즈 연산 시리즈가 제공하는 연산 메소드를 사용할 수 있음. 데이터프레임 vs 숫자, 데이터프레임 vs 데이터프레임 연산 1.1. 시리즈 연산 ⓐ. 시리즈 vs 숫자 시리즈 객체에 숫자로 연산을 하면 모든 원소에 동일하게 반영 ⓑ. 시리즈 vs 시리즈 시리즈와 시리즈의 연산은 같은 인덱스를 가진 원소끼리 이루어짐 1.1.1. 시리즈 연산 메소드 add() : 더하기 sub() : 빼기 mul() : 곱하기 div() : 나눗셈 .. 2023. 3. 31. [데이터 처리] Python pandas-기초 공부 내용 정리 (자료구조) 본 글은 데이터 처리를 위해 자주 사용되는 파이썬의 판다스 라이브러리에 대해 공부한 기초적인 내용을 정리하는 글임을 밝힘. 목차 pandas 1. 판다스의 자료구조 데이터를 수집하고 정리하는 데 최적화된 도구 오픈소스로 무료라는 장점을 가짐 가장 쉬운 언어인 파이썬을 기반으로 함 데이터를 다루는 업무의 80%이상을 판다스로 처리 1.1. 판다스 자료구조 데이터의 속성은 매우 다양함 서로 다른 형식의 데이터를 동일한 형식으로 통합해야 함 판다스는 시리즈와 데이터 프레임을 제공함. 1.1.1. 시리즈 데이터가 순차적으로 나열된 1차원 배열 인덱스(key)와 데이터 값(value)가 일대일 대응으로 이루어진 데이터 → 파이썬 딕셔너리와 유사 인덱스 구조 인덱스를 잘 활용하면 값의 탐색,정렬, 선택, 결합을 쉽.. 2023. 3. 31. [데이터 처리] Python-Numpy 라이브러리 기초 내용 정리 많은 양의 데이터를 다룰 때 활용하기 좋은 파이썬의 라이브러리 중 하나인 Numpy에 대해 학습해보고 Numpy를 이용해 어떻게 데이터 처리를 하는 지에 대해 학습하는 내용이다. 목차 Numpy 1. Numpy란? 1.1. Numpy란? Numerial Python, 파이썬 산술 계산을 위한 패키지 효율적인 다차원 배열 ndarray를 제공 데이터 배열에 대해 빠른 계산을 할 수 있는 수학 메소드 배열을 디스크에 빠르게 읽고 쓸 수 있으며 효율적으로 가공할 수 있음 선형 대수 난수 생성 푸리에 변환 등의 고급 수학 기능도 제공함 1.1.1. 사용하는 이유 데이터는 이미지, 오디오, 텍스트, 숫자 등의 다양한 형태로 존재 결국 이 데이터들은 컴퓨터가 이해하기 위해선 숫자로 변환 해야함. 모든 데이터는 숫자.. 2023. 3. 31. 이전 1 ··· 3 4 5 6 7 8 9 ··· 11 다음