본 글은 파이썬의 데이터 시각화 라이브러리 중 하나인
Seaborn에 대한 기초적인 내용을 공부하고 정리한 글임을 밝힘.
목차
Seaborn 라이브러리
- Matplotlib의 기능과 스타일을 확장한 파이썬 시각화 도구의 고급버전
- 오히려 Matplotlib보다 단순한 인터페이스를 제공
1. 연속형 데이터의 시각화
1.1. 산점도와 회귀선 (regplot)
- 서로 다른 2개 연속 변수의 산점도
- 선형회귀분석에 의한 회귀선
1.2. 히스토그램 (distplot)
- bins의 개수에 따라서 히스토그램이 달라짐
1.3. 커널 밀도 그래프 (kde)
- 커널 밀도 함수는 그래프와 x축 사이의 면적이 1이 되도록 그림
2. 범주형 데이터 분포
2.1. 빈도 그래프(countplot)
- 범주형 변수에 대해 빈도수를 막대 그래프로 시각화
- hue 옵션으로 새 변수 차원을 추가
- dodge = False 옵션으로 그래프를 겹치게 그릴 수 있음
2.2. 히트맵 (hitmap)
- x ,y 축을 범주형 데이터 변수로 설정
- 빈도수 평균값 등의 aggfunc을 사용하여 값을 구한 뒤 해당 영역의 값에 맞는 색이 채워짐
- 히트맵에 사용되는 cmap을 옵션으로 바꿀 수 있음.
2.3. 범주형 데이터 산점도
- stripplot
- 범주형 변수에 들어있는 연속형 변수의 데이터 분포를 확인
- swarmplot
- 데이터의 분삭까지 고려하여 데이터 포인트가 겹치지 않게 그림
2.4. 박스 플롯 (boxplot)
- 연속형 데이터의 전반적인 분포를 확인하는데 적합
2.5. 바이올린 그래프 (violinplot)
3. 데이터 시각화 고급
3.1. 그리드 분할 그래프
- 다양한 범주형 값을 가지는 데이터를 시각화할 떄 사용
- FacetGrid 클래스를 사용하여 행/열 방향으로 서로 다른 조건을 적용
- 서브 플롯에 적용할 그래프를 map() 메소드로 적용
- factorplot() 메소드를 활용할 수도 있음
- 행과 열로 나눠진 각 서브 플롯에 대해서 x,y 데이터로 kind에 설정된 그래프를 그림
3.2. 조인트 그래프
- 산점도를 기본으로 표시하면서 x,y축에 각 변수에 대한 히스토그램을 동시에 보여줌
- 두 변수의 관계와 데이터가 분산되어 있는 정도를 한 눈에 파악하기 좋음
- 그래프 옵션을 조정하여 여러가지 조인트 그래프를 형성할 수 있음
- 커널 밀도 그래프 옵션
- 육각 산점도 옵션
- 회귀선 추가 옵션
3.3. 이변수 데이터 그래프
- 데이터 프래임 내 두 연속형 변수의 관계를 그래프로 표현
- 대각선 방향으로는 히스토그램을 그리고 나머지 그리드에는 두 변수의 산점도를 그림.
- hue 옵션을 사용하여 새로운 범주형 변수 차원을 추가
- 히스토그램 대신 커널 밀도 그래프를 사용할 수도 있음.
마무리
데이터를 시각화는 다양한 방법에 대해서 알아보았는데
여러 그래프를 찬찬히 살펴보면서 나중에 어떻게 사용해야 할지에 대해 꾸준히 궁리하는 것이 필요하다고 판단.
주기적으로 여러 코드를 보면서 작업을 해나가는 게 중요.
'IT > Python' 카테고리의 다른 글
[Python] Django 간략하게 살펴보기 (Web FrameWork) (0) | 2023.06.23 |
---|---|
[Python] 인공 신경 구현 실습하면서 느낀 주의점. (0) | 2023.05.03 |
[데이터 시각화] Python-라이브러리 matplotlib 기초 내용 정리 (0) | 2023.03.31 |
[데이터 처리] Python-pandas 기초 공부 내용 정리(연산, 데이터프레임 구조,통계 추출, 데이터 입출력) (0) | 2023.03.31 |
[데이터 처리] Python pandas-기초 공부 내용 정리 (자료구조) (0) | 2023.03.31 |
댓글