초보자를 위한 Python 데이터 시각화
Python을 사용하여 데이터 시각화를 만들면 사용자가 표 형식으로 표현된 형식화되지 않은 데이터의 대규모 데이터 세트를 분석하고 이해하려고 애쓰는 데 비해 사용자가 몇 초 또는 몇 분만에 데이터 통찰력을 얻을 수 있습니다.
데이터 시각화는 데이터를 분석하고 모든 사람이 데이터를 더 명확하고 쉽게 이해할 수 있도록 하는 데 중요한 역할을 합니다. Python과 같은 데이터 시각화 도구를 사용하여 정보를 시각적으로 표현하면 다른 방법으로는 결코 발견하지 못했을 추세, 패턴 및 상관 관계를 식별하는 데 도움이 됩니다. 또는 미국 컴퓨터 과학자 Ben Schneiderman이 말했듯이 '시각화는 알지 못했던 질문에 대한 답을 제공합니다' 가졌다''.
이 블로그에서는 Python의 데이터 시각화가 무엇인지, Python의 시각화 라이브러리를 사용하여 Python에서 데이터를 시각화하는 방법에 대해 논의하고, 데이터 시각화의 힘과 Python이 다음 작업에 어떻게 도움이 되는지 더 잘 이해하는 데 도움이 되는 몇 가지 Python 시각화 예를 제시합니다. 그것을 활용합니다.
Python의 시각화란 무엇입니까?
Python은 고급 데이터 구조, 동적 유형 및 동적 바인딩, 그리고 복잡한 애플리케이션 개발에 가치 있고 유익하게 만드는 다양한 기타 기능을 포함하는 범용 프로그래밍 언어입니다.
지난 20년 동안 데이터 시각화의 중요성이 커짐에 따라 Python은 단순한 프로그래밍 언어 그 이상이 되었습니다. 이는 데이터 과학에 가장 많이 사용되는 프로그래밍 언어로 성장하여 개발자에게 데이터를 시각화하고 원시 데이터만으로는 제공할 수 없는 통찰력을 얻을 수 있는 수많은 옵션을 제공합니다.
간단히 말해서, Python을 사용하여 데이터 시각화를 만들면 사용자가 표 형식으로 표현된 형식화되지 않은 대규모 데이터 세트를 분석하고 이해하려고 노력하는 데 비해 사용자가 몇 초 또는 몇 분만에 데이터 통찰력을 얻을 수 있습니다. 더 나아가 Python의 데이터 시각화 도구를 사용하면 시각화를 보는 사람이 데이터의 내용을 즉시 이해하는 데 도움이 되는 색상, 추세선, 마커, 주석 및 더 많은 시각적 단서를 추가할 수 있습니다.
Python 시각화 라이브러리
비즈니스 차트, 과학 차트, 금융 차트, 지리공간 매핑 등을 제공하는 Python용 오픈 소스 및 상용 시각화 라이브러리가 많이 있습니다. 개발자는 이러한 라이브러리를 Python 프로젝트로 쉽게 가져올 수 있으며, 보유한 데이터 유형에 따라 몇 줄의 코드로 시각화를 렌더링할 수 있습니다.
가장 인기 있는 5가지 Python 데이터 시각화 라이브러리는 다음과 같습니다.
- Matplotlib–Matplotlib는 Python 최초의 데이터 시각화 라이브러리이며 다른 모든 Python 데이터 시각화 라이브러리가 구축된 기반 라이브러리입니다. 가장 많이 사용되는 2D 플로팅 라이브러리입니다. Matplotlib는 플롯, 막대 차트, 원형 차트, 히스토그램, 전력 스펙트럼, 산점도, 오류 차트 및 기타 유형의 데이터 시각화를 생성할 수 있습니다. 라이브러리를 사용하면 시각화를 완벽하게 제어할 수 있습니다. 이는 매우 강력하지만 매우 복잡합니다. 무엇이든 만들 수 있지만 합리적으로 보이는 그래프를 얻으려면 많은 작업과 노력이 필요합니다.
- Seaborn– Matplotlib을 기반으로 하는 Seaborn은 시각적으로 가장 매력적인 Python 데이터 시각화를 만드는 것으로 알려져 있습니다. 이 라이브러리는 Matplotlib에 비해 더 적은 코드로 매력적이고 유익한 통계 그래픽을 그릴 수 있는 고급 인터페이스를 제공합니다.
- ggplot– 이 라이브러리는 R 프로그래밍 언어로 ggplot2 데이터 시각화를 Python으로 구현한 것입니다. ggplot은 Pandas 라이브러리와 긴밀하게 통합되어 있으며 변수를 미학에 매핑하는 방법과 사용할 기본 요소를 설명한 후 최고의 기계 학습 형태 중 하나를 보여줍니다. 간단한 그래픽 표현을 생성하는 데 사용할 수 있으며 고도로 사용자 정의된 그래픽을 생성하는 데는 사용할 수 없습니다.
- Plotly– Plotly를 사용하면 매우 적은 코드 줄로 데이터 시각화와 분석을 모두 생성할 수 있으며 다른 모든 라이브러리에서는 매우 흔하지 않은 등고선 플롯이 있습니다. 산점도, 선 차트, 막대 차트, 오차 막대, 하위 도표, 히스토그램, 상자 도표 등과 같은 많은 시각화를 생성할 수 있습니다. 또한 Plotly에는 많은 수의 데이터 포인트에서 이상치 또는 이상치를 감지할 수 있는 호버 도구 기능이 있습니다.
- Pandas– 시각화 라이브러리는 아니지만 Pandas는 Python 시각화 라이브러리에서 사용할 수 있는 빠르고 유연한 데이터 조작 및 데이터 변환 기능을 제공하는 오픈 소스 고성능 라이브러리입니다. 데이터 처리에 Pandas 고급 API를 사용한다는 것은 길고 복잡한 Python 코드를 사용할 때와 동일한 결과를 얻기 위해 데이터 조작을 위한 Python 코드를 적게 작성한다는 의미입니다.
Python 대화형 시각화
Python 대화형 시각화 도구를 찾고 있다면 Bokeh를 고려해 보세요.
Bokeh는 HTML 및 JavaScript를 사용하여 그래픽을 렌더링하는 대화형 시각화 라이브러리입니다. 하지만 Bokeh는 JavaScript 코드 작성 여부와 상관없이 D3.js에서 대화형 시각화를 생성할 수 있는 Python API를 제공합니다. 대규모 또는 스트리밍 데이터 자산에 적합하며 대화형 웹 기반 플롯, 애플리케이션 및 대시보드를 개발하는 데 사용할 수 있습니다. Bokeh는 데이터를 탐색 및 이해하고 프로젝트 또는 보고서에 대한 매력적인 사용자 정의 차트를 만드는 데 매우 강력한 도구입니다. Python 데이터 시각화 공간에서 Bokeh는 대화형 시각화 구축을 위한 최고의 후보입니다.
또한 라이브러리는 PyData 도구와 긴밀하게 작동하며 플롯을 위해 표준 Pandas 및 NumPy 개체를 사용할 수 있습니다.
Python 시계열 시각화
시계열 데이터는 시간 순서대로 나열된 일련의 데이터 포인트입니다. 연속적인 등간격 시점의 연속으로, 데이터의 의미 있는 통찰력과 기타 유용한 특성을 추출하기 위해 분석하는 방법으로 구성됩니다. 시계열 데이터 유형은 제약, 소매, 운송, 금융, 소셜 미디어, 이메일 마케팅 회사 등 다양한 산업 분야에서 중요합니다.
다음은 시계열 데이터의 모든 예입니다.
- 의학: 심박수 모니터링, 체중 추적, 혈압 추적 등
- 소매: 24시간 또는 48시간 동안 시간당 판매된 품목 수
- 교통수단: 일주일 또는 한 달 동안 여행하는 여행자 수
- 경제 : 국내총생산, 소비자물가지수 등
선 차트는 시계열 데이터를 시각화하는 데 가장 일반적으로 사용되는 방법입니다. 일반적으로 차트 표시를 통해 더 자세한 시간 기반 데이터를 확대하거나 더 높은 수준의 데이터 보기를 위해 축소하는 등의 상호작용이 가능합니다.
Python 시각화 예
데이터 시각화 및 대시보드 도구에는 다양한 차트 유형이 포함되어 있습니다. Python 및 앞서 언급한 Python 그래픽 라이브러리와 같은 도구는 제공된 차트 유형 이상으로 이동해야 할 때 유용하고 유익한 시각화를 구축하는 데 도움이 될 수 있습니다. 예를 들어 대부분의 제품에는 Sankey 다이어그램, 히트맵 또는 Steamgraph와 같은 고급 시각화가 포함되어 있지 않습니다. Slingshot 사용하면 Python에서 이러한 고급 시각화를 쉽게 추가할 수 있습니다.
기본적으로 Slingshot의 Python 시각화에는 스크립트 편집기에 다음 라이브러리가 포함되어 있습니다.
#import matplotlib #import matplotlib.pyplot as plt #import numpy as np #import pandas as pd
그리고 기본적으로 스크립트 편집기에서 기본적으로 사용할 수 있는 필드는 시각화 편집기의 필드 선택기에서 선택한 필드입니다.
#data['Territory'] #data['CampaignID'] #data['Sum of Spend']
다른 기본 제공 차트와 마찬가지로 시각화를 생성합니다. 유일한 차이점은 이것이 일부 Python 코드로 생성되었다는 것입니다.
campaignid = np.unique(np.array(data['CampaignID'])) territory = np.unique(np.array(data['Territory'])) spend = np.array(data['Sum of Spend']).reshape((7, 5)) fig, ax = plt.subplots(figsize=(5.5, 6.5)) im = ax.imshow(spend) # Show all ticks... ax.set_xticks(np.arange(len(territory))) ax.set_yticks(np.arange(len(campaignid))) # ... and label them with the respective list entries ax.set_xticklabels(territory) ax.set_yticklabels(campaignid) # Loop over data dimensions and create text annotations. for i in range(len(campaignid)): for j in range(len(territory)): text = ax.text(j, i, spend[i, j], ha="center", va="center", color="w") ax.set_title("Campaign Spend (dollars)") fig.tight_layout()
그 결과, 나머지 팀원들과 쉽게 공유할 수 있는 아름다운 히트맵 시각화가 탄생했습니다!
마지막 생각들
기업이 더 나은 사실 기반 결정을 내리기 위해 계속해서 데이터에 의존함에 따라 데이터 시각화의 중요성은 더욱 커질 것입니다. 그리고 차트 및 그래프와 같은 시각화 기술은 기존 스프레드시트 및 오래된 데이터 보고서에 비해 데이터를 이해하는 측면에서 더 효율적이므로 Python과 같은 도구를 사용하여 데이터 시각화를 만드는 것은 모든 다기능 팀에 필수적입니다.
그러나 데이터와 인사이트의 중요성에도 불구하고, 데이터와 인사이트를 갖는 것만으로는 더 이상 충분하지 않습니다. 데이터의 잠재력을 활용하려면 해당 데이터를 일상적인 운영 워크플로에 적합한 작업으로 전환해야 합니다. Slingshot 사용하면 통찰력에서 실행으로 원활하게 전환할 수 있습니다.
Slingshot 사용하면 동일한 플랫폼에서 데이터를 분석하고, 아름다운 데이터 시각화를 만들고, 조직 내의 모든 사람과 협업하고, 모든 프로젝트를 쉽게 관리할 수 있습니다.
더 자세히 알고 싶으십니까? Slingshot 무료로 사용해 보고 실행 가능한 통찰력을 활용하는 동시에 팀이 더 쉽게 데이터를 활용하고, 데이터 기반 문화를 육성하고, 생산성을 향상시키는 데 어떻게 도움이 되는지 알아보세요.