1个数据可视化的「百搭套路」，从此打开新思路

爆头女枪手

弁言

针对差别的数据规范战数据使命，我们该当怎样挑选适宜的数据可视化？
本文收拾整顿了数据可视化的典范套路，期望对您有所启示。

数据分类

起首，我们对数据规范停止阐发。
基于使命分类教的数据规范（Data Type By Task Taxonomy, TTT）中将数据分为7类，即一维线性数据、两维数据、三维数据、多维数据、工夫数据、树型数据战网状数据1，那七种数据规范所反应的是对理想的笼统。
此中一维数据、两维数据、三维数据、工夫数据各人皆很熟习，那里没有做赘述。

多维数据：普通有多个属性字段，能够暗示为下维空间的一个面，然后用三维集面图停止可视化。
树构造：普通用去表达条理干系，是一种经常使用的非线性数据构造。
网状数据/图构造：普通用去表达毗连干系，也是一种经常使用的非线性数据构造，经常使用节面毗连图及毗连矩阵停止暗示。网状数据（图构造）经常使用去表现天然天下战社会干系中的包罗战附属干系、构造疑息战逻辑启接干系等。

⭐️ 可视化办法选型

肯定数据规范以后，按照常睹的数据可视化需供，我们能够把可视化目的分为比力、干系、散布、组开四年夜类。
下图总结了按照需供阐发可采取的统计可视化办法。2

✋ 可视化之前的数据处置

正在停止数据阐发战可视化之前，凡是要对庞大数据停止预处置，常睹数据处置以下2。

合并：将两个以上的属性合并成一个属性或工具，包罗有用简化数据、改动数据标准。
采样：采样是统计教的底子办法，也是对数据停止挑选的次要手腕，对数据的开端探究战最初的数据阐发环节经常被采取。
降维：维度越下，数据散正在维度空间的散布越稠密，从而削弱了数据散的稀度战距离的界说对数据散类战离群值检测等操纵的影响。将数据属性的维度低落，有助于打点维度劫难，削减数据处置的工夫战内乱存耗损，更加有用天可视化数据，低落噪声或消弭无闭特性等。
特性子散挑选：从数据会合挑选部门数据属性值能够消弭冗余的特性、取使命无闭的特性，包罗暴力枚举法、特性主要性挑选、紧缩感知实际的稠密表达办法。
特性天生：特性天生是指正在本初数据的底子上构建新的能反应数据散主要疑息的属性，包罗特性抽与、将数据使用到新空间、基于特性交融取特性变更的特性机关。
离集化取两值化：将数据散按照散布分别为多少个子类，构成对数据散的离集表达。
属性变更：将某个属性的一切的大要值逐个映照到另外一个空间，如指数变更、与尽对值等。

✍ 经常使用可视化代码（python）

数据预处置完成以后，数据可视化既能够本人编程完成，也能够借助现有的可视化东西。
上面收拾整顿了单变量/多变量停止可视化阐发的经常使用代码，基于matplotlib战seaborn完成。3
数据概览

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df=sns.load_dataset('titanic')
# 检察前5条数据
df.head()
# 检察数据量
print(df.shape)
# 检察数值型变量的统计疑息，包罗数目、均值、尺度好、最年夜最小值、分位数
df.describe()

复造代码

相干性图

相干性图能够反应两个变量之间的相干标的目的，正在画图中借需求增长相干系数，以更曲不雅天判定相干水平。

from scipy.stats import pearsonr
sns.jointplot(x="pclass",y="age",data=df,kind="reg",stat_func=pearsonr)

复造代码

热力争

热力争经由过程色块的色彩、深浅去暗示差别变量之间的相干性。

f=df[['age','fare','sibsp']].corr()
sns.heatmap(f,annot=True)

复造代码

边沿曲圆图

# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
# Create Fig and gridspec
fig = plt.figure(figsize=(16, 10), dpi= 80)
grid = plt.GridSpec(4, 4, hspace=0.5, wspace=0.2)
# Define the axes
ax_main = fig.add_subplot(grid[:-1, :-1])
ax_right = fig.add_subplot(grid[:-1, -1], xticklabels=[], yticklabels=[])
ax_bottom = fig.add_subplot(grid[-1, 0:-1], xticklabels=[], yticklabels=[])
# Scatterplot on main ax
ax_main.scatter('displ', 'hwy', s=df.cty*4, c=df.manufacturer.astype('category').cat.codes, alpha=.9, data=df, cmap="tab10", edgecolors='gray', linewidths=.5)
# histogram on the right
ax_bottom.hist(df.displ, 40, histtype='stepfilled', orientation='vertical', color='deeppink')
ax_bottom.invert_yaxis()
# histogram in the bottom
ax_right.hist(df.hwy, 40, histtype='stepfilled', orientation='horizontal', color='deeppink')
# Decorations
ax_main.set(title='Scatterplot with Histograms \n displ vs hwy', xlabel='displ', ylabel='hwy')
ax_main.title.set_fontsize(20)
for item in ([ax_main.xaxis.label, ax_main.yaxis.label] + ax_main.get_xticklabels() + ax_main.get_yticklabels()):
item.set_fontsize(14)
xlabels = ax_main.get_xticks().tolist()
ax_main.set_xticklabels(xlabels)
plt.show()

复造代码

成对图

# Load Dataset
df = sns.load_dataset('iris')
# Plot
plt.figure(figsize=(10,8), dpi= 80)
sns.pairplot(df, kind="reg", hue="species")
plt.show()

复造代码

稀度直线+曲圆图

# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi= 80)
sns.distplot(df.loc[df['class'] == 'compact', "cty"], color="dodgerblue", label="Compact", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
sns.distplot(df.loc[df['class'] == 'suv', "cty"], color="orange", label="SUV", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
sns.distplot(df.loc[df['class'] == 'minivan', "cty"], color="g", label="minivan", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
plt.ylim(0, 0.35)
# Decoration
plt.title('Density Plot of City Mileage by Vehicle Type', fontsize=22)
plt.legend()
plt.show()

复造代码

收集可视化

树构造、图构造的可视化，能够用networkx去完成4。

import matplotlib.pyplot as plt
import networkx as nx
G = nx.petersen_graph()
subax1 = plt.subplot(121)
nx.draw(G, with_labels=True, font_weight='bold')
subax2 = plt.subplot(122)
nx.draw_shell(G, nlist=[range(5, 10), range(5)], with_labels=True, font_weight='bold')

复造代码

⭐️ 经常使用可视化东西

除本人编程完成，我们也能够借助成生的可视化硬件，快速建造标致的图表。
Microsoft Excel

Office Power Map示例
Microsoft Power Map for Excel能够正在三维天球或自界说舆图上画造天文战时态数据，显现那些数据，并创立能够取其别人分享的视觉浏览。

ECharts

https://echarts.apache.org/zh/index.html
国产可视化库，使用普遍，免费，开源。

Tableau

https://www.tableau.com/
BI范畴经常使用的可视化仄台，环球范畴使用很广的一款贸易硬件。

Visualization Free

https://www.visualizefree.com/
一款免费的可视化东西，能够经由过程拖放设想器构建交互式可视化。

免责声明：假如进犯了您的权益，请联络站少，我们会实时删除侵权内乱容，感谢协作！