pyecharts数据可视化
lanxiaofang 人气:0一、数据描述
数据集中9994条数据,横跨1237天,销售额为2,297,200.8603美元,利润为286,397.0217美元,他们的库存中有1862件独特的物品,它们被分为3类,所有这些物品都在美国4个地区的49个州销售,来着793位客户的5009个订单。
数据集: Superstore.csv 来源:kaggle
一共21列数据,每一列属性描述如下:
- Row ID => 每一行唯一的ID.
- Order ID => 每个客户的唯一订单ID.
- Order Date => 产品的订单日期.
- Ship Date => 产品发货日期.
- Ship Mode=> 客户指定的发货模式.
- Customer ID => 标识每个客户的唯一ID.
- Customer Name => 客户的名称.
- Segment => The segment where the Customer belongs.
- Country => 客户居住的国家.
- City => 客户居住的城市.
- State => 客户所在的州.
- Postal Code => 每个客户的邮政编码.
- Region => “客户”所属地区.
- Product ID => 产品的唯一ID.
- Category => 所订购产品的类别.
- Sub-Category => 所订购产品的子类别.
- Product Name => 产品名称
- Sales =>产品的销售.
- Quantity => 产品数量.
- Discount => 提供折扣.
- Profit => 已发生的利润/亏损.
1、数据概览
9994行,21列数据
print(df.info())
<class 'pandas.core.frame.DataFrame'> RangeIndex: 9994 entries, 0 to 9993 Data columns (total 21 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Row ID 9994 non-null int64 1 Order ID 9994 non-null object 2 Order Date 9994 non-null object 3 Ship Date 9994 non-null object 4 Ship Mode 9994 non-null object 5 Customer ID 9994 non-null object 6 Customer Name 9994 non-null object 7 Segment 9994 non-null object 8 Country 9994 non-null object 9 City 9994 non-null object 10 State 9994 non-null object 11 Postal Code 9994 non-null int64 12 Region 9994 non-null object 13 Product ID 9994 non-null object 14 Category 9994 non-null object 15 Sub-Category 9994 non-null object 16 Product Name 9994 non-null object 17 Sales 9994 non-null float64 18 Quantity 9994 non-null int64 19 Discount 9994 non-null float64 20 Profit 9994 non-null float64 dtypes: float64(3), int64(3), object(15) memory usage: 1.6+ MB None
二、数据预处理
1、导入包和数据
import pandas as pd from pyecharts.charts import * from pyecharts import options as opts from pyecharts.commons.utils import JsCode data = pd.read_csv(r'./data/Superstore.csv')
2、列名重命名
重命名后的列名:
data.columns = ['行ID', '订单ID', '订单日期', '发货日期', '发货方式', '客户ID', '客户名称', '客户类型', '国家', '城市', '州', '邮政编码', '所属区域', '产品ID', '产品类别', '产品子类别', '产品名称', '销售额', '产品数量', '提供折扣', '利润/亏损']
3、提取数据中时间,方便后续分析绘图
data['年份'] = data['订单日期'].apply(lambda x: x[-4:]) data['日期'] = pd.to_datetime(data['订单日期'], format='%m/%d/%Y') data['月份'] = data['日期'].dt.month data['年-月'] = data['年份'].astype('str') + '-' + data['月份'].astype('str')
三、数据可视化
1、美国各个地区销售额的分布(地图)
包含:Order_Date Sales Quantity Profit year month
usa_sale = data[['州', '销售额']].groupby('州').sum().round(2).reset_index() print(usa_sale.head()) def echarts_map(province, data, title='主标题', subtitle='副标题', label='图例'): """ province:传入省份List data:传入各省对应的数据List title:主标题 subtitle:副标题 label:图例 """ map_ = Map( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='980px', # 设置图的宽度 height='700px', # 设置图的高度 ) ) map_.add(label, [list(i) for i in zip(province, data)], maptype='美国' ) map_.set_global_opts( # 标题设置 title_opts=opts.TitleOpts( title=title, # 主标题 subtitle=subtitle, # 副标题 pos_left='center', # 标题展示位置 title_textstyle_opts=dict(color='#fff') # 设置标题字体颜色 ), # 图例设置 legend_opts=opts.LegendOpts( is_show=True, # 是否显示图例 pos_left='right', # 图例显示位置 pos_top='3%', # 图例距离顶部的距离 orient='horizontal' # 图例水平布局 ), visualmap_opts=opts.VisualMapOpts(max_=int(max(data)), is_piecewise=False) ) return map_.render(title + '-' + subtitle + '.html') echarts_map(usa_sale['州'].tolist(), usa_sale['销售额'].tolist(), title='美国各地区销售额分布' , subtitle='销售额分布地图', label='销售额')
2、各产品类别销售额对比(柱状图)
pro_category = data[['产品类别', '销售额', '利润/亏损']].groupby('产品类别').sum().round(2).reset_index() pro_category.head() def echarts_bar(x, y, y2, title='主标题', subtitle='副标题', label='图例', label2='图例2'): """ x: 函数传入x轴标签数据 y:函数传入y轴数据 title:主标题 subtitle:副标题 label:图例 """ bar = Bar( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='900px', # 设置图的宽度 height='600px' # 设置图的高度 ) ) bar.add_xaxis(x) bar.add_yaxis(label, y, label_opts=opts.LabelOpts(is_show=True) # 是否显示数据 , category_gap="70%" # 柱子宽度设置 , yaxis_index=0 ) bar.add_yaxis(label2, y2, label_opts=opts.LabelOpts(is_show=True) # 是否显示数据 , category_gap="70%" # 柱子宽度设置 , yaxis_index=1 ) bar.set_series_opts( # 自定义图表样式 label_opts=opts.LabelOpts( is_show=True, position='top', # position 标签的位置 可选 'top','left','right','bottom','inside','insideLeft','insideRight' font_size=15, color='white', font_weight='bolder', # font_weight 文字字体的粗细 'normal','bold','bolder','lighter' font_style='oblique', # font_style 文字字体的风格,可选 'normal','italic','oblique' ), # 是否显示数据标签 # markpoint_opts=opts.MarkPointOpts( # data=[ # opts.MarkPointItem(type_="min", name="最小值"), # 显示最小值标签 # opts.MarkPointItem(type_="max", name="最大值"), # 显示最大值标签 # opts.MarkPointItem(type_="average", name="平均值") # 显示均值标签 # ] # ), itemstyle_opts={ "normal": { "color": JsCode( """new echarts.graphic.LinearGradient(0, 0, 0, 1, [{ offset: 0,color: 'rgba(0, 244, 255, 1)'} ,{offset: 1,color: 'rgba(0, 77, 167, 1)'}], false) """ ), # 调整柱子颜色渐变 'shadowBlur': 15, # 光影大小 "barBorderRadius": [100, 100, 100, 100], # 调整柱子圆角弧度 "shadowColor": "#0EEEF9", # 调整阴影颜色 'shadowOffsetY': 2, 'shadowOffsetX': 2, # 偏移量 } } ) bar.set_global_opts( # 标题设置 title_opts=opts.TitleOpts( title=title, # 主标题 subtitle=subtitle, # 副标题 pos_left='center', # 标题展示位置 title_textstyle_opts=dict(color='#fff') # 设置标题字体颜色 ), # 图例设置 legend_opts=opts.LegendOpts( is_show=True, # 是否显示图例 pos_left='right', # 图例显示位置 pos_top='3%', # 图例距离顶部的距离 orient='horizontal' # 图例水平布局 ), tooltip_opts=opts.TooltipOpts( is_show=True, # 是否使用提示框 trigger='axis', # 触发类型 is_show_content=True, trigger_on='mousemove|click', # 触发条件,点击或者悬停均可出发 axis_pointer_type='cross', # 指示器类型,鼠标移动到图表区可以查看效果 ), yaxis_opts=opts.AxisOpts( is_show=True, splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线 axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder' # 字重 ), ), # 关闭Y轴显示 xaxis_opts=opts.AxisOpts( boundary_gap=True, # 两边不显示间隔 axistick_opts=opts.AxisTickOpts(is_show=True), # 刻度不显示 splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线不显示 axisline_opts=opts.AxisLineOpts(is_show=True), # 轴不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder' # 字重 ), ), ) bar.extend_axis(yaxis=opts.AxisOpts()) return bar.render(title + '-' + subtitle + '.html') echarts_bar(pro_category['产品类别'].tolist(), pro_category['销售额'].tolist(), pro_category['利润/亏损'].tolist(), title='不同产品类别销售额对比', subtitle='销售额对比柱状图', label='销售额', label2='利润')
3、不同客户类别销售额对比(饼图)
customer_sale = data[['客户类型', '销售额', '利润/亏损']].groupby('客户类型').sum().round(2).reset_index() def echarts_pie(x, y, title='主标题', subtitle='副标题', label='图例'): pie = Pie( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='900px', # 设置图的宽度 height='600px' ) ) pie.add('', [list(z) for z in zip(x, y)]) pie.set_series_opts(label_opts=opts.LabelOpts( formatter="{b}: {c}", font_size='15', font_style='oblique', font_weight='bolder' ) ) pie.set_global_opts( # 标题设置 title_opts=opts.TitleOpts( title=title, # 主标题 subtitle=subtitle, # 副标题 pos_left='center', # 标题展示位置 title_textstyle_opts=dict(color='white'), # 设置标题字体颜色 subtitle_textstyle_opts=dict(color='white') ), legend_opts=opts.LegendOpts( is_show=True, # 是否显示图例 pos_left='right', # 图例显示位置 pos_top='3%', # 图例距离顶部的距离 orient='vertical', # 图例水平布局 textstyle_opts=opts.TextStyleOpts( color='white', # 颜色 font_size='13', # 字体大小 font_weight='bolder', # 加粗 ), ) ) return pie.render(title + '-' + subtitle + '.html') echarts_pie(customer_sale['客户类型'], customer_sale['销售额'], title='不同客户类别销售额对比', subtitle=' ', label='销售额') echarts_pie(customer_sale['客户类型'], customer_sale['利润/亏损'], title='不同客户类别利润对比', subtitle=' ', label='利润/亏损')
4、每月各产品销售额top10榜单
month_lis = data.sort_values(by='日期')['年-月'].unique().tolist() month_sale = [] for i in month_lis: month_data = data[data['年-月'] == i][['产品名称', '销售额']].groupby(['产品名称']). \ sum().round(2).reset_index().sort_values(by='销售额', ascending=False)[:10] month_data = month_data.sort_values(by='销售额', ascending=True) # final_data = [month_data['产品名称'].tolist(),month_data['销售额'].tolist()] month_sale.append(month_data) # month_sale[0] # 绘制动态榜单 # 新建一个timeline对象 def echart_line(x, y, title='主标题', subtitle='副标题', label='图例'): tl = Timeline( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='1200px', # 设置图的宽度 height='700px' # 设置图的高度 ) ) tl.add_schema( is_auto_play=True, # 是否自动播放 play_interval=1500, # 播放速度 is_loop_play=True, # 是否循环播放 ) for i, data1 in zip(x, y): day = i bar = Bar( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='1200px', # 设置图的宽度 height='700px' # 设置图的高度 ) ) bar.add_xaxis(data1.iloc[:, 0].tolist()) bar.add_yaxis( label, data1.iloc[:, 1].round(2).tolist(), category_gap="40%" ) bar.reversal_axis() bar.set_series_opts( # 自定义图表样式 label_opts=opts.LabelOpts( is_show=True, position="right", font_style='oblique', font_weight='bolder', font_size='13', ), # 是否显示数据标签 itemstyle_opts={ "normal": { "color": JsCode( """new echarts.graphic.LinearGradient(1, 0, 0, 0, [{ offset: 0,color: 'rgba(0, 244, 255, 1)'} ,{offset: 1,color: 'rgba(0, 77, 167, 1)'}], false) """ ), # 调整柱子颜色渐变 'shadowBlur': 8, # 光影大小 "barBorderRadius": [100, 100, 100, 100], # 调整柱子圆角弧度 "shadowColor": "#0EEEF9", # 调整阴影颜色 'shadowOffsetY': 6, 'shadowOffsetX': 6, # 偏移量 } } ) bar.set_global_opts( # 标题设置 title_opts=opts.TitleOpts( title=title, # 主标题 subtitle=subtitle, # 副标题 pos_left='center', # 标题展示位置 title_textstyle_opts=dict(color='white'), # 设置标题字体颜色 subtitle_textstyle_opts=dict(color='#white') ), legend_opts=opts.LegendOpts( is_show=True, # 是否显示图例 pos_left='right', # 图例显示位置 pos_top='3%', # 图例距离顶部的距离 orient='vertical', # 图例水平布局 textstyle_opts=opts.TextStyleOpts( color='white', # 颜色 font_size='13', # 字体大小 font_weight='bolder', # 加粗 font_style='oblique', ), ), tooltip_opts=opts.TooltipOpts( is_show=True, # 是否使用提示框 trigger='axis', # 触发类型 is_show_content=True, trigger_on='mousemove|click', # 触发条件,点击或者悬停均可出发 axis_pointer_type='cross', # 指示器类型,鼠标移动到图表区可以查看效果 # formatter = '{a}<br>{b}:{c}人' # 文本内容 ), yaxis_opts=opts.AxisOpts( is_show=True, splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线 axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder' # 字重 ), ), # 关闭Y轴显示 xaxis_opts=opts.AxisOpts( boundary_gap=True, # 两边不显示间隔 axistick_opts=opts.AxisTickOpts(is_show=True), # 刻度不显示 splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线不显示 axisline_opts=opts.AxisLineOpts(is_show=True), # 轴不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder', # 字重 ), ), ) tl.add(bar, day) return tl.render(title + '-' + subtitle + '.html') # 销售额、净利润在时间维度的变化(折线图) echart_line(month_lis, month_sale, title='每月各产品销售额top10榜单', subtitle=' ', label='销售额')
5、销售额、净利润在时间维度的变化(折线图)
sale_data = data.sort_values(by='日期')[['年份', '日期', '销售额', '利润/亏损']]. \ groupby(['年份', '日期']).sum().round(2).reset_index() year_lis = sale_data['年份'].unique().tolist() sale_data1 = sale_data[sale_data['年份'] == '2014'] sale_data2 = sale_data[sale_data['年份'] == '2015'] sale_data3 = sale_data[sale_data['年份'] == '2016'] sale_data4 = sale_data[sale_data['年份'] == '2017'] sale_data_lis = [sale_data1, sale_data2, sale_data3, sale_data4] print(sale_data4.head()) def echarts_two_line(x, y, title='主标题', subtitle='副标题', label='图例', label2='图例2'): """ x: 函数传入x轴table数据 y:函数传入y轴dataframe集合 title:主标题 subtitle:副标题 label:图例 """ tab = Tab() for table, data in zip(x, y): line1 = Line( init_opts=opts.InitOpts( bg_color='#080b30', # 设置背景颜色 theme='dark', # 设置主题 width='1200px', # 设置图的宽度 height='700px' # 设置图的高度 ) ) line1.add_xaxis(data['日期'].tolist()) line1.extend_axis(yaxis=opts.AxisOpts()) # 添加一条Y轴 line1.add_yaxis( label, data['销售额'].tolist(), yaxis_index=0, is_symbol_show=False, # 是否显示数据标签点 is_smooth=True, # 设置曲线平滑 label_opts=opts.LabelOpts( is_show=True, # 是否显示数据 ), # 线条粗细阴影设置 linestyle_opts={ "normal": { "color": "#E47085", # 线条颜色 "shadowColor": '#E4708560', # 阴影颜色和不透明度 "shadowBlur": 8, # 阴影虚化大小 "shadowOffsetY": 20, # 阴影y偏移量 "shadowOffsetX": 20, # 阴影x偏移量 "width": 7 # 线条粗细 }, }, ) line1.set_global_opts( # 标题设置 title_opts=opts.TitleOpts( title=title, # 主标题 subtitle=subtitle, # 副标题 pos_left='center', # 标题展示位置 title_textstyle_opts=dict(color='white'), # 设置标题字体颜色 subtitle_textstyle_opts=dict(color='white') ), # 图例设置 legend_opts=opts.LegendOpts( is_show=True, # 是否显示图例 pos_left='right', # 图例显示位置 pos_top='3%', # 图例距离顶部的距离 orient='horizontal', # 图例水平布局 textstyle_opts=opts.TextStyleOpts( color='white', # 颜色 font_size='13', # 字体大小 font_weight='bolder', # 加粗 ), ), tooltip_opts=opts.TooltipOpts( is_show=True, # 是否使用提示框 trigger='axis', # 触发类型 is_show_content=True, trigger_on='mousemove|click', # 触发条件,点击或者悬停均可出发 axis_pointer_type='cross', # 指示器类型,鼠标移动到图表区可以查看效果 # formatter = '{a}<br>{b}:{c}人' # 文本内容 ), datazoom_opts=opts.DataZoomOpts( range_start=0, # 开始范围 range_end=25, # 结束范围 # orient='vertical', # 设置为垂直布局 type_='slider', # slider形式 is_zoom_lock=False, # 锁定区域大小 # pos_left='1%' # 设置位置 ), yaxis_opts=opts.AxisOpts( is_show=True, splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线 axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder' # 字重 ), ), # 关闭Y轴显示 xaxis_opts=opts.AxisOpts( boundary_gap=False, # 两边不显示间隔 axistick_opts=opts.AxisTickOpts(is_show=True), # 刻度不显示 splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线不显示 axisline_opts=opts.AxisLineOpts(is_show=True), # 轴不显示 axislabel_opts=opts.LabelOpts( # 坐标轴标签配置 font_size=13, # 字体大小 font_weight='bolder' # 字重 ), ), ) # 新建一个折线图Line line2 = Line() line2.add_xaxis(data['日期'].tolist()) # 将line数据通过yaxis_index指向后添加的Y轴 # line2.extend_axis(yaxis=opts.AxisOpts()) line2.add_yaxis( label2, data['利润/亏损'].tolist(), yaxis_index=0, is_symbol_show=False, # 是否显示数据标签点 is_smooth=True, # 设置曲线平滑 label_opts=opts.LabelOpts( is_show=True, # 是否显示数据 ), # 线条粗细阴影设置 linestyle_opts={ "normal": { "color": "#44B2BE", # 线条颜色 "shadowColor": '#44B2BE60', # 阴影颜色和不透明度 "shadowBlur": 8, # 阴影虚化大小 "shadowOffsetY": 20, # 阴影y偏移量 "shadowOffsetX": 20, # 阴影x偏移量 "width": 7 # 线条粗细 }, }, ) line1.overlap(line2) tab.add(line1, table) return tab.render(title + '-' + subtitle + '.html') echarts_two_line(year_lis, sale_data_lis, title='销售额、利润在时间维度的变化', subtitle=' ', label='销售额', label2='利润/亏损')
6、销售额
sale_sum = int(data['销售额'].sum()) num_count = int(data['产品数量'].sum()) profit_sum = int(data['利润/亏损'].sum()) print(profit_sum) def big_data(title='主标题', subtitle='副标题'): c = Pie( init_opts=opts.InitOpts( chart_id=1, bg_color='#080b30', theme='dark', width='300px', height='300px', ) ) c.set_global_opts( title_opts=opts.TitleOpts( title=title, subtitle=subtitle, title_textstyle_opts=opts.TextStyleOpts( font_size=36, color='#FFFFFF', ), pos_left='center', pos_top='middle' ) ) return c.render(str(title) + '-' + subtitle + '.html') big_data(title=sale_sum, subtitle='销售额')
加载全部内容