数据可视化分析与实践

978-7-115-67655-9
作者: 曾秋梅苏斌王伟朱飞鸽
译者:
编辑: 卜一凡
分类: 其他

图书目录:

详情

  在信息爆炸的时代,数据可视化作为有效理解和利用数据的方式,能将复杂数据转化为直观图形,以洞察数据规律和趋势。本书是一份实用的数据可视化分析与实战指南,分为三大部分。第一部分讲解理论基础,从数据可视化基本概念出发,介绍图表类型、设计原则及相关工具,接着阐述数据采集方法、预处理环节(清洗、集成、规约与转换),还介绍多种数据分析方法,帮助读者建立扎实的理论基础。第二部分聚焦DataEase工具,对从安装部署、数据源管理,到图表制作、仪表板设计等环节的操作要点进行详尽阐述,助力读者掌握该工具。第三部分通过销售驾驶舱分析、《全唐诗》可视化分析、全球商业开源洞察分析3个实际案例,介绍数据可视化在不同场景中的应用,提升读者实战能力。   本书适合对数据可视化感兴趣,希望系统学习其基础理论,掌握DataEase工具使用方法,并通过实际案例提升实战能力的初学者以及有一定基础的读者阅读。

图书摘要

版权信息

书名:数据可视化分析与实践

ISBN:978-7-115-67655-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    曾秋梅  苏 斌  王 伟  朱飞鸽

责任编辑 卜一凡

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

在信息爆炸的时代,数据可视化作为有效理解和利用数据的方式,能将复杂数据转化为直观图形,以洞察数据规律和趋势。本书是一份实用的数据可视化分析与实战指南,分为三大部分。第一部分讲解理论基础,从数据可视化基本概念出发,介绍图表类型、设计原则及相关工具,接着阐述数据采集方法、预处理环节(清洗、集成、规约与转换),还介绍多种数据分析方法,帮助读者建立扎实的理论基础。第二部分聚焦DataEase工具,对从安装部署、数据源管理,到图表制作、仪表板设计等环节的操作要点进行详尽阐述,助力读者掌握该工具。第三部分通过销售驾驶舱分析、《全唐诗》可视化分析、全球商业开源洞察分析3个实际案例,介绍数据可视化在不同场景中的应用,提升读者实战能力。

本书适合对数据可视化感兴趣,希望系统学习其基础理论,掌握DataEase工具使用方法,并通过实际案例提升实战能力的初学者以及有一定基础的读者阅读。

前  言

在当今信息爆炸的时代,数据无处不在,而如何有效地理解和利用这些数据,成为我们面临的一大挑战。数据可视化作为一种强大的数据处理方式,能够将复杂的数据转化为直观、易于理解的图形、图像或视频,从而帮助我们洞察数据的内在规律和趋势。正是基于这样的背景,我们编写了本书,旨在为读者提供一套系统、全面的数据可视化分析与实战指南,既注重通识教育又兼顾实践应用。

本书共分为三大部分。第一部分为“理论基础”,从数据可视化的基本概念入手,逐步深入探讨数据采集、预处理、分析等关键环节,帮助读者建立起扎实的理论基础;第二部分聚焦于DataEase这一强大的数据可视化工具,详细讲解其实操要点,带领读者从零开始掌握数据可视化的全流程操作;第三部分通过多个实际案例,帮助读者将理论知识应用于实际场景,提升数据可视化的实战能力。

在理论基础部分,首先介绍数据可视化的核心概念、图表类型及设计原则,帮助读者理解数据可视化的本质与价值。然后,介绍数据采集的方法与技巧,以及如何对原始数据进行清洗、集成和转换,以确保数据的准确性和可用性。最后,介绍多种数据分析方法,包括描述性分析、对比分析、结构分析等。这部分内容特别注重通识性,力求用通俗易懂的语言来解释复杂的概念和原理,使初学者能够轻松上手。

在DataEase实操部分,对从产品的安装部署到数据源的管理,再到图表制作和仪表板设计的操作要点,逐一进行了详尽的阐述。这一部分内容具有高度的实用性,能够帮助读者快速掌握DataEase这一强大的数据可视化工具,通过丰富的案例和详细的步骤指导,让读者在实践中深化对数据可视化的理解。

在数据可视化分析实战部分,通过销售驾驶舱分析、《全唐诗》可视化分析和全球商业开源洞察分析3个实际案例,详细介绍如何将数据可视化应用于不同场景。每个案例都经过精心的挑选和设计,旨在让读者在实战中进一步提升数据可视化的技能。

本书的第一部分由曾秋梅、苏斌编写,第二部分由朱飞鸽、谢贝编写,第三部分由曾秋梅、王伟、谢贝编写。本书在编写过程中还得到了飞致云公司的万梓良、贺晨芳、张陶圣和杭州科技职业技术学院卢桂荣的大力支持,在此表示诚挚感谢。也感谢所有为本书出版付出努力的人。

本书既注重通识教育,为读者提供全面而深入的数据可视化理论;又兼顾实践应用,通过丰富的案例,让读者在实践中深化理解并提升技能。我们相信,无论是初学者还是有一定基础的读者,都能从本书中获益。希望本书能为读者的数据可视化之旅提供有力的支持与帮助。

资源与支持

资源获取

本书提供如下资源:

本书导读视频;

本书配套的素材文件;

本书配套的教学PPT;

本书的思维导图;

异步社区7天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交勘误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。

第一部分 理论基础

第1章 数据可视化概述

本章概要

本章主要介绍数据可视化的基础知识、数据可视化图表和数据可视化工具。内容主要涵盖数据与数据可视化的基本概念、数据可视化的分类、数据可视化的过程(Ben Fry可视化流程、可视分析学的标准流程、数据可视化过程中的核心要素),以及数据可视化设计原则等内容。通过学习本章内容,读者可以深入了解数据可视化的基本原理和方法,掌握数据可视化的核心要素,为后续的数据分析和决策提供支持。

学习目标

本章的学习目标如下。

1.掌握数据与数据可视化的概念,了解数据可视化的分类。

2.掌握数据可视化的过程,了解数据可视化过程中的核心要素。

3.熟悉常用的数据可视化图表,了解数据可视化设计原则。

4.了解常用的数据可视化工具。

1.1 数据可视化的基础知识

1.1.1 数据与数据可视化

1.1.1.1 数据与数据可视化的基本概念

数据可视化的基础是数据,那什么是数据呢?

数据是对事物描述的记录,是事实或观察的结果,是对客观事物的逻辑归纳。例如,描述一个人的基本特征,可以通过姓名、性别、身高、年龄等方面的数据来记录;描述某一地理位置,可以通过所在城市、街道、门牌号或者经度和纬度来记录。数据可以帮助人们有效地描述事物。数据可以是连续的值,如声音、图像;也可以是离散的,如符号、文字。前者称为模拟数据,后者称为数字(离散)数据。数据的表现形式多种多样,如数字、文字、图形、图像、音频、视频等形式。对同一事物的描述记录也可以有不同的数据表现形式,表1-1描述了一部电影的票房情况。

表1-1 描述一部电影的票房情况

数字数据

首周票房突破1亿

文字数据

票房持续走高,观众反响热烈

图形数据

用折线图或者柱状图表示电影票房随时间变化的趋势

当前,数据可视化是一个极为活跃的话题,也是一个不断演变的概念。结合各专家、学者的理解,可以认为:数据可视化指的是利用图形、图像处理、计算机视觉和用户界面,通过表达、建模和对立体、表面、属性及动画的显示,对数据进行可视化解释。数据可视化的实质是借助图形等各种形式,清晰、有效地传达与沟通信息。例如,让花费数小时甚至更久才能归纳的数据,转化成一眼就能读懂的指标;对于加减乘除、各类公式权衡计算得到的两组数据的差异,使用不同颜色、长短、大小的图形可以立即形成鲜明对比。比较图1-1的4组数据集,观察它们之间的区别。用统计学方法看这些数据,它们具有一样的平均值、方差,似乎没有规律,但我们在可视化后的图中可以很容易看出这些数据的规律。

图1-1 4组二维数据点集可视化前后对比图

数据是大数据时代的核心生产力,挖掘并发现数据的价值对推动社会的智能化发展具有重要意义。数据可视化提供了丰富的数据呈现方式和便捷的数据分析途径,帮助我们从数据中提取知识,从知识中获取价值。

1.1.1.2 数据可视化的分类

数据可视化是一个跨学科的研究领域,目前有3个主要的研究方向,分别是科学可视化(Scientific Visualization, SciVis)、信息可视化(Information Visualization, InfoVis)与可视分析学(Visual Analytics, VAST)。

科学可视化利用计算机图形学将复杂的数据转化为视觉图像,帮助人们理解科学技术的概念或结果。科学可视化的目标是以图形方式说明科学数据,使人们能够从数据中观察、分析和发现规律。例如,在气象学中,科学家利用该技术来展示和分析复杂的气流模式;在生物学中,科学家通过该技术来呈现细胞结构和功能;在医学领域,该技术有助于医生更直观地理解病人的病灶和生理过程。科学可视化是数据可视化领域发展最早、最成熟的跨学科应用。一般来说,科学可视化处理的数据具有天然的几何结构,如磁力线、流体分布等,如图1-2所示。

图1-2 流体质点的运动可视化图

信息可视化是研究抽象数据的交互式视觉表示,以加强人类的认知。与科学可视化相比,信息可视化的数据更贴近人们的生活与工作,它包括地理信息可视化、金融交易数据可视化、社交网络数据可视化和文本数据可视化等。信息可视化的处理对象一般是非结构化、非几何的抽象数据。如地理信息不仅包含经纬度数据,还包含交通流量数据,导航地图就是地理信息可视化的很好的案例,如图1-3所示。

图1-3 导航地图

根据Thomas Cook在2005年给出的定义,可视分析学是一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术。可视分析学是一个综合性的学科,它融合了科学可视化、信息可视化、人机交互、认知科学、数据挖掘、信息论、决策理论等多个研究领域的理论和方法,旨在通过交互式可视化界面辅助用户进行数据分析、推理和决策。图1-4所示为影响人口性别比例的因素玫瑰图。

图1-4 影响人口性别比例的因素玫瑰图

科学可视化、信息可视化和可视分析学三者之间没有清晰的边界。科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等;信息可视化的研究重点主要是高维数据、数据间各种抽象关系、用户的敏捷交互和可视化有效性的评判等;可视分析学偏重从各类已知数据中推理出新知识,其实质是可视化地完成机器智能和人脑智能的双向转换,整个过程是迭代的、螺旋式上升的。

数据可视化不仅是一门科学,还是一门艺术,它需要在功能与美学形式之间达到一种平衡。太注重实现复杂的功能会令可视化结果枯燥乏味,太注重美学形式会将信息埋没在绚丽多彩的图形中,让人难以捕捉。因此,数据可视化是一个庞大的领域,它涉及的学科如图1-5所示。

图1-5 数据可视化涉及的学科

1.1.2 数据可视化的过程

数据可视化技术是将数据转换为易被用户感知和认知的可视化视图的重要手段,这个过程一般包括数据采集、数据清理、数据分析和可视化设计,以实现将抽象的原始数据转换为可视化图像。

在数据可视化历史上,诸多学者提出了自己对数据可视化过程的观点,本节主要介绍Ben Fry可视化流程、可视分析学的标准流程,以及数据可视化过程中的核心要素。

1.1.2.1 Ben Fry可视化流程

美国数据可视化专家Benjamin Fry撰写的Visualizing Data一书对数据可视化原理、方法、过程进行了详细介绍。Benjamin Fry将可视化流程分为数据获取、数据解析、数据过滤、数据挖掘、数据表示、完善表示、数据交互7个步骤。图1-6将其归纳为3个核心步骤:原始数据的转换、数据的视觉转换和界面交互。

图1-6 Ben Fry可视化流程

原始数据的转换包括数据获取、数据解析、数据过滤和数据挖掘。数据获取即数据采集。获取数据后,需要将其解析为一种合适的格式,以便对数据的每个部分进行标记,这就是数据解析。然后删除不符合要求的数据,留下有用数据,这就是数据过滤。接着对数据的属性进行交叉分析,分析部分属性之间的关系,从杂乱无章的数据中寻找规律,这就是数据挖掘。

数据的视觉转换包括数据表示和完善表示。数据表示是指根据数据维度和分析目标,确定合适的可视化编码形式(如形状、颜色、位置等)。它作为可视化设计的底层框架,直接影响最终图表的表达效果与信息传递效率。完善表示是对可视化设计的视觉优化,包括调整布局层次、色彩映射、字体系统、符号序列和背景对比度等元素,以突出数据重点,提升信息的可读性与认知效率。

界面交互是指数据可视化中的交互设计,为用户提供控制和探索数据的途径。例如,用户能够在一张图中对多个指标中的任一指标进行研究,隐藏其他指标。交互能够增加用户对数据的研究,让用户对数据认识得更加全面。

1.1.2.2 可视分析学的标准流程

可视分析学的基本流程通过人机交互,将自动数据挖掘和可视化方法深度集成。欧洲学者Daniel Keim等人提出的可视分析学的标准流程包括数据、可视化、模型和知识4个模块,如图1-7所示。在该流程中,起点是输入的数据,终点是提炼的知识。从数据到知识有两个途径,即可视化方法和自动数据挖掘方法。两个途径的中间结果分别是对数据的可视化结果和从数据中提炼的模型。用户既可以对可视化结果进行交互,也可以调节参数以修正模型。

数据模块是可视分析学标准流程的起点。这一模块主要关注数据的采集、预处理和转换。在数据采集阶段,研究人员会从各种来源获取所需的数据,并进行初步的清洗和整理。预处理阶段则包括消除数据中冗余、错误和无效的内容,以确保数据的准确性和一致性。此外,数据的转换也是数据模块的重要任务之一,它负责将数据转换为适合后续分析和可视化的格式。

图1-7 Daniel Keim等人提出的可视分析学的标准流程

可视化模块负责将数据以图形、图表或其他视觉形式展示出来,以便用户能够直观地理解和分析数据。在可视化模块中,研究人员会选择合适的可视化技术和工具,根据数据的特性和分析目标,设计相应的视图和界面。通过交互式的可视化界面,用户可以浏览和探索数据,发现其中的关联,从而更深入地理解数据的含义和内在规律。

模型模块基于数据分析方法和技术,构建能够反映数据特征和规律的模型。这些模型可以是统计模型、机器学习模型或其他类型的模型,它们能够帮助用户揭示数据的深层结构和关系。通过模型模块,用户可以对数据进行更深入的分析和预测,提取出有用的信息和知识。

知识模块是可视分析流程的最终目标,即通过前面的数据、可视化和模型模块的工作,提取出有价值的知识和见解。知识模块关注从数据中提炼出有用的信息,并将其转换为对人类有意义和可理解的形式。

1.1.2.3 数据可视化过程中的核心要素

从Ben Fry可视化流程和可视分析学的标准流程可以看出,数据可视化过程中的核心要素主要包括数据采集、数据处理与变换、数据的可视化呈现和用户交互。

数据采集是数据可视化的第一步,即根据需求采用适当的方法和利用工具获取所需要的数据。目前,数据采集一般指从传感器、智能设备、企业信息系统、社交网络和互联网平台获取数据的过程。

数据处理与变换主要指对数据进行预处理、清洗、整理和可能的转换。这包括处理缺失值、异常值,对数据进行必要的格式化,以及数据降维或特征提取,目的是将数据转化为一种结构清晰、易于理解且能够反映其内在规律和模式的形式,为后续的可视化呈现奠定基础。

数据的可视化呈现是指将数据以一种直观、容易理解和操作的方式呈现给用户。在这一步骤中,可以利用图形、图表、动画等视觉元素将数据以直观、易懂的方式展示出来。这涉及选择合适的可视化技术、图表类型,以及颜色、字体、标签等视觉元素的设计。可视化呈现的目的是帮助用户快速、准确地理解和分析数据,发现数据中的模式、趋势和异常值,从而提取有用的信息。

用户交互是数据可视化过程中的核心环节,是指用户通过与可视化系统之间的对话和互动来操作与理解数据的过程。在数据可视化过程中,用户不再是被动的接受者,而是可以通过交互手段与可视化结果进行互动的操作者。这种交互性使用户可以更深入地理解和分析数据,并根据需求调整可视化的结果。

1.2 数据可视化图表

数据可视化是以图形、图像和动画等方式直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等,便于人们更好地理解数据。常用的数据可视化图表有很多,这里选择几种有代表性的图表进行介绍。

1.2.1 常用的数据可视化图表

1.2.1.1 柱形图与条形图

柱形图/条形图(见图1-8、图1-9)是以高度/长度的差异来显示统计指标数值的一种图形。柱形图/条形图用于显示一段时间内的数据变化或显示各项之间的比较情况。柱形图的纵轴为可量化的变量,条形图的横轴为可量化的变量。这两类图表都能够比较清晰地区分个体数据的大小,一般用于分析个体间变量的差异情况,因此这两类图表常用于比较和排序。

图1-8 柱形图

图1-9 条形图

1.2.1.2 折线图

折线图(见图1-10)是用直线段将各数据点连接起来形成的图形。一般在折线图中,水平轴表示时间,垂直轴表示数值,常用于表现数据的变化趋势。在折线图中,横轴长度会影响展现的曲线趋势。若横轴过长,点与点之间分隔的间距会比较大,整个曲线的趋势会比较夸张;若横轴过短,可能展现不出数据的变化趋势。因此,合理地设置横轴的长度十分重要。

图1-10 折线图

1.2.1.3 散点图与气泡图

散点图是用一系列散点来描述数据,主要用于描述数据之间的关系。可使用不同颜色的数据点区分不同类别。散点图适用于三维数据集,且其中只有两维需要比较。

气泡图是散点图的一个变型。在气泡图中,3个维度均为可量化变量。气泡图将散点图的数据点变为气泡,通过气泡面积大小反映第三维度的变量值。气泡图在绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。如图1-11所示,气泡的大小表示各地日照时数的多少。

图1-11 气泡图

1.2.1.4 饼图与环形图

在饼图与环形图(见图1-12)中,每个扇形的弧度(以及圆心角和面积)大小可以反映该种类占总体的比例。饼图与环形图最显著的功能在于表现占比。使用时,须确认各个扇形的数据加起来等于100%;注意扇形的排列顺序,一般情况下,将最大的扇形放在12点钟方向,接下来按面积依次排列;最后,正确使用颜色,既要区分出需要强调的扇形,又不至于让人眼花缭乱。

图1-12 饼图与环形图

1.2.1.5 雷达图

雷达图用于显示数值相对于中心点的变化情况。雷达图适用于多维数据(四维以上),且每个维度都必须可以排序。不同维度上的数值单位可以不同,但需要按照相同比例进行分布。一般雷达图解读较为复杂,使用雷达图时建议添加文字说明,如图1-13所示。

图1-13 雷达图

1.2.1.6 词云图

词云图,也叫文字云。词云就是对文本中出现频率较高的关键词予以视觉上的突出,形成关键词云层或关键词渲染,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨,如图1-14所示。

图1-14 《西游记》中妖怪知名度的词云图

1.2.1.7 矩形树图

矩形树图也称为树图,是一个由不同大小的嵌套式矩形来显示树状结构数据的统计图。在矩形树图中,父子层级由矩形的嵌套表示。在同一层级中,所有矩形依次无间隙排列,它们的面积之和代表了整体的大小。一般来说,在布局上同级别的分类块,占比大的会偏向于左上角,如图1-15所示。

图1-15 某公司项目状态的矩形树图

1.2.1.8 南丁格尔玫瑰图

南丁格尔玫瑰图又名鸡冠花图、极坐标区域图,弗洛伦斯•南丁格尔创造了这种图表。如图1-16所示,尽管外形很像饼图,但是它用半径来反映数值(而饼图是以扇形的弧度来反映数据占比的)。南丁格尔玫瑰图通过扇形半径编码数值变量,但人类视觉皮层主要依据扇形面积进行规模比较。由于面积与半径呈二次方关系,南丁格尔玫瑰图会系统性放大数值差异。这种非线性映射导致量化精度丧失,故在需精确判断数值的场景中,南丁格尔玫瑰图不是一个好的选择。但当需要对比非常相近的数值时,南丁格尔玫瑰图是更好的选择。

图1-16 大学生听歌时的情绪分布

1.2.1.9 漏斗图

漏斗图形如漏斗,在开始和结束之间有N个流程环节。漏斗图的起始总是100%,并在各个环节依次减小,每个环节用一个梯形来表示,整体形如漏斗,如图1-17所示。一般来说,所有梯形的高度应是一致的,这有助于人们辨别数值间的差异。需要注意的是,漏斗图中的各个环节有逻辑上的顺序关系。同时,漏斗图的所有环节的流量都应该使用同一个度量。漏斗图最适合用来呈现业务流程的推进情况,如用户的转化情况、订单的处理情况、招聘的录用情况等。我们通过漏斗图,可以较直观地看出流程中各部分的占比、发现流程中的问题,进而做出决策。

图1-17 漏斗图

除上面介绍的常用的可视化图表以外,还有很多可视化图表,如水波图、指标卡、仪表盘等,如图1-18~图1-20所示。在使用的时候要根据实际情况进行选择,从需求和目标出发来设计图表的展示形式,有时候需要结合某两种或者某三种图,才能让人们在最短时间内了解到数据所带来的信息。

图1-18 水波图

图1-19 指标卡

图1-20 仪表盘

1.2.2 数据可视化设计原则

数据可视化的主要目的是向用户展示和传达数据所包含(隐藏)的信息。过于复杂的可视化可能会给用户带来理解上的麻烦,甚至可能引起用户对设计者意图的误解和对原始数据信息的误读;缺少交互控制的可视化可能会阻碍用户以直观的方式获得可视化所包含的信息;美学因素也能影响用户对可视化设计的喜好或厌恶。因此,了解并掌握数据可视化的设计原则十分重要。

1.2.2.1 直观映射原则

数据可视化的核心作用是使用户在最短的时间内获取数据的整体信息和大部分细节信息,因此设计者不仅要明确数据语义,还要了解用户的个性化特征。选择的可视化图表应该简洁并且易于理解,避免过多的装饰和复杂的元素,确保图表的核心信息一目了然;同时必须准确地反映数据,不要为了美观而牺牲准确性。

1.2.2.2 视图设计原则

在展示数据时,优先使用人们熟悉并认可的视图设计方式。此外,可视化系统还需能提供一系列的交互手段,使用户可以自由修改视图的呈现形式。

(1)颜色运用:选择合适的颜色可以区分不同的数据系列或类别。确保颜色对比鲜明,避免使用过于接近的颜色,以防止混淆。同时,注意颜色在不同文化中的含义和象征意义。

(2)标签和标题:为视图添加明确的标签和标题,以解释图表的内容和目的。这可以帮助用户快速理解图表的意义。

(3)比例和大小:图表的尺寸和元素之间的比例应该合理。避免过于拥挤或过于分散的图表,确保元素的间距适中。

(4)网格和轴线:使用网格和轴线可以帮助用户更准确地读取数据。要确保网格和轴线的刻度清晰、易于识别。

(5)视觉层次:颜色、大小和位置等不同的视觉元素可以区分图表中的不同信息。确保最重要的信息处于最突出的位置。

(6)一致性:在多个视图之间应保持一致的视觉风格和元素布局。

1.2.2.3 数据筛选原则

视图展示的信息要适度。若展示的信息过少可能会使用户无法理解信息,若展示的信息过多可能会使视图变得复杂并让用户难以捕捉重点。向用户提供对数据进行筛选的操作可以让用户自由筛选需要展示的数据。

1.2.2.4 美学原则

可视化设计者在实现基本功能后,就需要考虑其形式表达方面的改进了。优秀的可视化必然是功能与形式的完美结合,美学原则主要有以下3种。

(1)聚焦原则:设计者必须通过适当的技术手段将用户的注意力集中到可视化结果中最重要的区域。例如,设计者可以将可视化元素的重要性排序后,对重要元素通过突出的颜色进行展示,以提高用户对这些元素的关注度。

(2)平衡原则:为了有效利用可视化空间,可视化的主要元素应尽量放置在设计空间的中心位置或中心附近,同时确保元素在可视化空间中能平衡分布。

(3)简单原则:设计者尽量避免在可视化图表中添加过多的图形元素,尽量避免使用过于复杂的视觉效果。

遵循这些原则将有助于设计者创建出既美观、功能性又强的数据可视化图表,从而更有效地传达信息。

1.3 数据可视化工具

数据可视化主要是借助图形化手段,清晰、有效地传达信息。在数据可视化方面,如今有大量的工具可供选择,但哪一种工具最适合,这取决于数据可视化的目的。这里介绍几种常用的数据可视化工具。

1.3.1 Excel

Excel在图形用户界面、表格处理、数据分析、图表制作和网络信息共享等方面具有突出的特色。Excel不仅是完成数据记录、整理、分析的办公自动化软件,还是数据可视化的优秀工具。

1.3.1.1 强大的数据处理功能

Excel中,所有的数据、信息都是以二维表格形式(工作表)管理,数据之间的相互关系一目了然。对于日常工作中常用的表格处理操作,例如,增加行、删除列、合并单元格、表格转置等操作,在Excel中均只需简单地通过菜单或工具按钮即可完成。此外,Excel还提供了数据和公式的自动填充、表格格式的自动套用、自动更正、拼写检查、审核、排序和筛选等众多功能,可以帮助用户快速建立、编辑和管理各种表格,如图1-21所示。

除了能够方便地进行各种表格处理,Excel还具有一般电子表格软件所不具备的强大的数据处理和数据分析功能。它提供了与财务、日期与时间、数学与三角函数、统计、查找与引用、数据库、文本、逻辑和信息九大类相关的几百个内置函数,可以满足许多领域的数据处理与分析的要求。如果内置函数不能满足需要,还可以使用Excel内置的Visual Basic for Appication(也称作VBA)建立自定义函数。为了解决用户使用函数、编辑函数困难的问题,Excel列出了所有内置函数的名称、功能、每个参数的意义和使用方法。除了数据排序、筛选、查询、统计汇总等数据处理功能,Excel还提供了许多数据分析与辅助决策工具,如数据透视表、模拟运算表、假设检验、方差分析、移动平均、指数平滑、回归分析、规划求解、多方案管理分析等工具。用户不需要掌握很复杂的数学计算方法,不需要了解具体的求解细节,更不需要编写程序,而只需要选择适当的工具,即可完成复杂的求解过程,得到相应的分析结果和完整的求解报告。

图1-21 使用Excel制作的员工考勤时间表

1.3.1.2 丰富的可视化图表

图表是提交数据处理结果的最佳形式,可以直观地显示出数据的众多特征,如数据的最大值、最小值、发展变化趋势、集中程度和离散程度等。Excel具有便捷的图表处理功能,可以将工作表中的有关数据制作成专业的图表。Excel提供的图表类型有条形图、柱形图、折线图、散点图、股价图,以及多种复合图表等,且每一种图表类型还提供了多种不同的自动套用图表格式,用户可以根据需要选择最合适的图表来展现数据。如果所提供的标准图表类型不能满足需要,用户还可以自定义图表类型,并可以编辑图表的标题、数值、坐标和图例等各个元素,从而获得最佳的展示效果。Excel还能够自动建立数据与图表的联动,当数据增加或删除时,图表可以随数据变化而更新。

1.3.2 ECharts

ECharts是一个使用JavaScript开发的开源可视化库,它提供了直观、交互性强且高度可定制化的数据可视化图表。ECharts支持多种图表类型,包括折线图、柱状图、散点图、饼图、地图、热力图、雷达图、关系图、树图、仪表盘等,并且提供了丰富的配置项和API,使用户能够根据自己的需求定制图表的样式。

作为一个持续更新迭代的开源可视化库,ECharts不仅具有强大的数据可视化能力,不断引入新的图表类型和优化现有图表,而且具有良好的跨平台性和兼容性,可以在PC和移动设备上流畅运行,支持当前主流的浏览器(如 Chrome、Firefox、Safari、Edge 等),并且支持服务器端渲染(SSR)和 Node.js 环境下的图表生成。

除了基本的图表展示功能,ECharts还支持数据联动、动态数据加载、多图联动等高级功能,能够满足各种复杂的数据可视化需求。同时,ECharts的社区非常活跃,有许多开发者贡献代码和分享经验,这为用户提供了丰富的资源和支持。

总的来说,ECharts是一款功能强大、易于使用且高度可定制化的数据可视化库,适用于各种领域的数据分析和展示需求。无论是数据分析师、开发人员还是设计师,都可以通过ECharts轻松创建出专业且吸引人的数据可视化图表。

图1-22所示为Apache ECharts 5的新特性。

图1-22 Apache ECharts 5的新特性

1.3.3 AntV

AntV是蚂蚁集团旗下的企业级数据可视化解决方案,专为现代Web开发设计。它集合了多个子项目,如G2Plot(通用图表库)、G6(图可视化引擎)和L7(地理空间数据可视化),提供了从基础图表到复杂图形,再到地图的全面支持。

AntV允许用户通过自定义配置,打造符合需求的独特数据视图。其丰富的图表类型涵盖了折线图、柱状图、饼图、关系图等多种样式,适用于金融、物流、教育、医疗等多元场景。

AntV采用先进的渲染技术和优化策略,确保在大数据量下仍能维持正常的用户体验。同时,AntV能够兼容多种浏览器和移动设备,保障跨平台访问的一致性。

AntV与React、Vue等主流前端框架无缝融合,简化开发流程。无论是数据分析师还是前端开发者,都能轻松上手,将复杂数据转化为直观、易懂的图表,提升数据洞察力和决策效率。

图1-23所示为用AntV制作图表的示例。

图1-23 用AntV制作图表的示例

1.3.4 Tableau

Tableau是一款功能强大的数据可视化与分析工具,广泛应用于企业数据分析领域。以其简单易用、快速分析的特点受到广泛好评。Tableau支持多种数据源,能够轻松连接并整合各种数据。

Tableau的核心优势在于其强大的数据可视化能力,用户可以通过操作快速创建各种图表、地图和仪表板,将复杂的数据转化为直观、易懂的视觉信息。同时,Tableau还提供了丰富的交互功能,用户可以对图表进行筛选、排序、钻取等操作,深入挖掘数据背后的故事。

Tableau提供了多种版本以满足不同用户的需求,包括桌面端的Tableau Desktop、企业级的Tableau Server和云端的Tableau Online,此外还有Tableau Mobile、Tableau Reader和Tableau Public。

图1-24所示为用Tableau制作仪表板的示例。

图1-24 用Tableau制作仪表板的示例

1.3.5 DataEase

DataEase是一款由杭州飞致云信息科技有限公司开发的开源数据可视化分析工具,自2021年6月正式对外发布以来,因其简单易用、功能强大的特点受到了广泛关注。DataEase支持多种数据源连接,包括数据仓库、数据湖、OLAP数据库、OLTP数据库和Excel数据文件等,用户可以通过拖、拉、拽的方式快速制作图表,实现数据的可视化分析。

该平台集成了Apache Calcite等数据处理工具,能够以统一的SQL语法处理不同数据源,大大降低了数据处理的复杂度和难度。同时,DataEase还提供了丰富的图表类型和仪表板模板,用户可以根据需求选择合适的图表类型,并自定义排版,生成符合要求的数据报告。

此外,DataEase还支持数据联动功能,帮助用户更加全面地了解数据。当用户选定某个数据点时,其他图表中的相关数据会同步更新。该平台还注重数据安全,支持多种数据分享方式,确保数据在分享过程中的安全性。

DataEase适用于企业数据分析、业务优化等多个场景,能够帮助用户快速洞察数据价值,提升决策效率。

图1-25所示为用DataEase制作数据大屏的示例。

图1-25 用DataEase制作数据大屏的示例

相关图书

AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
计算流体力学大串讲轻松解锁CFD     从公式到代码的奇妙之旅
计算流体力学大串讲轻松解锁CFD 从公式到代码的奇妙之旅
计算机组成原理(基于x86-64架构)
计算机组成原理(基于x86-64架构)
内网攻防实战图谱:从红队视角构建安全对抗体系
内网攻防实战图谱:从红队视角构建安全对抗体系
Joy RL:强化学习实践教程
Joy RL:强化学习实践教程
肥胖密码:少吃多动,为何还不瘦
肥胖密码:少吃多动,为何还不瘦

相关文章

相关课程