为了清晰有效地传达信息,数据可视化使用统计图表,图表,信息图表和其他工具。可以使用点,线或条来编码数字数据,以在视觉上传达定量消息。有效的可视化有助于用户分析和推理数据和证据。它使复杂数据更易于访问,易于理解和使用。用户可能具有特定的分析任务,例如进行比较或理解因果关系,图表的设计原则(即显示比较或显示因果关系)遵循任务。表通常用于用户查找特定测量值的表,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。
数据可视化既是一门艺术,也是一门科学。它被一些人视为描述性统计的一个分支,但也被其他人视为一种扎根的理论发展工具。互联网活动和环境中传感器数量不断增加的数据量增加被称为“ 大数据 ”或物联网。处理,分析和传递这些数据是数据可视化的道德和分析挑战。数据的科学和实践者称为数据科学家帮助解决这一难题。
数据可视化是指用于通过将数据或信息编码为包含在图表中的视觉对象(例如,点,线或条)来传达数据或信息的技术。目标是清晰有效地向用户传达信息。它是数据分析或数据科学的步骤之一。根据Friedman(2008)的说法,“数据可视化的主要目标是通过图表方式清晰有效地传达信息。这并不意味着数据可视化需要看起来很无聊或者非常复杂才能看起来很漂亮。有效地传达想法美学形式和功能都需要齐头并进,通过以更直观的方式传达其关键方面,提供对相当稀疏和复杂数据集的洞察。然而设计师往往无法在形式和功能之间取得平衡,创造华丽无法满足其主要目的的数据可视化 - 传达信息“。
数据可视化与信息图表,信息可视化,科学可视化,探索性数据分析和统计图表密切相关。在新时代中,数据可视化已成为研究,教学和发展的活跃领域。
可视化图表显示应该具备以下几种特征:
显示数据
诱导观众思考物质,而不是方法论,平面设计,图表制作技术或其他东西
避免扭曲数据所说的内容
在很小的空间里呈现出许多数字
使大数据集连贯
鼓励眼睛比较不同的数据
从广泛的概述到精细的结构,从几个细节层面揭示数据
服务于一个相当明确的目的:描述,探索,制表或装饰
与数据集的统计和口头描述紧密结合。
图表显示数据。事实上,与传统的统计计算相比,图表可以更精确和更具启发性。
数据可视化用于帮助传达消息的相关图表:
时间序列:在一段时间内捕获单个变量,例如10年期间的失业率。折线图可以用于表明的趋势。
排名:分类细分按升序或降序排列,例如销售人员(类别,每个销售人员为分类细分)在单个期间内的销售业绩(度量)排名。一个柱状图可以用来显示整个销售人员的比较。
部分到整体:分类细分是以整体的比例来衡量的(即100%中的百分比)。饼图或条形图可以显示比率,如通过在市场上的竞争对手表示的市场份额的比较。
偏差:将分类细分与参考进行比较,例如在给定时间段内企业的多个部门的实际费用与预算费用的比较。条形图可以显示实际与参考量的比较。
频率分布:显示给定时间间隔内特定变量的观测数量,例如股票市场回报在0-10%,11-20%等区间之间的年数。直方图,类型条形图,可用于此分析。一箱线图有助于可视化有关的分布主要统计数据,如中位数,四分位数,离群等。
相关性:由两个变量(X,Y)表示的观察值之间的比较,以确定它们是否倾向于在相同或相反的方向上移动。例如,绘制几个月样本的失业率(X)和通货膨胀率(Y)。散点图通常用于此消息。
标称比较:比较不按特定顺序的分类细分,例如按产品代码的销售量。条形图可用于此比较。
地理或地理空间:地图或布局中变量的比较,例如各州的失业率或建筑物各层的人数。示意地图是使用的典型图表。
审核一组数据的分析师可能会考虑上面的部分或全部消息和图表类型是否适用于他们的任务和受众。在数据中识别有意义的关系和消息的反复试验过程是探索性数据分析的一部分。
人们可以容易地区分线条长度,形状,方向和颜色(色调)的差异而无需大量的处理工作; 这些被称为“ 预注意属性 ”。例如,可能需要大量的时间和精力(“专心处理”)来识别数字“5”出现在一系列数字中的次数; 但如果该数字的大小,方向或颜色不同,则可通过预先注意处理快速记录数字的实例。
有效的图形利用了预先处理的处理和属性以及这些属性的相对强度。例如,由于人们可以更容易地处理线长度的差异而不是表面积,因此使用条形图(利用线长度来显示比较)而不是饼图(使用表面区域来显示比较)可能更有效)。
人们感知/认知和数据可视化
几乎所有数据可视化都是为人们消费而创建的。在设计直观的可视化时,必须了解人们感知和认知。认知是指人们的过程,如感知,注意力,学习,记忆,思想,概念形成,阅读和解决问题。人们视觉处理可有效地检测变化并在数量,大小,形状和亮度变化之间进行比较。当符号数据的属性映射到视觉属性时,人们可以有效地浏览大量数据。据估计,2/3的大脑神经元可以参与视觉处理。适当的可视化提供了一种不同的方法来显示潜在的连接,关系等,这在非可视化的定量数据中并不明显。可视化可以成为数据探索的手段。
数据可视化的历史
数据可视化没有全面的“历史”。没有任何帐户涵盖视觉思维的整个发展和数据的可视化表示,并且整理了不同学科的贡献。约克大学的 Michael Friendly和Daniel J Denis 参与了一个试图提供全面可视化历史的项目。与普遍看法相反,数据可视化不是现代发展。自更新世时代以来,洞穴壁(例如法国南部拉斯科洞穴中发现的那些)可以看到恒星数据或恒星位置等信息。物理人工制品,如美索不达米亚粘土代币(公元前5500年),印加普里普斯(公元前2600年)和马绍尔群岛棒图(nd)也可视为可视化定量信息。
第一次记录的数据可视化可以追溯到公元前1160年与都灵纸莎草图,它准确地说明了地质资源的分布,并提供了有关这些资源的采石信息。此类地图可归类为主题制图,主题制图是一种数据可视化,通过设计用于显示与特定地理区域相关的特定主题的地理插图来呈现和传达特定数据和信息。最早记录的数据可视化形式是来自不同文化和表意文字的各种专题地图以及提供并允许对所示信息进行解释的象形文字。例如,Mycenae的线性B片剂提供了关于地中海晚青铜时代贸易信息的可视化。古埃及测量员使用坐标的概念来布置城镇,地球和天堂的位置至少在公元前200年左右位于纬度和经度的位置,并且由Claudius Ptolemy将球形地球投影到纬度和经度[ C.85-C。165]亚历山大里亚将作为参考标准,直到14世纪。纸和羊皮纸的发明允许在整个历史中进一步发展可视化。
到了16世纪,用于精确观察和测量物理量,地理和天体位置的技术和仪器得到了很好的发展(例如,由第谷布拉赫 [1546-1601] 建造的“墙象限” ,覆盖了整个墙壁。他的天文台)。特别重要的是三角测量的发展和准确确定测绘位置的其他方法。
法国哲学家和数学家RenéDescartes和Pierre de Fermat开发了解析几何和二维坐标系统,这极大地影响了显示和计算数值的实用方法。费马和布莱斯帕斯卡在统计学和概率论方面的工作为我们现在将其概念化为数据奠定了基础。[18]根据交互设计基金会的说法,这些发展允许并帮助威廉· 普莱菲尔(William Playfair)生成和开发统计数据的图形化方法,后者看到了定量数据图形交流的潜力。
Playfair TimeSeries,在20世纪下半叶,Jacques Bertin使用定量图来“直观,清晰,准确,高效地”表示信息。
John Tukey和Edward Tufte推动了数据可视化的界限; Tukey用他的新的探索性数据分析统计方法和Tufte的书“定量信息的视觉显示”为统计学家提供了更多数据可视化技术的方法。随着技术的发展,数据可视化的进展; 从手绘可视化开始,演变为更多技术应用 - 包括导致软件可视化的交互式设计。