来源:大数据DT
本文约2300字,建议阅读7分钟
本文为大家介绍考虑图表类型时,该遵循那些指导原则。
[ 导读 ] “我可以使用饼形图吗?”这里引用的提问是真实的,令人失望的是,总有人会因选择图表类型而惶恐不安,它体现了选择图表类型是多么的困难。
虽然有些规则你应该知道并且应当试着去遵守,但实际上,大多数规则只是惯例。当涉及选择你要制作什么样的图表时,结果应当证明方法的正确性。假如它清楚地传达了你想让看图者接受的观点,那就使用它。
下列图表中有正确和错误的选择吗?
很可能没有。我们可以创造一个背景,在其中,某个版本会比另一个版本更好,但是,如果我们的想法是突出显示这55%和21%这两个大的部分,那么,这两个版本的图表都足够有效。
在考虑图表类型时,请遵循这些指导原则。
01 选择图表类型的6大指导原则
1. 了解基本的分类
最简单的方法就是了解你的意图。你是否有以下打算?
进行比较
展示分布
显示比例
映射某物
显示一个非统计的概念
如果你知道答案,就已经缩小了选择范围。例如,若是你要显示一个比例,你知道折线图不起作用,但叠加区域图或堆积条形图可能起作用。
请了解每种任务最常见的图表类型,然后,用这种最常见的图表类型作为起点。你还可以尝试其他没有出现的类型。请记住,某些图表类型可以实现多种目的。例如,两个并排的叠加条形图可以进行比例比较。
2. 听你如何描述事物
找个人聊聊你手头的数据和你想要表达的想法。听一下你自己说的话,然后记下来——你可能说出一些最适合你手头数据的图表类型。
你也许对自己说:“单个的年份并不重要,重要的是这些年来的趋势。”你刚才建议用折线图来表示趋势,而不是用条形图来绘制每年的值。或者,你也许会说:“期望与绩效之间存在很大差距。”这可能会让你尝试一种可以真实展示巨大差距的形式,比如点图。
你会惊讶地发现,经常用一些词来描述自己的意图,而这些词会直接将你引向某个图表类型。
3. 依靠你最常使用的图表
无论是在生活中还是在图表制作中,我们都高估了自己的聪明才智。为了引起他人注意,我们有时会尝试不同寻常的图表形式,例如有强迫症导向的网络图或冲积图。尽管它们在你的工具箱里也占有一席之地,但不要逼着自己用它们。
大多数的数据可视化图表问题可以通过三种图表类型及其变体来处理:
折线图(叠加区域图、斜率图)
条形图(叠加条形图、点图)
散点图(气泡图、直方图)
如果你要选择非基本类型的图表,那就一定要给出很好的理由。如果不是这样,那就选择基本的图表类型。要明白,更专业、更不寻常的图表类型,需要看图者付出更多的努力。向他们解释一下图表是怎样发挥作用的,或者向他们展示一个简单的原型,可能会有帮助。
4. 别忘了表格
有时,集合中的所有个体数据点比趋势或构成趋势的因素更重要。在这种情况下,表格也许是最好的选择。表格还可能适用于非常小的数据集(比如两个类别中的三个数据点),而在这个时候,数据可视化并不会传递更多信息,而且会花费更多的时间。
从某种意义上说,表格也是可视化的:它们使用可预测的水平和垂直的空间比例,使数据更清楚。总而言之,表格仍然是个强大的工具。
5. 专业提示:使用一根轴线
我最喜欢的图表类型之一是不太常见的点图。它将标记放在一根轴线上(一个变体是气泡图,它将大小不同的气泡放在一根轴线上)。
点图通常可以代替条形图,效果很好。当你使用条形图的主要目的,是比较每个变量与其他变量在纵坐标上的值时,点图可能更容易实现这一点。
为什么?因为我们不需要扫描水平空间来找出两个条形之间的垂直差。试着在以下的条形图和点图中查看变量2和变量7之间的值的差异:
点图提供了直观的区别。你可以水平地或垂直地使用它,而且它只占用很小的空间,试试吧。
6. 还有一点要注意:优秀的作家也是伟大的读者
同样,优秀的图表制作者也是伟大的看图者。从别人的想象中寻找灵感,不论资源多寡,这都将提供无穷无尽的例子。订阅社交软件上的数据可视化主题;将《纽约时报》和《经济学人》的“图文细节博客”等网站加入书签;订阅时事通讯,比如最佳视觉故事(Best in Visual Storytelling)。
你喜欢什么就深度挖掘什么,不喜欢什么就不去追究。对你遇到的一些图表进行建设性的批评。画出其他可视化图表的替代版本。材料就摆在那里,去做吧。
选择正确的图表类型,比你想象的要容易。专注于提出你的想法,无论你选择哪种类型。如果它不管用,你可以尝试其他的,放轻松些。
下面的练习旨在培养挑选图表类型的技能。使用每个图表的提示,重点关注消除混乱和杂乱元素的方法。对于这些练习,你只考虑与选择图表类型相关的颜色、标签、标准惯例和其他有关事项即可。
02 热身练习&答案讨论
1. 将每个图表的意图与可能表示它的可视化形式相匹配。
- 答案
如下图所示。有关这里显示的每种图表类型以及其他类型的更多信息。
2. 在与某个同事讨论如何实现数据可视化时,你会说:“我感兴趣的是,在任何一个特定的时间点,这些组成部分是如何构成整体的。而且随着时间的推移,这些总量又是如何变化的。改变的比例很大程度上说明发生了什么。”
请勾画出以上描述的关键字,并选择可能显示所描述内容的两种图表类型。
- 答案
“我感兴趣的是,在任何一个特定的时间点,这些组成部分是如何构成整体的,而且随着时间的推移,这些总量又是如何变化的。改变的比例很大程度上说明发生了什么。”
图表类型1:叠加区域图。它结合比例来显示某个折线图的组成部分和随时间的变化。
图表类型2:叠加条形图系列。如果只有某些时间点是重要的,你可以将一系列的叠加条形图并排放置,以作为快照,而不是使用叠加区域图的连续时间轴。
3. 你有五分钟时间向董事会报告。要显示业务如何从一种收入组合转变到另一种收入组合,你可以使用两个叠加的条形图。但你在考虑使用冲积图,因为它在视觉上很吸引人,你想给董事留下深刻的印象。你应当使用冲积图吗?为什么?
- 答案
最好的答案是“视情况而定”。如果董事之前看过冲积图,知道会发生什么,这也许是个吸引人的选择。但如果他们没有见过冲积图,可能造成更多的混乱。
到最后,你会浪费宝贵的时间来解释冲积图如何适用(你只有5分钟),而实际上,你原本可以在叠加条形图中谈论你的创意——他们一定十分熟悉这种图表。
此外,与饼形图一样,冲积图里的变量越多,就越复杂,也就越难处理,因为截面流相互缠绕。所以,要谨慎选择这种图。
4. 斜率图连接两个点,形成一条线性趋势线,然后删除这两个点之间的所有数据。下面哪个折线图不太适合变成斜率图?为什么?
- 答案:A
斜率图非常简单,但是有可能掩盖了重要的变化和细节。在答案B的婚姻图中,数据几乎是线性的。简化B这个线形图,不会违背改变的精神。然而,对于答案A,斜率图会混淆最重要的变化。这是一个用斜率图来表现的石油价格图,从中可以清晰地看出,它是一个失败的斜率图的用例。
5. 一个朋友想让你帮助她实现数据可视化。她说:“我们正在研究人们赚多少钱和捐多少钱之间是否有某种相互关系。只要看一下数据,我就发现有几个人似乎把自己收入的更高比例捐给了慈善事业,但我不知道究竟他们的情况是异常值,还是有一群的异常值。”
勾画出你听到的与可视化有关的词,指出你可能会引导她使用哪种图表。
- 答案
“我们正在研究人们赚多少钱和捐多少钱之间是否有某种相互关系。只要看一下数据,我就发现有几个人似乎把自己收入的更高比例捐给了慈善事业,但我不知道究竟他们的情况是异常值,还是有一群的异常值。”
你可能想试一试散点图。你的朋友推荐了轴线:收入和捐赠。写下诸多的数据点,你就可以创建集群和异常值,如果这些离散的点总体向右移动,就会显示相关性—更高的收入等同于更高比例的捐赠。
另一种选择是点图,轴线代表捐赠和收入之间的比例:假如某人赚了10万美元,捐赠了1000美元,在轴线上将处在1%的位置;假如某个人赚了10万美元,捐了12000美元,在轴线上将处在12%的位置,依此类推。你仍然会看到集群和异常值,但假如要绘制的点太多,你就很难整理清楚集群的位置。
6. 在数据集之中的数百个条目中,每个条目都包含以下信息。
姓名
部门
地点
经理姓名
直接下属姓名
直接下属地点
间接下属姓名
间接下属地点
间接下属的经理
间接下属所属部门
从这些数据出发,你想创建一个可视化的管理结构。哪种图表类型适合你的目的?
- 答案
网络图在这里可能很好用。网络图通常需要特殊的软件和一些额外的配置和设计,以免它们成为节点和联系的“老鼠窝”,一片杂乱。但如果做得好,网络图有助于对复杂的网络进行排序、查看集群和理解复杂之处。
在这个例子中,在节点上使用颜色来表示部门,并使用空间分隔部门,将有助于突出显示哪些部门是高度互连的,哪些部门更加孤立。它可能暴露组织中的“竖井”。
7. 在向风投公司进行宣传的过程中,你想展示自己所提到的市场上产品与客户之间的“巨大鸿沟”,并说道,你的解决方案是连接客户和产品的“桥梁”。下面哪个草图可能是将你的价值主张可视化的一个良好开端?
- 答案:B
概念图展示了它们自身的挑战和陷阱。
如果没有数据来控制可视化图表的边界,我们往往创造性地用隐喻来表达想法——通常是太过富有创造性了。这正是答案C的情况,它是一种过度设计的方法,使用的隐喻太多了。我们想要传递的观点将被藏在隐喻和详细的装饰之中。这可能看起来很傻,但却非常普遍。
我之所以没有选择答案A,是因为它混淆了隐喻。我们想要传达“桥梁”或“联系因子”的概念,而韦恩图(Venn diagram)传递的是重叠或共性—这几乎是不一样的东西。
答案B显然是最有希望的开始:它显示了两个领域之间的“联系因子”。
8. 一个简单的数据集显示了去年和今年每位员工在总部和两个分公司办公室开会的平均时间。你该如何展示这个数据集?
- 答案
尝试使用表格。由于只有6个数据点,而且不需要真正关注或比较数据集的任何特定方面,所以表格是最快和最清晰的方法。它可能是这样的:
9. 你想从速度和力量两个维度来给橄榄球运动员分类,每一名运动员都会得到每个维度的分数。什么样的图表类型可以很好地反映运动员之间的比较?
- 答案
这是运用2×2矩阵的好机会。关键是要对运动员进行分类和映射。2×2矩阵跨越两个轴来形成一些区域,这种图表专为分类而设计。接下来,这些点可以映射到类别上。在绘制运动员的分类之前,2×2矩阵看起来可能像是这样的:
10. 你想要传递这样的信息:你的工厂中发生工伤事故是多么罕见—在过去的一年里,1000名员工中只有4人受伤。什么样的可视化图表能够强有力地传递这样的信息呢?
- 答案
这里一个不错的选择可能是单位图。单位图使用标记(通常是点)来表示实际单位的数量。例如,一个点可能等于1000美元,或者100万个小部件,或者1个死者。这样做的好处是,它可以帮助看图者与实体建立更强的联系。单位不表示统计量,而是事物本身。
当统计数据无法很好地表达观点时,单位图十分有益。例如,在这种情况下,1000人中有4人受伤,比率是0.4%。这是一个很难用除了单位图以外的其他可视化图表来表述的值。现在,在这个单位图中,我们不仅对0.4%的数据有了一个大致的了解,还看到了员工受伤的情况,更重要的是,有多少员工没有受伤。
关于作者:
斯科特·贝里纳托(Scott Berinato),《哈佛商业评论》高级编辑和、数据分析师、视觉化专家,同时也是一位获奖作家、编辑和内容架构师。他自称为“可视化极客”,喜欢利用可视化的方法解决各类沟通问题。在《哈佛商业评论》任职时,他曾倡导使用视觉传达和讲故事的方法,成功推出了可视化语言。
本文摘编自《用图表说话:职场人士必备的高效表达工具》,经出版方授权发布。
编辑:于腾凯
校对:洪舒越