发布:admin2025-11-13 10:56:55 1430条浏览分类:世界杯直播网
3. 两种格式的不同使用场景宽格式并非一无是处,只不过它出现在了错误的地方。 宽格式数据在没有进一步加工的情况下,非常便于人们的理解, 比如在我们的第一个截图当中, 我们可以通过从向右阅读清晰的获取每个月的销售额信息, 而且可以非常轻松的比较A, B这两家店在同一个月的销售额。 假设我们在十二月的最后加上一列总计Total的话, 那这就是我们日常最常见到的年度报表。
而我们再回到长数据格式, 你几乎很难看出来店铺A这一年的销售额数据是怎么变化的,因为每个月店铺B也会产生一行数据。 假设你不单单只有A,B这两家店的话, 那么数据就会更加混乱。 但是反过来,假设我要寻找店铺A在2024-02-01的数据, 我可以非常容易的过滤数据, 让[store] = A, [date]= 20240-02-01 就可以了。总结下来, 宽数据适合人类阅读, 长数据适合数据的保存和提取
4. 长宽数据格式的转换以及Tableau的意义这两种格式的转化可以说是一个巨大的课题, 每一种数据库,数据处理工具在这种数据格式转化上可谓都是花尽了心思。各种函数,方法应运而生。而Tableau的一大贡献之一就是让这种转换变得无比简单和丝滑。不管是Excel的pivot table,还是python里的pivot_tables等等等等都无法和Tableau的拖拽想比较。无数的Tableau项目有时候的终极目的就是能够将数据库中这种人类不好理解的,但是方便机器存储的长数据格式,转化成我们易于理解的宽数据格式, 只是单纯的做成你所看到的这种宽表格就是巨大的进步。
5.解读长数据 Dimension + Fact的模式在前边我们介绍完这两种数据格式之后, 接下来我们专注讲解长数据格式。 长数据是你所接触到的绝大多数数据源的格式,因此它本身就值得我们好好研究一下。这时候回到我们的Tableau, 打开Sample Super Store这个数据源, 我们就只看Orders订单这一个表. 在下边的这个动图当中,我从左到右把所有的列都过了一遍。
如果我用最简单的话来描述这个表格的特点就是所有带字母的列都出现在左侧,而包含各种数的列基本都在右侧。带字的这些列,他们上边的图标基本都是蓝色的,而带数的这些列,他们上边的那个图标好像都是绿色的。 这个观察的结果就代表了我们平常所能看到的数据源的绝大多数模式Dimension + Fact