数据分析七大能力:梳理数据需求

helloworld_86319425
• 阅读 588

大数据 数据分析 数据需求,就是业务部门对数据分析产出的需求。有小伙会说:这还有需求呀,我们公司都是一通电话:“歪!给我个XX数据,快!”就完事了,根本不存在啥需求。 大家好,我是爱学习的小xiong熊妹。

今天分享数据分析师必备的工作能力——需求梳理。需求梳理很不起眼,甚至很多小伙伴感受不到他的存在。但它结结实实影响到大家的下班时间和绩效。

一、什么是数据需求? 顾名思义,数据需求,就是业务部门对数据分析产出的需求。有小伙会说:这还有需求呀,我们公司都是一通电话:“歪!给我个XX数据,快!”就完事了,根本不存在啥需求。

确实有这种无脑公司。不过,这么无脑催数据的结果,就是返工。最常见的局面,就是你辛辛苦苦跑出来数,对面的一通质疑:“数据不对吧!”“为啥和我知道的不一样!”“你再给我个XX数据看看?”“加个字段吧!”然后苦逼的数据分析师,又得重新回去跑数,跑完了又得经历一轮Diss。

所以想早点下班,想不被甩锅,就得梳理清楚:到底业务想要的是什么?

二、怎样是清晰的需求? 一个清晰的需求,需要做到5w清晰。

Who:数据使用者 When:数据使用时间 Where:数据使用场合 Why:使用数据原因 What:具体数据格式 三、who:谁使用数据包括: 申请人:部门,姓名 审批人:领导签名、邮件回复 加上审批人,可以在一大堆需求塞车的时候,按领导等级高低排序给数。加上审批人邮件/书面签名,能有效避免每个人都说自己“很急!”“重要!”的尴尬局面。

四、when:什么时间使用 当然,大家都希望我这一刻提数据,下一秒马上有。但是干活总需要时间,而且需求多了总得排队,所以最好提一个普通/加急/特批的时间差异。比如普通需求提前3天,加急提前1天,特批的今天内优先做(当然,需要对应的老板书面批准)。

很多没骨气的数据部门领导,不敢搞分级管理。但这其实是害死自己。因为不分级管理,业务部门的需求就会像决堤的洪水。

一来,既然业务打个电话数据就拼命了,那业务还看BI干啥,那业务还看日报干啥!不看!我就打电话逼着你干。这样已上线的数据产品,使用率惨淡,回头还是被批:“做BI都没用!”

二来,自己每天007加班做需求单,照样做不完,照样被人喷“我就要个数,你还搞那么久!”照样有人因为需求塞车来吵架。

所以苟且偷生,最后就是死路一条。管得了期望时间,才好体现数据分析的业绩。

五、where:在什么场合使用 这里重点关注是:

部门内使用:自己闭门分析。 平级部门使用:几个部门开会用。 向上汇报使用:总裁办、总公司。 对外发布使用:公众、媒体、社会。 区分使用场合,主要为管理口径,避免口径混乱引发的争议。减少数据部门背锅。

如涉及不同部门汇报,则重点关注两个部门共同关心的指标。 如是对上汇报,则要核对是否和管理层看的固定报表是否有重叠。 如是对外汇报,则要核对之前公布的数据,避免自己打自己脸 很多公司数据背锅,其实就是没做好这一步。不主动问数据用在哪里,结果业务拿着数据乱捅一波,捅完了就说:“诶呀,我们又不懂,都是数据提供的你去问他”……数据自然百口莫辩,死无全尸……所以不要吝啬语言,问清楚!

六、why:为什么需要数据 这里和分析思路有关,重点区分:

要做监控、找原因、还是做预测? 如是监控,业务是否已上线?什么时候上? 监控数据是否涉及埋点、系统对接? 找原因,是否有假设?假设是什么? 做预测,是否有假设?假设是什么? 有些业务部门思路清晰,可以讲得很清楚,自然省事。有些部门不想说,或者稀里糊涂说不清,就得引导他们说清楚。

如果没有提前沟通好埋点/数据同步的问题,监控是没法按时上线的,更没法提供准确数据。相当多公司埋点管理混乱,就是因为数据、开发、业务相互不通气,信息不一致造成的。

如果没有提前说清楚假设,很有可能拿到的数据维度不够,指标不全,导致反反复复提数。或者业务部门看了数跟没看一样,照样不利于工作开展。

七、why:为什么需要数据 这里是具体的需求,要具体到:

取数对象:针对XX用户、商品、渠道、产品取数。 取数时间段:从X月X日-X月X日。 数据指标:取XXX指标。如是数据字典内标准指标,则直接引用名字。如是临时发明的,需说清楚指标的计算公式。 分类维度:按XXX维度区分数据。 思路清晰的业务部门,自然不用多说。碰到思路混乱的,可以这么引导。

你要分析的是人?货?还是场?(清晰取数对象)。 明确一个重点,比如人以后,开始加“的”。你要分析的是,人的XX情况(清晰指标)在XX时间段内的XX情况(清晰时间)。 加分类维度。你要不要做个对比?你想不想了解不同区域/时间的差异?你想不想看内部结构(清晰分类维度)。 这样三个问题引导完,就很清楚了。

责任编辑:武晓燕 来源: 码工小熊 数据分析 梳理数据 业务

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Easter79 Easter79
3年前
SpringBoot自定义序列化的使用方式
场景及需求:项目接入了SpringBoot开发,现在需求是服务端接口返回的字段如果为空,那么自动转为空字符串。例如:\    {        "id":1,        "name":null    },    {        "id":2,        "name":"x
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Stella981 Stella981
3年前
JS 对象数组Array 根据对象object key的值排序sort,很风骚哦
有个js对象数组varary\{id:1,name:"b"},{id:2,name:"b"}\需求是根据name或者id的值来排序,这里有个风骚的函数函数定义:function keysrt(key,desc) {  return function(a,b){    return desc ? ~~(ak
Stella981 Stella981
3年前
SpringBoot自定义序列化的使用方式
场景及需求:项目接入了SpringBoot开发,现在需求是服务端接口返回的字段如果为空,那么自动转为空字符串。例如:\    {        "id":1,        "name":null    },    {        "id":2,        "name":"x
Vitess全局唯一ID生成的实现方案 | 京东云技术团队
为了标识一段数据,通常我们会为其指定一个唯一id,比如利用MySQL数据库中的自增主键。但是当数据量非常大时,仅靠数据库的自增主键是远远不够的,并且对于分布式数据库只依赖MySQL的自增id无法满足全局唯一的需求。因此,产生了多种解决方案,如UUID,Sn
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这