世界正在信息化,数据越来越多,基于数据开发的产品也越来越多,越来越多!
一般数据产品,都包括如下典型流程:
1.数据获取
2.数据转换
3.数据应用
数据产品经理的工作,如果按上面的数据流程来看,主要包括三种类型的工作,不同的数据PM工作偏向不同(以下分类也不是严格划分的) 。
一.数据获取、清洗
要做数据产品,首先要有数据,数据来源,大概有2种方式:别人给、自己找 。
别人给,当然好,但是要么得掏钱,要么会有使用限制 。别人给的数据,数据质量也可能会是问题,乱码、缺字段是常有的事 。
自己找,会比较麻烦,自己的系统,可以加码、埋点,地图的产品,会需要定期更新地图 。数据不受自己掌控的话,看看能不能通过爬虫抓取(爬虫帮你圆大数据的梦),有很多基于爬虫的数据分析产品,用户分析、舆情分析、物价分析、量化投资等 。
在数据获取和清洗环节,数据PM需要:
1.会将业务需求进行解读 。
最终转化成不同的数据需求,数据PM首先要确定这些数据如何获取,确定最终的方案 。
2.特别注意数据质量和数据稳定性 。
上游数据质量就差的话,下游的每个环节都要浪费很多时间来处理 。数据质量可以靠校验、对比,数据稳定性可以靠监控 。数据的上游,需要勇于怀疑数据的质量,这是最容易出问题的环节,在这里,各种抽样、枚举、对比、假设,各种SQL、ES、Hive查询,善于对数据做各种图表分析 。要比用户更早的发现问题,比工程师更快的排查问题原因 。
3.评估数据的成本和收益 。
数据是有成本的,量越大,质量越高,成本越高 。所以,要合理的设计数据获取的策略:
走接口、FTP、还是硬盘邮寄;
数据多久更新一次,是否去重,如何去重;
热数据怎么存,存多久,冷数据怎么存;
虽然说数据越全,数据质量越高越好,但是一分钱一分货,最终的数据获取和清洗方案,需要综合考虑成本、收益、开发难度、开发排期(似乎每个产品都这样,不止是数据产品@@) 。
经常需要谈数据合作,找数据找破头;
经常需要看API文档,接口查字段;
经常需要和人撕,别人的东西总是容易出问题的 。
二.数据转换、数据服务
基础数据已经有了,开始要大干一场了,数据转换的环节,高端的说法,是ETL,我简单的理解为:拿到基础数据后,会根据不同的业务需求再做数据清洗,然后将数据导入各个数据转换或计算模型,并对更下游的应用提供数据服务 。
这里的模型,不一定是用户画像、推荐这些,也可以是基础的筛选、排序、匹配、简单的逻辑计算 。
推荐阅读
- 公认最好的cpc平台介绍 cpc平台哪个平台好
- 生活大爆炸第四季剧情 讲的是什么故事
- 现代德国海陆空军事实力强吗 德国现在的军事实力如何
- 夏宇的名言
- 历史上客家人的来源与分布地区 为什么要叫客家人
- 刚烈女子尤三姐拔剑自刎的原因 红楼梦尤三姐为什么要自刎
- 天上九头鸟 ,地上湖北佬 为什么都说湖北人超级聪明的
- 瓷砖挑选的基本方法 瓷砖挑选的方法
- 爱因斯坦年幼时很笨吗 爱因斯坦小时候不聪明的故事
- 巴拉圭一夫多妻制由来与现状 巴拉圭一夫多妻制是真的吗