首页 > 转:[大数据竞赛]夺冠感言:走进业务,提升对世界的认知能力

转:[大数据竞赛]夺冠感言:走进业务,提升对世界的认知能力

http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.KWGWap

一、同为推荐,大不同!
     不知道同学们是否经常在天猫购物,但是相信大家一定听过音乐,看过电影,读过新闻和小说。大家在享受各种娱乐信息的时候,正在被网站的后台悄悄地记录着你的信息,分析着你的偏好,然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知,但是你会慢慢上瘾,喜欢上它,比如爱上虾米。这其实都是推荐算法的功劳。现在,你们也有机会用自己的算法让大家爱上购物。但是,音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的,要去思考的。
     不都是推荐么?有什么不同的呢?其实,还是有很多不同点的,我觉得没有一个人能把所有的不同点罗列清楚,暂且和大家分享一下我想到的一些点,没有什么逻辑,主要是抛砖引玉,希望大家能跟帖谈谈你们认为的不同点。
     1、代价不同。你推荐给我一首歌,不好听,大不了换一首,不好听,再换,最后总能找到自己喜欢的歌。可是购物呢,你推荐我一个服装品牌,我花了半个月的伙食费买了,等待了几天,到货后发现不满意,怎么办?扔掉?太可惜了!穿在身上?天天别扭!退掉?还要再花点邮费!不管结局怎们样,总之不爽。如果是买个家居什么的,不喜欢的话,可能后悔一辈子。所以购物的用户体验周期要远长于音乐、影视推荐。推荐的试错成本很大。
     2、需求的单一性与喜好的相似性。喜欢看动作片,那么相似的动作片我都能看一遍。但是购物就不同了,购物更多的是刚需,喜欢可爱的衣服,一般人也不会把所有喜欢的可爱的衣服都买下来,更多的是每个季节只买一件。家居类的频次就低了,可能一辈子就买一次。不同的类目的需求频率是不一样的。
     还有很多不同的点,这里不再赘述。找不同有什么用?当然是算法选择了,通过上面的2个不同的点,你还会用协同过滤么?
 
二、活用数据,不要被数据绑架!
     大家一谈到大数据就兴奋,数据就是资产,数据就是财富。
     其实,大就是少,越是真实的业务数据,数据量就越大,可用的信息比例就越少,更多的是噪音数据。
     玩大数据和玩实验室数据有啥不同?夸张点,就是大海捞针和试管捉鱼的不同!如果没有找到适合的信号探测方法,很难找到那根你要的针。
     如果你拟合了噪音数据,那就被数据绑架了,所以不要只看数据,更多地从思考一下业务。
     相关与因果
     最近有本书很火,里面提到一个论点,大概意思是:大数据更重视相关,不关心因果。大家不要迷信这些话。我举几个例子:1)你如果看数据,手机和手机配件的相关性一定很大,如果一个人买了手机,你推荐手机配件是合理的,但是如果一个人买了手机配件,你去推荐手机就有点弱智了。2)孕妇装和奶粉的相关性也许很大,但是买了奶粉的人,推孕妇装就不合适了。所以买了又买的又字不是同时的意思,是条件的意思。
     人的消费行为是有规律的,比如:随着收入的增加会越来越重视品牌,在人生的不同阶段会买不同类目的商品等等;人的消费有心理学现象的,比如:从众购买,容易受限时秒杀等活动影响等。
     信号与噪声
     信息就像能量一样,总会衰减,最终退化成毫无意义的噪声。我昨天点击了某个品牌,说明可能想买,但是如果是上个月点击的,和现在会不会买基本上没有多大关系了。
     对品牌A点击了1次,对品牌B点击了10次,是更喜欢品牌B,还是犹豫不决?需要通过数据去分析,要结合其它指标对判定。
     点击了某个品牌是想买,还是过来看看卖家是否发货?或者没到货前,再品味一下?
     所以,真实的业务数据处处都是噪声。
     活用数据,设计有业务含义的特征体系,是构造鲁棒模型的基础!

自我介绍:
算者:ADD大赛内部赛冠军拓扑队队长。阿里巴巴商务智能部数据分析专家。曾就职于中科院自动化所复杂系统与智能科学实验室、光大银行总行、百度;
冠军队其它成员:
楚蛮:学习于中科院计算所感知课题组,曾就职于雅虎北京研究院,百度等公司,现在在阿里巴巴聚划算数据挖掘岗位;
小法:曾就职神州数码、百度、现就职于阿里妈妈事业部,从事项目工程相关工作,平时喜欢打球、dota。

 

转载于:https://www.cnblogs.com/DjangoBlog/p/3640037.html

更多相关:

  • 本文是西门子开放式TCP通信的第2篇,上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写,可以点击下方链接阅读:【公众号dotNet工控上位机:thinger_swj】基于Socket访问西门子PLC系列教程(一)在完成上述步骤后,接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示:从上图可以看出...

  • 我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧分成几个其他区域,以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序,以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...

  • 作为一名IT从业者,我来回答一下这个问题。首先,对于具有Java编程基础的人来说,学习Python的初期并不会遇到太大的障碍,但是要结合自己的发展规划来制定学习规划,尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言,相比于Java语言来说,当前Python语言在大数据、人工智能领域的应用更为广泛一些,而且大...

  • 这段时间通过学习相关的知识,最大的变化就是看待事物更加喜欢去了解事物后面的本质,碰到问题后解决问题思路也发生了改变。举个具体的例子,我在学习数据分析,将来会考虑从事这方面的工作,需要掌握的相关专业知识这个问题暂且按下不表,那哪些具体的问题是我需要了解的呢,以下简单罗列:1、了解数据分析师这个岗位在各个地区的需求情况?2、数据分析师的薪...

  • 这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。今天,我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...

  • 包的命名规范:   a.包名有小写字母组成,不能以圆点开头或结尾   b.包名前面最后加上唯一的前缀,通常使用组织倒置的网络域名   c.包名后部分依不同机构内部的规范不同而不同 转载于:https://www.cnblogs.com/yiui/p/6884342.html...

  • 参考 : IAR的Workspace顶部下拉菜单中Debug和Release http://blog.csdn.net/yanpingsz/article/details/5588525   +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 最近买了z...