每日签到 VIP会员注册 注册 登录

吴晓子    

  • 产品汪
  • |
  • 新浪网
  • |
  • 5
  • 已学  
  • |
  • 已学课程  
  • |
  • 评论/笔记  6000

全部文章> 案例分析> 《不懂大数据你就OUT了》

不懂大数据你就OUT了

案例分析 朱妹 2015.07.16   8

在一家超市中,人们发现了一个特别有趣的现象:

尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?


什么是大数据?


维基百科:

大数据或称巨量数据、海量数据。指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

简单来说:

大数据是指使用当前工具无法在可承受时间内进行处理的数据集,相当于储存能量、计算能力。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。


大数据从哪里来?


无处不在,例如微博发言、朋友圈一张照片、逛淘宝逛京东、一个视频网站等等。


大数据“4V1O”的特征


1v:Volume,数据量大,包括采集、储存、计算,计算单位至少是100TB

2v:Variety,数据种类和来源多样化,具体表现来源于网络日志、视频、音频、图片、地理位置信息等

3v:Value,数据价值密度低,信息感知无处不在,强大的算法来挖掘价值

4v:Velocity,数据速度时效高,区别于传统数据的速度

5o:Online,数据在线,是随时能调用和计算的,不仅仅是大,还要求在线,在线商业价值大。


大数据和云计算、智慧应用之间的区别


1、概念上不同,云计算改变了IT,大数据改变了业务

2、目标受众不同:云计算是技术层,大数据是业务层。

大数据和智慧应用的区别:

智慧应用包括:智慧医疗、智慧交通、智慧城市,其实就是分析和利用大数据服务于社会

就是利用从生活中收集回来的大数据来应用于只能领域进而服务社会。


大数据在“京东”中的运用



京东慧眼:京东基于大数据平台打造的C2B只能决策系统。其中包括市场分析、用户分析、属性分析、消费趋势分析

市场分析:知道哪些地区卖哪些产品

用户分析:哪些商品卖给哪些人

商品属性分析:确定怎样描述一个商品,人们才爱买,找出客户最关注的产品特征,重点描述,让客户感觉这就是他们想要的商品

用户消费趋势分析:能够提前了解用户的消费需求,知道他们要买什么会买什么,哪些人会买,什么时候买,这样方便他们调整仓库存货。


今天,你抑郁了么?大数据在抑郁症中的运用


哈工大“社会网络锁与数据挖掘”联合实验室与国内社交媒体数据挖掘公司“宏博知微”共同展开了一项研究——“如何利用社交媒体数据挖掘识别抑郁倾向人群”。哈工大博士于霄告诉记者,他是在微博上即为抑郁症患者自杀事件后开始关注这一群体的,这一群体的微博内容非常触目惊心,负面情绪非常明显。如果可以根据数据识别这一群体,让其亲友能早点干预,也许可以避免悲剧的发生。

那么如何识别抑郁症群体呢,于霄和同事首先挑选新浪微博用户中被确认为患有抑郁症的患者作为样本,通过计算机强大的计算分析能力,分析样本数据,从这些数据获取出规律后,构建预测模型,有了预测模型,计算机就可以扫描新浪微博上的过亿用户了。计算机算法或包括自然与人处理、时间序列、机器学习等。

比如失眠在抑郁症患者中比例非常高,因此会成为语言处理的关键词,机器还会对关键词出现的频率和时间段打分。计算机最终统计的数据比研究人员想象中的更为丰富。存在抑郁倾向的微博用户与普通用户发微博时间有明显差异,这部分人群发微博高峰在23点,其夜间活跃度比普通用户平均高出30%,该群体微博关键词为死、抑郁症、生命、痛苦、自杀,有60%为女性,40%为男性,女性比例比男性比例略高。抑郁症倾向人群还有群落聚集趋势,他们会同时关注同类人群,听起来更恐怖的是,有的已经习惯到每天到已经自杀的用户微博上评论,今天你还好么?


图片1.png

抑郁症患者相互添加好友并鼓励自杀

图片3.png

群聚呼唤


截止到目前,实验室从识别的抑郁症倾向的用户中赋予人工判定,最后确定了约200名抑郁症患者,研究者发现,有多人在微博中称准备自杀,其研究结果经医学机构确认,准确度可达83%,相关研究人是表示,这项研究结果或称为抑郁症临床诊断之外的新型诊断方法。

研究人员将数据提供给北京、上海的一些精神病医院,得到了不少专家的认可。一些主治医生认为,利用大数据来识别抑郁症患者,有一定的参考价值,一定程度上反应了用户的情绪,可以作为对这个群体初筛的一种方式,但是就此给这些微博用户贴上“抑郁症”的标签还是不行的,因为每个人都会有情感宣泄的时候,如何甄别这些人还是要经过医生的面谈,或者做一些专业测试,比如让这些人填写调查问卷,通过大数据溥仪算法和模型,可以作为抑郁症患者的初步筛选,再配合专业医生的诊断,家人和朋友的共同努力,可以帮助很多人摆脱抑郁的阴影。

研究人员还声称,除了研究抑郁症外,精神类疾病、危害社会行为、有暴力倾向人群,也是实验室数据研究的方向。研究抑郁倾向的人群,对有自杀想法的人提前干预,这是在挽救生命;同时,对有暴力倾人群的提前预警,更是挽救更多人的生命。设想一下,如果某人在微博上推崇暴力,搜集管制刀具,发泄对社会的不满,并且提及身边的一些幼儿园,根据这个人的手机定位信息,这个人某天行为异常,多次在某幼儿园外徘徊,是不是我们的计算机系统会发出预警,负责安全的部门是不是可以加强学校或幼儿园的警卫呢?

但是任何事情都是有两面性的,大数据的隐私权一直就是敏感话题。即使是抑郁症患者也不愿自己被贴上抑郁症的标签,当用户看到自己的人际交往等通过数据挖掘被整理罗列出来,肯定会惊讶不已。实验团队任务,搜集的是微博上的数据,并非私人聊天记录,用户被倾权的感觉会小很多。当然这也还是需要整个社会对大数据挖掘的理解,研究机构也不应该将识别出的抑郁症用户数据对外公布。他们希望的是,这些数据能得到卫生部门或医疗机构的重视和介入,共同研究抑郁倾向人群自杀干预方案。

大数据是双刃剑


大数据时代的隐私问题确实是很纠结,大数据本身就是一把双刃剑,既要利用大数据产生社会效益和经济效益,又要保护个人隐私不容侵犯。这需要多方面的努力,其中包括个人对大数据的理解和支持,大数据企业和从业者的道德和约束,国家和政府法律的健全和监管等等。




讨论

发表

粮票激活×

粮票
激活

还没有粮票?微信关注mantousxy,回复“粮票”,即可获得

粮票百科:

馒头商学院发行官方邀请码粮票,获得粮票的用户为商学院认证过的互联网圈内人士。凭此票可观看馒头商学院价值50000元原创课程。