活动纪实

Events

首页 > 活动纪实 > 正文

大数据的前世今生与未来丨文泰学学讲堂第74期干货分享

发布时间:2019-09-07

本文是香港公开大学2018级秋季青岛班班长文浩为大家带来的有关大数据方面的个人分享,希望能够在如何更好运用大数据方面为大家提供帮助。

大数据的身世

公元前18000年,最早关于人类记录和分析数据的例子是符木(ally sticks)。伊尚戈骨头(Ishango Bone)是1960年在乌干达发现的被认为是最早的史前记录数据的证明之一。

美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

1997年

美国宇航局研究员迈克尔•考克斯和大卫•埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

2002年

在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

2004年

9/11委员会唿吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

2009年5月

美国总统巴拉克•奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

2012年7月

美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

大数据(BIG DATA)的通俗解释

无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

我们如何运用大数据

建立自己的数据中台

数据中台是阿里提出的对标的是国外的“data lake”,出现的背景是阿  里系每天出现大量的数据信息,要让这些信息互联互通,将这些数据用途发挥最大用途,很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据中台,就是希望扮演“发电厂”的角色。”

与传统大数据的区别:

与存储已知的结构化数据,去解决“已知问题”的传统数据库(DATA WAREHOUSE)相比数据中台存储了大量的“未知”的原始数据,利用数据科学,可以在多层次进行探索,帮助企业解决更多的未知问题.

建立数据中台的步骤:

在数据中台搭建过程中,最难的不是IT层面的数据管理,而是将海量大数据化繁为简,变成能看懂的标签的“分析”过程。

和传统基于统计学的分析不同,基于大数据的分析的第一步并不是“算法”,而是借助“知识图谱”对于底层数据的结构化,下面是一个例子:

某广告主收集到了消费者的三条行为数据:

通过“知识图谱”,发现:

访问了某URL,并停留了120秒(网站分析数据)第一条数据的URL代表的是产品A的介绍。

在微信某小程序中,点击了某个对话框(小程序监测)第二条数据,这个小程序的对话框是产品A的询价。

出现在某线下销售门店中(智能探针数据)第三条数据,是专门销售产品A的线下门店。

数据中台的营销流程

大数据进入下半场,人工智能已然崛起,现有的大数据技术亟须和人工智能技术结合,孕育新的产业生态,从百度、阿里和中国联通的做法可以看出,向数据智能型企业转型正在成为大型科技企业新的行动方向,阿里巴巴提出的“大中台、小前台”的做法已经成为业界主流数字化转型思路,企业通过建设数据智能平台或数据中台,打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,有望再次重构大数据产业生态环境,进一步深挖和释放大数据的价值红利。

最后,我们要再次感谢香港公开大学2018级秋季青岛班班长文浩为大家带来的分享。