了解大数据

人类和机器产生了难以想象的大量数据——现在,每年会产生 16.3 泽字节的数据,而截至 2025 年这个数字将增长 10 倍。“大数据”是一种非常宝贵的资源,它正改变着我们的交流方式:我们暴露的个人信息越来越多。而这一趋势有利有弊。

午餐时间,当你拿出自己的智能手机查阅各类应用程序上面的信息时,可能会一时兴起在网络商店中购买一件商品,原因是你刚刚收到一条推送消息,消息说你一直很感兴趣的那款滑雪头盔正在大甩卖。这看似只是个巧合,实际上是通过高等数学、分析技术和定向营销等知识分析出来的结果,简而言之就是使用了大数据。

在全球范围内,人类和机器每时每刻都在产生大量数据——例如使用网络浏览器和社交网络时,还有开车、信用卡支付、网上购物、用智能手机打电话等等,都在生成数据。

与此同时,当摄像头监测我们的城市,智能计量系统测量功耗,股市交易在计算机上展开,医疗设备记录健康数据,还有互联汽车与网络连接时无一例外都在产生数据。

什么是大数据?

世界上大约有80 亿人,他们每个人的个人数据都需要 44 个大脑来储存。(来源:KPMG,PM-MAGAZIN)

“大数据”这个词表示的是大量数据,也可以称之为海量数据。它描述的是大量超级复杂和短时存在的数据,而且这些数据是非结构化的,用普通计算机难以处理。

这是因为收集好这些数据之后,需对其进行分析从而获得深层信息。真正的目标就是:从信息中获益。因此,大数据经常等同于大数据分析,尤其是在营销中。

现实生活中的大数据

大数据有三大主要特点:即大量、多样化和高速。随着数字化的不断发展,数据量也在以前所未有的速度不断增长。我们现在产生的数据量已经达到了每年 16.3 泽字节。1 泽字节等于十亿兆兆字节。由 IDC 和希捷展开的一项研究表明,截止 2025 年这个数量将增长至 163 泽字节。如果全部写出来,这个数字显示如下:163,000,000,000,000,000,000,000 字节

要有效存储如此大的数据量,需要用到整个服务器群。英飞凌的高能效半导体确保了这些服务器群的供电成本能够大大削减。

未来,数据量将以尧字节为单位,即数字后有 24 个零。这种高速增长还与越来越多样化的数据有关。最开始,数字数据大部分是以数字和文档的形式呈现。但随着互联网和数码相机的发明,还增加了照片、音频和网络数据。此外,由于我们拥有移动电话、智能手机、YouTube 和网飞,来自社交媒体和流媒体服务的移动数据和信息也加入其中。  现在,各种设备已成为物联网的一部分,例如健身带、智能恒温器和互联汽车等,都在不断填充海量数据库。

还有一件事从数字时代的早期开始就在不断改变,那就是数据存取的速度。数据最开始是集中的,然后发展为定期压缩,而现在已实现实时获取。

但最开始,所有这些数据都不过是收集来的信息。只有在经过快速处理和正确分析之后才能成为有用数据。这就是大数据带来的优点和缺点。具体有哪些优缺点呢?

大数据的优点和重要性

大数据在我们日常生活的各个方面都发挥着重要的作用。科学家利用数据来研究气候变化或地震及流行病的发生。政府机构和情报部门通过梳理大量数据来搜寻任何可能揭露恐怖分子的线索。我们收集内容数据、元数据、交易数据、行为数据、健康数据、财务数据、测量结果和监测数据。这些数据与股票市场、核物理、区域运输、电信、市场研究、能源供应、保险公司、零售连锁店、汽车行业、犯罪学、反恐和市场营销息息相关。

现在的数据被用来预测未来可能发生的事情。这就是大数据分析的作用,也称为数据挖掘。

大数据的作用及其在商业中的运用

在线零售商亚马逊正在其位于柏林的开发中心里研究机器学习和预测分析。特殊算法可以评估目前的购买情况以及社交媒体文章。他们可以发现客户的个人风格并分析流行趋势。然后利用这一知识向客户发送个性化的产品推荐。

谷歌与流感疫情

大数据的关键在于从大量数据中找出相互关系,而人类大脑一般看不出其中有任何联系。谷歌利用具体的搜索查询来确定流感的传播。基本理念是这样的,当有人或其家人患病时,他们会先开始搜索与该疾病相关的信息。而通过分析搜索查询和疾病数据,真的发现了某种关联。谷歌对流感疫情的预测周期比卫生机构还要快两周的时间。但是,这种方法的预测精度并不准确,每年会有所偏差。

优化农民对田地和谷仓的使用

还有一个关于农业的例子,因为农民的生产也越来越数字化了。大数据可以让他们摆脱大部分田地和谷仓中的工作。为防止过度灌溉,可以用传感器来测量地面湿度,然后对每平方英尺的土地按需浇水和施肥。还有一些系统可以通过收集数据来确定奶牛的健康状况和生育能力。这既节约了时间又能让农民尽早检测出奶牛的疾病。

BMW 和有关工厂车间的大数据

汽车制造商 BMW 同样依赖大数据进行生产操作:车身零件都分配了 ID,以便精细调整冲床。如此一来,冲床可以根据各个零件的厚度、刚度或表面特性做相应的处理,并防止损耗。

当今最大的数据产生者

美国、西欧国家、中国以及印度产生的数据远远超过其余国家的总数。(来源:KPMG,"Going beyond the Data")
大数据的实际应用:2016 年美国大选

大数据的实际应用:2016 年美国大选

很多人认为唐纳德·特朗普的胜选也得益于大数据,因为通过脸书或推特可以直接快速且准确地找出可能会支持他的投票者。通过分析用户的“喜好”或回应可以为他们提供个性化的信息。  以下这种方式可以替代传统选举广告:他们不再向每个人发放印有相同广告词的小册子或每天在电视上循环播放一样的广告,而是对特定用户进行有针对性的宣传。据称,一家叫做Cambridge Analytica的公司利用所谓的“黑色广告”为特朗普的竞选活动提供了极大的帮助。这种在脸书上进行的极其个性化的广告之所以有作用,不仅仅在于大数据,应该还有对个人形象的评估。例如,以下这件事就改变了人们对希拉里·克林顿的看法:对她表示同情的非裔美国女性收到一段视频,视频中她将黑人称为掠夺者。到底Cambridge Analytica和“黑色广告”是否真的在选举中发挥了重大作用仍不得而知。

从大数据到智能数据

大数据所涉及的数据量十分巨大,现有的分析方法无法对其进行分析或处理。因为他们经常是实时出现的。另一方面,智能数据具有更深层次的含义。它描述的是有用且经过验证的高质量数据,这些数据是从大数据集中发现的。因此,大数据就是数据库,它是一种需要处理的原始资料,经过处理后可以提炼为智能数据,才能完全发挥其经济潜力。

我们需要通过智能算法来梳理这些大量的杂乱数据,因为大数据必须成为智能数据:一开始大数据只是数量巨大的数据。如果不进行分析,他们毫无用处。经过分析后才能成为高质量的数据。这些算法的目标是检测出其中的模式和表达形式,然后供分析人员解释和评估。例如,公司利用这个方法来发现和解决生产中的不足。这会使他们在竞争中占据优势。

德国联邦经济事务部和弗劳恩霍夫智能分析和信息系统研究所指出,很多公司正受益于这种数据收集和分析。这是因为

  • 越来越多的实时分析使工作流程得到优化,从而提高了管理效率。
  • 当系统将大众细分为有个人需求的人群时,个性化服务即可实现。
  • 预装了大数据智能系统的产品可以独立处理和传递数据。

消费者利益

大数据也为消费者带来了利益。最近,健身跟踪器和应用程序非常受欢迎。人们利用这些工具来监测其体育活动、睡眠模式、血糖水平、血压、饮食习惯等等。通过信息分析,这些工具会提供有关健康行为的建议。

消费者也可以利用大数据省钱,例如,智能仪表可以记录他们的耗电量并发现能源浪费行为。或者网上商店会存储他们的习惯和偏好,从而提供个性化的代金券或优惠。在交通数据被实时分析的智能城市中,人们节省的不是钱而是精力:乘客和司机可以避免交通拥堵而选择智能工具推荐的其他路线。互联汽车甚至可以在紧急情况下自行刹车,并自动报告交通事故。

大数据与数据保护

我们想要达到哪种透明程度?

大数据始终拥有两面性:一方面是产生数据,另一方面则是分析和使用数据。工业和科学都受益于大数据。而个人数据被用于做分析的用户会付出怎样的代价呢?主要有两方面的影响:首先,消费者常常会意识不到他们不小心暴露了个人信息以及这些信息的用处。其次,他们的数据经常未经同意就被使用。

与用户的居住地点相关的生日数据、智能手机的设备识别、浏览器中的 cookies、IP 地址、聊天和短信,还有他们在社交网络中发的帖子和个人档案:智能工具将所有这些信息汇总到一起,然后生成每个人的全面个人信息。即使数据记录是匿名的,还是可以轻松地找出原始数据拥有者。所以用户的“透明度”非常高。此外,他们还会被分成不同的类别,比如,在保险公司和银行卖出一份保险或发放贷款之前会对他们进行分类,招聘新员工的雇主也会对他们进行分类。

反对大数据的意见

反对大数据的意见

像德国的“Digitalcourage”协会这样的数据保护组织看到了使用大数据分析的内在风险。  他们声称数据被滥用,个人权利被侵犯,而且当人们被基于算法分成某种类别时自然会被歧视。毕竟,没人能保证算法计算出来的结果与现实匹配。数据永远是量化的,而且没有背景支撑的数据意义不大。

与此同时,数据可以包含任何信息,甚至是敏感信息。这让分析数据的人有了可乘之机。脸书程序算法是这样的,用户只能自动看到一些认同他们世界观的信息。而基于搜索引擎的算法和用户之前的查询,谷歌的搜索结果也是有失偏颇的。  专家将这种现象称为“过滤气泡”。

欧洲数据保护法至少规定了,数据只能用于其被收集时的用途并在规定范围之内使用。这就是用途限制准则。例如,不能将披萨店的订购数据和互联汽车的数据关联,以防客户开车经过时被发送优惠券等。

信息被暴露意味着什么?消费者仍然对此没有意识。Digitalcourage 协会称,每个人都应该意识到“只有未被收集的数据才是安全的数据”。

但是,消费者保护组织也提醒到,大数据和数据保护不应该是对立关系。数据分析有时对消费者十分有益,例如,当互联汽车自动报告交通事故或避免交通堵塞时。但另一方面,所有拥有数据的人都可以操纵和控制消费者。德国消费者组织联合会提倡,每个人都应该有权利决定他们公开哪些数据以及数据如何使用。

大数据的发展与未来

不管是否有数据保护方针,未来大数据只会越来越大。数据是未来的宝藏。而数据分析的效率会不断提高,也会有越来越多的企业依赖数据分析来保持增长。未来对能够正确分析和解释数据的专家需求也会越来越大。

面部复原算法已经存在,所以可以利用一个医疗 MRT 图像来比较来自社交网络的个人资料图片。不久之后,我们还会看到第一个可以在网络论坛上将句子指定到一个人的文本挖掘算法。现在的趋势是结合大数据与人工智能。机器人和机器通过程序编制可以独立学习(“机器学习”),因此可以让他们自己快速处理数据并做出响应。互联汽车和自动驾驶就是很好的例子。

此外,移动设备的“情景感知”技术也在不断发展。应用程序分析具体信息后便知道用户接下来需要什么。例如,当用户输入客户名称时,设备会马上显示出之前所有与这个商业伙伴互通的电子邮件及预约,并准备好拨打他们的电话。

大数据为用户带来了很多好处以及新机会。挑战在于抓住这些机会,但又不能忽视风险。这就需要用户自己在处理其个人数据时小心谨慎。

关于大数据技术,你应该知道的事儿

关于大数据技术,你应该知道的事儿

要分析网络服务器日志、社交媒体活动、手机账单明细以及来自传感器的信息,公司经常会用到以下程序:开源软件框架(Apache Hadoop、Spark、NoSQL databasese、Map Reduce)、数据库系统(Big Table 和 Cassandra)、图形数据库以及分布式文件系统。