从零开始学大数据-02 大数据应用发展史: 从搜索引擎到人工智能


02 大数据应用发展史: 从搜索引擎到人工智能

大数据应用的搜索引擎时代

1
Google公认的大数据鼻祖,存储着全世界大量的网页,大约需要数万块磁盘---->GFS,将数千台服务器上的数万块磁盘统一管理起来,然后当作一个文件系统,统一存储所有这些网页文件。---->构建搜索引擎,需要对这数万块磁盘上的文件中的单词进行词频统计,然后根据PageRank算法计算网页排名。这中间Google需要对磁盘上的文件进行计算处理---->MapReduce大数据计算框架应运而生
1
Google之前,世界闻名的搜索引擎是yahoo。Google凭借自己的大数据技术和pagerank算法,使搜索引擎体验得到质的飞跃,yahoo没落。
1
Doug cutting率先根据论文做了Hadoop。yahoo挖Doug Cutting---->Doug Cutting跳槽到专职做Hadoop的商业化公司Cloudera.

大数据应用的数据仓库时代

1
2
3
4
5
当Facebook推出Hive的时候,嗅觉敏感的科技公司都不淡定了,他们开始意识到,大数据的时代真正开启了。
曾经进行数据分析和统计,仅仅局限于数据库,在数据库的计算环境中对数据库中的数据表进行统计分析。受数据量和计算能力的限制,只能对最重要的数据进行统计和分析(这里所谓最重要的数据,通常指的都是给老板看的数据和财务相关的数据)。
而HIve可以在Hadoop上进行SQL操作,实现数据统计和分析。可以用更低廉的价格获得比以往多更多的数据存储和计算能力。我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,企业的数据仓库也随之呈指数级膨胀。
不仅是老板,公司中每个普通员工比如产品经理、运营人员、工程师,只要有数据访问权限,都可以提出分析需求,从大数据仓库中获得自己想要了解的数据分析结果。
在数据仓库时代,只要有数据,几乎就一定要进行统计分析,如果数据规模比较大,我们就会想到要用Hadoop大数据技术,这也是Hadoop在这个时期发展特别快的一个原因。技术的发展同时又促进了技术应用,这也为接下来大数据应用走进数据挖掘时代埋下伏笔。

大数据应用的数据挖掘时代

1
2
3
4
5
大数据一旦进入更多的企业,我们就会对大数据提出更多期望,除了数据统计,我们还希望发掘出更多数据的价值,大数据随之进入数据挖掘时代
真实的案例,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。啤酒和尿不湿的关系,你可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。
除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系,比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。
更进一步,大数据还可以将每个人身上的不同特性挖掘出来,打上各种各样的标签:90后、生活在一线城市、月收入1~2万、宅……这些标签组成了用户画像,并且只要这样的标签足够多,就可以完整描绘出一个人,甚至比你最亲近的人对你的描述还要完整、准确。
除了商品销售,数据挖掘还可以用于人际关系挖掘。你听过“六度分隔理论”吗,它认为世界上两个互不认识的人,只需要很少的中间人就能把他们联系起来。这个理论在美国的实验结果是,通过六步就能联系上两个不认识的美国人。也是基于这个理论,Facebook研究了十几亿用户的数据,试图找到关联两个陌生人之间的数字,答案是惊人的3.57。你可以看到,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。

大数据应用的机器学习时代

1
2
3
4
5
我们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。
在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而现在有了大数据,可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。-----这就是机器学习。
把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录如何落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律用机器和人下棋,每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,这就是前两年轰动一时的AlphaGo,以压倒性优势下赢了人类的顶尖棋手。
把人聊天的对话数据都收集起来,记录每一次对话的上下文,如果上一句是问今天过得怎么样,那么下一句该如何应对,通过机器学习可以统计出来。将来有人再问今天过得怎么样,就可以自动回复下一句话,于是我们就得到一个会聊天的机器人。Siri、天猫精灵、小爱同学,这样的语音聊天机器人在机器学习时代已经满大街都是了。
将人类活动产生的数据,通过机器学习得到统计规律,进而可以模拟人的行为,使机器表现出人类特有的智能,这就是人工智能AI。
1
大数据从搜索引擎到机器学习,发展思路其实是一脉相承的,就是想发现数据中的规律并为我们所用。所以很多人把数据称作金矿,大数据应用就是从这座蕴含知识宝藏的金矿中发掘中有商业价值的真金白银出来。
1
数据中蕴藏着价值已经是众所周知的事情了,那么如何从这些庞大的数据中发掘出我们想要的知识价值,这正是大数据技术目前正在解决的事情,包括大数据存储与计算,也包括大数据分析、挖掘、机器学习等应用。
1
我们不曾生活在美国西部淘金的繁荣时代,错过了那个光荣与梦想、自由与激情的个人英雄主义时代。但是现在,一个更具划时代意义的大数据淘金时代已经到来,而你我正身处其中
1
统计人的驾驶行为进行机器学习,就是无人驾驶;统计股票的历史交易数据进行机器学习,就得到量化交易系统。统计大家p图的参数进行智能美颜。统计过去在网上的商品浏览进行机器学习,就有了亚马逊的智能推荐物品;蚂蚁金服上统计过去的消费能力和信贷进行机器学习,来预测可在借呗上借多少钱,这是一个大数据和机器智能的时代,我们身处其中,需要的是适应并不断学习前行才不会在一段接一段的浪潮中被退去。推荐系统、广告系统、估价系统、风控系统都是现在广泛使用了机器学习的。微软识花

本文标题:从零开始学大数据-02 大数据应用发展史: 从搜索引擎到人工智能

文章作者:TTYONG

发布时间:2022年01月12日 - 22:01

最后更新:2022年02月20日 - 12:02

原始链接:http://tianyong.fun/%E4%BB%8E%E9%9B%B6%E5%BC%80%E5%A7%8B%E5%AD%A6%E5%A4%A7%E6%95%B0%E6%8D%AE-02-%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BA%94%E7%94%A8%E5%8F%91%E5%B1%95%E5%8F%B2-%E4%BB%8E%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E5%88%B0%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%