引言:现在越来越多的公共突发事件当中,尤其是像人为的突发事件,比如说最近像上海的踩踏事件,互联网也好,大数据也好,能不能发挥一些正能量的作用?防止这种悲剧的再度重演呢?本期IT名人堂的访谈嘉宾是星环科技的联合创始人孙元浩先生,我们在2015中国Hadoop技术峰会上对他进行了独家访谈。
孙元浩认为,完全可以用一些新的技术手段来检测外滩人流的变化,为公安部门和交通部门提供一些信息指导,比如摄像数据充当数据源来做一些提前的预警。通过地铁刷卡数据、和轨道交通数据来判断人流量,发现地铁数据的异常,公安部门可以直接和交通部门协调,从而疏散人流。其次,我们还可以结合数据源运营商基站的信号对数据进行分析,它们包含了用户手机的大致位置,我们能够迅速的判断出人群密度以及变化趋势。随着手机的移动,根据基站里手机的移动方向可以预测密度的范围,这些信息综合起来可以形成从轨道地下、地面到空中的全方位检测,这些信息可以迅速反馈给公安,为治安提供导向性的方案。此外,还有一个车流信息数据的采集也是非常重要的,机动车辆经过外滩、乃至全市交通,都会留下一条记录,我们可以迅速判断哪些机动车没有离开,逗留了,从而推断出这里的车辆可能发生了挤压状况。在这种情况下,我们可以立刻反馈给交通部门,所有的营运车辆不允许经过外滩,这种方式也能缓解交通情况,所以综合这些措施也是能够做到预防的。
皮皮:在大数据的时代里,数据是一个让企业很纠结的话题,很多人会认为数据是死的,人是活的,数据挖掘的世界既是一个地雷阵,同时又是金矿,那大数据到底能给我们带来什么呢?如何在海量的数据里挖掘出有价值的数据为己所用呢?
在采访中,孙总为我们概括了大数据的三种典型应用场景,其用武之地小到个人、家庭,大到国家,大数据可谓是无所不能。今天Hadoop主要应用场景集中在技术处理上,但是已经有一部分的应用开始偏向机器学习。星环科技与合作伙伴也开始尝鲜,利用Hadoop技术来处理数据的高级分析,从大数据中挖掘出有价值的数据。
第一个典型的应用场景是利用大数据来满足实时营 销,比如实时采集用户手机的位置信息,推送WI-FI的热点,根据用户的购物历史,刷卡记录来做数据分析,推送个性化的营 销,比如电影票或感兴趣的商品等。
第二个典型的应用场景是利用大数据来预测用电量,孙总为我们介绍了一个从事用电数据分析的真实客户案例。有些省份已经布置了很多智能电表,多达几千万户家庭,电表采集密度每天高达23次,通过电网传感器的数据可以分析用电量与气候之间的关系,能够帮助电力公司来初步的预测未来的电力需求量,同时也能挖掘出企业用电和GDP增长之间的关系。
第三个典型的应用场景是大数据应用在医疗领域,有些企业应用大数据的分析对DNA进行比对。过去对高龄产妇进行检查,手术存在风险。现在采用大数据的新技术,通过采集胎儿的DNA序列进行比对,一旦发现胎儿的异常症状,就可以采取措施,这种方法与手术相比,更加准确,也无风险的,这种新的技术随着大数据应用越来越广泛。
皮皮:60%的Hadoop应用是用在SQL统计领域,最早的Hadoop是用于ETL,包括从数据的萃取到转制到最后的加载,而现在我们发现像FACEBOOK的数据仓库也用到了Hadoop 的数据仓库,那么Hadoop与数据仓库究竟有什么样的关系呢?
孙总坦言,互联网公司从第一天开始就是用Hadoop做数据仓库,所以Hadoop是互联网公司建数据的第一选择,实际上Hadoop是互联网公司的数据仓库。而对传统企业来讲,IT架构也发生了比较大的变化,比如在运营商、银行、物流、飞机等其它行业,Hadoop作为一个数据仓库的补充,但是把Hadoop运用到这些企业当中的时候存在一个显著的问题,传统的IT架构,在上面已经有大的应用了,这些应用很多是基于SQL的,应用类型与复杂程度其实是超过了互联网公司,所以hadoop在进入了这个领域的时候,有些局限,早期只是做ETL。而随着hadoop技术的发展,像国外的一些公司包括我们公司都能提供比较完整的SQL支持,这样使得我们能够更进一步用hadoop来替代企业的某些数据仓库。
传统的数据仓库像一些大的企业国有银行,动不动就是几个亿,维护扩建也是几个亿的,成本经费非常昂贵,而Hadoop提供了性价比非常高的方案,这是企业在选择的时候的一个考虑的重要因素。
除成本外,Hadoop能够用来处理非结构化数据。对银行而言,像视频数据、票据数据,虽然目前对银行的价值不是太高,但是需要一个存储机制来存放,Hadoop的技术算法越来越成熟,数据发掘的工具也越来越丰富,这就使得企业在运用Hadoop技术之后能发现额外的一些增值的东西。
孙总预计,传统的企业IT架构慢慢向Hadoop迁移,未来大概两三年,企业的传统IT架构慢慢就会被hadoop来取代。Hadoop会成为企业的数据仓库的中心,未来hadoop会是各个行业的企业数据仓库。
皮皮:谈到大数据,有3V,Volume(大量)、Velocity(高速)、Variety(多样),尤其是在物联网时代,像气象、交通等实时数据量大,并发度高,那么物联网大数据与互联网大数据有什么区别?对企业的技术底层架构有哪些挑战?
孙总表示,互联网其实是一个连接人的一个网络,采集的数据大部分都是人的行为的数据,比如说人的交易的数据、人的上网记录,而物联网采集的数据更多是机器的数据。如果比较这两个数据源的话,我们发现它的数据量是会差一个量级的,全世界人口可能是60亿人口,可是有上百亿的设备,这些设备如果都采集数据的话呢,它的量会比互联网的数据大一数量及,所以这个会对未来的数据架构产生一个新的大的挑战。
第二个特点是,物联网的数据并发度非常高,而且数据一旦产生需要立刻被处理。孙总举了一个真实的客户案例,客户目前有一千万个传感器,每秒钟一千万个量级的数据发送量,可能就已经超过很多互联网公司的数据量,对底层架构的并发要求非常高。
第三个差异化在于互联网的数据可能是人的行为数据,主要用来分析,可以做一些营 销,但是物联网数据来说更多的是发现一些自然规律,当然这里面也使用到了大量的技术运算,也会用到大量的复杂的物理和数学的方法。
皮皮:大数据的浪潮风靡全球,与Hadoop类似,Spark也火了。在国外 、Intel、Amazon、Cloudera 等公司率先应用并推广 Spark 技术,在国内阿 里巴 巴、百 度、淘 宝、腾 讯、网 易、星环等公司敢为人先,Spark 在IT业界的应用可谓星火燎原之势,未来Spark能否取代Hadoop?
孙总表示,非常希望(Spark)能够取代HADOOP,从这个整个生态系统的发展趋势来看,(Spark)会慢慢取代(MapReduce),当然在星环科技的产品当中已经拿(Spark)取代(MapReduce),此外孙总在视频采访中还重点为我们讲解了Hadoop的分布式计算框架的架构,干货剖多,请大家点击视频观看详情。
皮皮:我注意到2015年新年刚开始,你们公司成功完成了新一轮的数千万的融资了。那我之前也了解到浪潮与你们强强联手,成功搭建了基于Hadoop的大数据信息化平台,能不能从合作伙伴的角度来和我们简单的谈一谈Hadoop的生态圈?
孙总坦言,希望能够促进Hadoop真个生态系统的发展,目前有三类合作伙伴,一类是行业应用方案解决方案的提供商,比如在交通行业的合作伙伴,在与我们进行深度的合作,能够高效的处理数据或者是银行的数据或者是交通的侧重信息。另外一类合作伙伴是我们认证的一些服务商,对他进行培训,他们帮我们进行安装部署运维,这些服务工作,第三个是他们的产品与我们是有互补性的有可能是硬件厂商,像浪潮。
皮皮:那最后一个问题了,IDC公司预测,数据每天将增长40%-50%这意味着到2020年总体的数据量将会达到40PB?那非结构话的数据主要来源我们日常的邮件还有论坛。博客社交网络,包括我们的POSE系统还有机器生成的一些数据了,那么面对这些非结构化的数据,你们提供了一些什么样的Hadoop解决方案,未来Hadoop还会有哪一些新的版本会发布?
孙元浩认为,未来很多计算框架也会与Hadoop进行融合,等到hadoop3.0的时候,可能会安全性与性能上得到很大的提升,在资源管理效率上得到比较大的增强。
孙总透露,星环科技预计在2015年发布2款新产品,第一款产品针对物联网部署的大量传感器产生的数据,专注于处理时序数据,首先会进入新能源行业。它能够对传感器产生的大量数据进行高效处理,在内存里存储数据或者是将SSD上的数据转成内存存储,对所有的时序数据进行数据挖掘分析。
第二款产品预计会在2015年下半年推出,这是一款利用Container和Docker来运行Hadoop的现有版本,帮助企业简化Hadoop的部署流程,有了这个方案以后,企业在部署Hadoop机群的时候,再启动100个机群的时候可能只需要2、3秒就可以启动,自动进行扩容,即便机器发生故障也能够自动迁移。这样一来,可以大大降低企业管理Hadoop的成本、包括维护的成本,同时也能够做非常有效的资源隔离,因为运用Container技术能够做到CPU内存网络磁盘的隔离,隔离性会比之前更好。如此一来,Hadoop作为企业的数据的计算,能够满足多个部门在统一个数据平台上进行数据分析,就可以通过这种技术有效的实现。