百分点技术负责人:我们为什么需要大数据操作系统
来源: 时间:2016-03-31

 所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几乎听说过“大数据操作系统”的存在(之所以i', FreeSans, Arimo, 'Droid Sans', 'wenquanyi micro hei说“几乎”,是因为Intel曾把Hadoop视为大数据操作系统,Apache Hadoop的一位committer联合创立的海绵数据公司也曾推出一款名为Sponge的大数据操作系统,但百分点认为BD-OS首先实现了理论的突破)。那么,BD-OS研发的意义何在?在百分点看来,一言蔽之,就是填补底层技术到数据应用之间的鸿沟。基于百分点的实践,刘译璟和刘国栋从大数据生命周期的角度阐述了这个核心观点,并介绍了BD-OS的一些应用案例。

百分点眼中的大数据

百分点眼中的大数据

刘译璟介绍了百分点对大数据的认识。他认为,在整个信息化的方向上,有五个大的趋势:云计算、大数据、物联网、社会化和移动化。在这个数据世界里,大数据处于大脑的地位,要把这些数据进行收集加工转化成信息,甚至转化成知识,最后再通过物联网的技术反馈到现实世界中,不断地产生更多的价值。

大数据最核心的技术是跟人工智能的相关知识紧密相关的,包括知识表示、自然语言理解、机器学习,还有相关的图像语音识别、机器人,这都属于这个范围,但是为了实现人工智能,特别是机器学习,要处理相当多的数据需要有一些足够坚实的底层架构来支持。像Hadoop技术的诞生,原因就是在搜索相关W3', FontAwesome, sans-serif; font-size: 16px; line-height: 25px; text-indent: 30px;">大数据最核心的技术是跟人工智能的相关知识紧密相关的,包括知识表示、自然语言理解、机器学习,还有相关的图像语音识别、机器人,这都属于这个范围,但是为了实现人工智能,特别是机器学习,要处理相当多的数据需要有一些足的智能应用里,原有的技术不能支撑了,所以说,大数据的发展一定是跟着业务或者跟着智能化的技术发展的。

整个大数据的产业主要分成四个方面,第一是底层的基础技术和基础架构。第二是在基础架构上构建各种分析的无论是算法模型等等。第三层次,在分析之上更多结合到行业和业务的应用。当然还有很重要的一点是这里面产生的数据。BD-OS主要偏向于基础软件的层次,但是包含了很多分析应用方面的工具。

整个大数据产业的趋势发展有六个特点。

更多往具体的应用里做,一定会形成行业的应用。虽然现在很多大数据方面服务过的企业还是偏向通用化,但是最终的业务价值一定是在行业应用里产生的。

服务化,通过服务的方式为企业和消费者提供服务,而不是提供最原始的软件或者IT基础设施i', FreeSans, Arimo, 'Droid Sans', 'wenquanyi micro hei', 'Hiragino Sans GB', '。

 

为什么需要大数据操作系统

刘国栋进一步表示,百分点的大数据理想,是希望未来每一个普通的人都具备使用和操作大数据的能力,能够随时利用大数据的能力解决自己的问题。BD-OS定义为大数据操作系统,是百分点基于过去六七年的大数据研发工程和经验,找到一种很好的技术架构和解决问题的模型,把技术体系和产品体系呈现在OS的框架里。

具体而言,操作系统如Windows、Linux和Unix,解决的问题是让人和机器更容易更快更便捷地交互。目前的大数据领域,以Hadoop为核心的平台产品,在局部上解决人和大数据交互的问题,在不同维度上出现的一些产品在部分场景下解决的一些大数据问题。底层技术和算Sans GB W3', FontAwesome, sans-serif; font-size: 16px; line-height: 25px; text-indent: 30px;">具体而言,操作系统如Windows、Linux和Un法很多,百分点产品里面包括20多个,市面上大概有上百种,但和直接解决上层的真正业务需求(如怎么精准的获客,怎么在CRM里面做用户的画像,怎么了解我的产品情况)之间还有一个鸿沟。

 

 

大数据操作系统的理论基础

实际上人类对数据的管理挖掘和需求越来越旺盛,在解决问题的时候,他所牵扯到的数据量和维度也是不断爆炸,不断增长,如何更好、更轻松地挖掘和管理数据是大问题。大数据操作系统第一件事要解决把数据管理起来,一是从容量上横向扩展,二是在解决不同的数据问题的时候需要不同的数据技术,包括底层的Hadoop、Spark等分布式技术,在管理层面也需要这样的管理框架,要能够即插即用地管理各种各样的计算框架。

大数据操作系统BD-OS把百分点的经验贯穿到产品里面。用户只要按照这些经验做数据采集,去做分析和数据接口,能够直接把应用跟技术对接起来。BD-OS把大数据底层技术标准化,基于标准化提取出了一系列的解决方案和接口,基于解决方案和接口建立起了一个完整的,可持续的这样的一个中间交互层,这个中间交互层的具体落地,可以通过交互层,通过不同的维度使用管理和深入探索挖掘大数据,不用关心底下具体的某种技术和某种问题。

在上面大数据操作系统在这个接口之上,通过大数据操作系统提供的命令行,结构化语言,可拖拽图形交互界面用户可以实现,核心的能力是定制了自己的基于数据生命周期管理模板,百分点认为整个大数据的生命周期是分四个阶段,从输入接入整合到加工到消费。客户不用关心数据如何接入进来,如何摆放如何整合,如何挖掘加工,他只需要从消费端拿到他想要的。

总之,之前很多大数据平台,主要是集中在技术包装的形态,基本上集中在存储管理,在人机交互和数据生命周期管理层面上,百分点在理论上明确了大数据操作系统的概念和定义,不仅解决了大数据的技术问题,不只是把各种各样的开源技术打包,更重要的是更注重

 

 

BD-OS Lambda架构的数据处理框架

在资源管理层,BD-OS则通过统一的资源管理机制,为企业提供了大数据的云存储和云计算资源。

数据管理层,BD-OS涵盖了采集、清洗、整合、分析挖掘和应用五个方面,支持标准的数据仓库建模流程,以及多种机器学习算法和商业模型。

 

 

BD-OS产品架构

 

 

BD-OS支持的商业模型

BD-OS支持的商业模型

BD-OS基于B/S架构,完全可视化操作,支持PC端和移动端。根据刘国栋的演示,可以用所见即所得的方式,实现任意一种的异构系统的协同工作。例如某个场景,需要有几百个Oracle、MySQL,又有七八个Hadoop、Spark集群,这堆东西才能完成一件事儿,要把这些东西拼凑到一起,让他们按照一定的结构一定的规则去一起工作。上面构建起来的数据,要贯穿对于不同的Oracle集群、Spark集群或者Hadoop集群。在这些技术上面写一些逻辑比较简单,但要真正地把它们串起来,能够协调一致地运作才能解决问题的时候,BD-OS很轻松画张图就可以。但是如果没有BD-OS,就需要花很大的精力写很多程序。

百分点认为,对于数据建模、数据分析人员来说,他们需要利用一些数据分析的工具,但是他们没有心思或者时间、精力去搭载多元异构的数据操作的一些组件,BD-OS的这个特点,可以吸引这些人。

谁在用BD-OS

BD-OS在2015年9月上旬发布,10月开始正l, 'Microsoft YaHei', FreeSans, Arimo, 'Droid Sans', 式进行商业化。现在在金融、制造等领域已经有两位数的客户,如OPPO、TCL、长虹、速8酒店等。

一个最近的案例,就是在华夏银行里面百分点做的整体的解决方案就是从底层的BD-OS的构建,中间的用户标签一直到上层推荐或者营销或者分析类的应用,很多时候都是给客户做这套,在银行里面主打就是BD-OS加上标签再加上推荐。

广电总局无线电管理局elvetica, Arial, 'Microsoft YaHei', FreeSans, Arimo, 'Droid Sans', 'wenquanyi micro hei', 'Hiragino的案例是一个纯的物联网应用。任何一个电视和广播信号发射场,最核心事情就是保证设备能够稳定、安全地去播放信号。此前广电总局无线电局的监控系统,大概五分钟采集一些数据上来,看看设备是否工作正常。上了BD-OS之后,采集频率提高到每秒钟采集一次,因为设备有30多个数值回来,能够做到更加实时的监控。更重要的是,基于BD-OS构建预测模型,还可以根据历史数据实时预测可能出现故障的设备,让停机检修、更换设备由被动变为主动(设备的故障检测和健康管理,PHM)。预测准确率与时间精度有关,5分钟内出现故障的预测准确率大概为90%,72小时内出现故障的准确率是97%。

BD-OS也和很多合作伙伴进行了深度的绑定,包括微软的Azure平台,已经和BD-OS进行了深度集成,Azure在亚太整个销售体系会售卖百分点的BD-OS,微软还专门发一些文章介绍BD-OS。<', 'Hiragino S/span>

BD-OS未来展望

百分点希望未来通过BD-OS这种标准化的产品体系和信用体系,能够更好地让有价值的数据输出它的价值。例如,企业的用户常用的大数据技术20到30个,可以通过BD-OS监控中心、配置中心,很轻松地管理和配置资源推动大数据应用落地。