Hadoop一直被很多人认为是大数据的代名词,数据猿作为一家关注大数据行业的专业媒体,于是就本着专业的态度采访了一家基于Hadoop开发产品的大数据基础软件厂商——星环科技。
或许有些人是被文章的标题震慑到才点进来看这篇文章,但我们绝不是“吸睛标题党”。星环科技核心创始团队可谓是“整体打包、原滋原味”出自跨国大牛公司英特尔,团队成员全部拥有丰富的外企工作经历,其中,接受本次数据猿独家专访的COO佘晖外企工作时间最久,拥有20年知名IT外企从业经历,历任Intel亚太区渠道业务总经理、Intel OEM业务销售总监。可谓经验丰富,深受正规军熏陶多年。
跟所有创业公司的故事一样,星环科技也有自己的一段创业往事。
星环科技的创立初衷跟成长过程的故事或许会让一些人听起来没有那么新鲜,但这个故事却透露着整个团队成员巨大的“不满”与市场“野心”。
当时,团队项目小组的成员都认为,Hadoop作为大数据时代基础开源的架构,其实是没有行业属性的,任何一个行业都可以用,这样的价值跟应用前景将非常巨大。而中国市场大部分用的都是国外产品,一直缺少世界级基础软件。团队成员都特别希望中国人也有机会做出自己的产品让全世界用。于是,带着这样的理想,项目组原班人马于2013年6月5日在现任公司创始人兼CTO孙元浩的带领下正式成立了星环科技。
在数据猿记者的采访过程中,佘晖说道:“以前受制于”大公司病“,团队没能完全施展拳脚,做出行业优势产品,出来创业成立星环科技后,终于能完全按团队成员自己的思路和想法一步步实现当初的梦想”。
这样“民族式的梦想与野心”终于成为了现实,星环科技在2016年伊始宣布完成了1.55亿元B轮融资,公司估值超10亿元人民币。
我们的大数据产品是很牛,但却不是一家大数据服务公司
外界常常把星环科技理解成一家大数据服务提供商,但对于这样的误解佘晖一直强调:“星环科技的定位非常明确,星环科技就是一家专注于大数据基础软件平台产品的公司,并不是什么都做。”佘晖说,按照这样的发展脉络,未来,星环科技愿景的描述可以用两个版本来说明:
高大上版本:做一家世界领先的大数据平台产品提供商;
通俗版本:做一家为所有企业提供Hadoop大数据引擎及数据库工具的公司。
综合一点说,星环科技要做一家一站式产品的大数据公司,而不是一站式服务的大数据公司!
大数据时代,企业原有的数据库可能无法适应新的应用场景,都需要换成更大处理能力的引擎,而这个大数据引擎通常指的就是Hadoop,也正是目前星环科技正在做的事。
在数据行业,Hadoop的出现是革命性的,但早期的时候还存在很多问题,所以佘晖说,星环科技创立之初更多是在对Hadoop原有组件进行稳定性改造。后来,星环推出的一站式大数据综合平台Transwarp Data Hub(TDH)重新设计了企业数据平台的架构后,在实时计算、分布式事物、离线批处理业务、分布式数据挖掘、企业数据安全等多方面做出了重大革新,还支持SQL 2003标准和PL/SQL存储过程,大大方便了传统RDBMS的业务往产品TDH上迁移,这样的升级变革也让星环科技获得了世界级企业的认可:
《Gartner 2016魔力象限》把星环科技列为中国唯一上榜的国际主流Hadoop厂商,超越美国几大对手成为魔力象限远见者(Visionaries)领域中全球最具前瞻性公司。
星环科技一站式大数据综合平台Transwarp Data Hub包含的五大产品:
1、Transwarp Hadoop发行版,组合了一系列Apache项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。
2、Transwarp Inceptor高速SQL引擎, 第一个支持Oracle PL/SQL和DB2 SQL PL扩展的SQL on Hadoop引擎,便于传统企业用户的数据迁移。
3、Transwarp Discover大数据挖掘探索软件,提供分布式机器学习引擎,为文本分析、交易反欺诈、风险分析、精准营销等提供全面算法和模型支持,并支持R语言访问。
4、Transwarp Hyperbase分布式实时数据库,支持非结构化数据,融合了多种索引技术、分布式事务处理、全文实时搜索、图检索数据库在内的实时NoSQL数据库。
5、Transwarp Stream流处理引擎,应用于实时数据(如传感器数据)的实时告警、风险控制、在线统计和挖掘等业务。
如今的客户也是当初“小黑屋”里的竞争对手
优势来源于专研!当初,星环科技从英特尔出来的时候是八个人,现在团队人数超过两百人,其中,技术研发人员占到近百分之八十,这样的技术人员比例也让星环成为一家名副其实以技术为核心驱动力的大数据公司。佘晖说:我们的研发工程师每天都在盯着美国市场研究路线图,思考下个月该出什么样的超越产品。正因为做了如此大量的技术专研,才使得星环的很多产品功能都领先于别人,单点极致的投入是致胜的最大法宝。
比如,TDH通过内存技术、高效索引、执行计划优化和高度容错的技术,使得一个平台就能支持从GB到PB数据的快速处理。客户在数据量很小的时候可以使用TDH,随着数据量不断增大,TDH可以伴随企业客户的数据增长而动态不停机扩容,解决了困扰客户的平台升级问题。
再者,数据加工过程中的正确性和一致性对银行客户的业务来说也非常重要。无论是从多数据源加工数据,或者从其他系统同步数据,分布式事务可以完整的保持正确性和一致性,这也算星环的重要技术优势。
另外,针对实时性较强的应用场景,星环还专门为用户打造了流计算引擎。举个例子,以前套牌车的检测需要到后台查询,而后台的数据库往往需要较长时间才能更新,查出的结果滞后,可用性差。但现在可以做到数据实时或准实时查询,在数据的传输过程中就能找到目标,把套牌车立马找出来。
谈起星环科技在大数据领域内的技术优势,佘晖更为自豪的是在2013年的时候。一个省级运营商要做一个项目PK,拿出20T的数据要求前来竞标的12家公司在三天内达到30项功能,每家公司一间摆满计算机的屋子进行黑屋测试。
佘晖回忆到:“拿到这样的测试报告以后,立马就有5家厂商决定放弃不参与测试,其中就包括某些知名厂商。因为,对于这样的测试跟数据量,要跑出规定的指标需要很强的实力才能做到,如果真做不到还不如不去。最后三天下来,30项指标都跑出来的不超过三家,星环科技的综合成绩测下来是第一名”。
让佘晖引以为傲的还有:“星环TDH在不使用任何索引、不做任何数据分区的情况下,已经成功通过了TPC-DS 100T测试。世界上能够成功通过该项测试的厂商屈指可数,TDH大数据处理能力、性能和稳定性达到新高度”。
这样的技术专研优势,让当年Hadoop领域的不少竞争对手现在都已成为了星环科技的合作伙伴,打开星环科技的官网那些“对手”的logo赫赫在目。
佘晖认为,取得这样的成绩主要是因为,虽然Hadoop是开源软件,组件数量多,但即使是HDFS、Hive、Hbase、Mapreduce这些最常用的组件代码量都是几十万行以上,要搞清楚就已经是一项非常巨大的挑战,更不用说在上面开发产品。所以,这是一个高技术门槛、高技术投入的工作。这就是为什么到现在为止,能够坚持下去的公司寥寥无几,国内只有一两家,硅谷也只有三四家做基础平台软件的大数据公司而已。
同时,开源的产品不断迭代,做发行版的公司也在快速迭代。如果你的团队跟不上,出去PK项目的时候总输给别人,那“很现实”的销售团队肯定不会干,到最后就只能直接找更有优势的竞争对手合作,放弃现有业务改做其他相关业务了。
市场前景好规模大,但人才极度稀缺怎么办?
大数据领域从2015年开始有了爆发式增长。软件服务、软件应用已大量国产化,在算法、工具等方面也出现各种各样的大公司团队以及创业公司。对于基础软件领域的市场来说,光数据仓库市场每年就有大概60亿元的规模,未来可能还会有一些分支市场的出现,这一波大数据领域的市场机会将会非常好。
佘晖说到,去年星环科技的客户数超过100家就是侧面证明了中国市场的巨大发展潜力。
巨大的市场机遇跟发展速度也使得行业人才严重不足!虽然目前有不少高校已纷纷开设了大数据相关专业,但远水止不了近渴,真正的大数据人才还需等上几年时间才会大批量出现,眼下正是人才枯竭期。再加上,除了专业的大数据公司之外,很多互联网、传统企业也在逐渐采用Hadoop大数据处理架构,更加剧了人才的渴求。
虽然行业中包括星环科技在内的很多大数据公司、互联网公司以及各培训机构都提供各种大数据培训服务,但人才难求的局面依然难破,高薪求才市场上屡见不鲜。佘晖说,以他目前看到的市场情况,Hadoop目前是大数据领域最贵的人才。
To C时代已过,To B市场将迎来掘金时代
在以往的中国市场,资本都青睐ToC企业给了很高的估值,ToB公司一直不受重视价值被严重压低,但这样的历史境况已逐渐被改变。佘晖认为,大数据领域的企业一般分为三种,将拥有巨大的创业机会:
第一种:有数据源的公司;
第二种:数据工具类公司;
第三种:做数据服务公司。
比如,国内很多大公司及其他机构有很多数据,任何公司都可以在其数据基础上做程序开发、应用,完全可以形成商业价值当公司的服务去卖,其中商机将无限大。
对于这些机会点,佘晖自信的表示:“未来,星环科技不会都去涉足,还是会专注于产品,只做基础软件领域,不做合作伙伴的生意,因为一旦做了别的领域,精力会被分散,核心产品的路线图就会受影响,打向全球的计划也会受影响,不忘初心,用极致的技术做驱动大数据发展的引擎,这就是星环科技”。(张艳飞)
注:数据猿记者李昆昆亦参与整理撰稿