近期,工业和信息化部等八部门联合印发《物联网新型基础设施建设三年行动计划(2021—2023年)》,明确到2023年底,在国内主要城市初步建成物联网新型基础设施,物联网连接数突破20亿。这一数字背后,意味着更加庞大的数据规模。在物流领域同样如此,随着行业的发展,无论车联网规模还是不同规模物流中心内智能设备的接入量都在大幅增加。面对随之而来的具有时效性强、实时数据量大等特点的海量数据,如何实现高效的数据存储和处理至关重要。
基于此,各种涵盖数据采集、存储、查询、分析和计算等功能的物联网数据平台开始不断涌现,北京涛思数据科技有限公司(以下简称“涛思数据”)便是其中之一。但是,不走寻常路的涛思数据,不仅摒弃传统基于Hadoop生态的搭建方式,推出专为时序空间大数据设计的时序数据库平台,更是以开源的方式,突破行业传统思维,开创了一条大胆创新探索之路,成为时序数据领域炙手可热的标杆企业。
与涛思数据创始人陶建辉的初次会面,刚好在一场大雪之后。突然而至的大雪一夜之间便褪去了北京绚丽多彩的秋色,但雪后碧蓝的天空,光秃的树枝,与涛思数据所在的望京CBD设计别致的建筑群相互映衬着,倒也具有别样的美。大自然总是充满神秘莫测的变化,而对于软件行业出身的陶建辉来说,最熟悉的却莫过于变化。软件行业可以说是技术更新换代速度最快的行业之一,就拿App来说,其平均寿命大概只有10个月。想做一款“长命”的基础性软件产品的念头,很久之前就开始在陶建辉的脑中萌生。最终,两方面的原因坚定了他的信念。
一是蓬勃的市场需求。随着互联网的发展,特别是通讯成本的急剧下降,各式各样的数据被采集并发送到云端,数据量呈现爆炸式地增长。“10年前,你很难想象,几乎每辆车、每台设备都在源源不断地产生数据;现在,这一切都在发生;未来,这一趋势还将加速。工业领域在传统的实时监控技术上,各种大数据分析技术、特别是人工智能技术,让采集的大数据产生了巨大的商业价值,催生了一个前所未有的市场。”他表示。
二是技术的相对落后。他进一步分享道:“相对于数据量的快速增长,数据处理的技术却相对落后。虽然市场上已经有从存储、计算到分析较为完整的大数据处理框架,包括各种免费开源系统,但需要耗费大量的存储空间和计算资源。一个运营商光存储查询半年的上网记录就需要使用数千台服务器,而且还需要不断扩容。因此海量数据的增长对技术提出了更大的挑战,也给我们这些技术极客们提供了一个巨大的机会。”
如何弥补现有技术的缺陷,充分满足庞大的市场需求,成为陶建辉接下来要考虑的重点。在对整个物联网和大数据生态进行研究后,他发现,通用大数据方案通常会将开源的Kafka、Redis、HBase、MongoDB、Cassandra等大数据软件拼装起来,利用集群来处理海量数据。因涉及多种系统,开发效率低、运行效率差、运维复杂、应用推向市场慢等问题频发。对于数据采集量巨大的物联网、工业互联网等行业,传统的通用大数据方案更加难以为继。而通过存储结构的优化则可以大大提升性能。海量时序空间数据处理(从采集、存储、查询、计算到分析)无疑是个巨大的机会。正是在此背景之下,2017年6月涛思数据正式成立,随后,物联网大数据平台TDengine应运而生。
“作为一款基础性软件,TDengine就好比一块小小的砖头,无论整个软件世界如何变化,迭代,若干年后它依然可以发挥价值,如此我便很知足了。”陶建辉笑着补充道。尽管涛思数据成立已经4年多了,但在回忆公司创立过程时,他的脸上依然满是似乎创业者初期才有的激情与昂扬。
TDengine定位是物联网大数据平台,即时序数据处理平台,其核心是将时序数据实时数据和历史数据操作合一透明,同时具备缓存、数据订阅、流式计算、消息队列等功能,为物联网数据处理提供全栈解决方案。
所谓时序数据,即带时间标签的数据,指按照时间的顺序变化、时间序列化的数据。陶建辉通过对物联网、工业互联网数据进行调研,总结出这类数据的十大特征:
(1)所有采集的数据都是时序的;
(2)数据都是结构化的;
(3)一个采集点的数据源是唯一的;
(4)数据很少有更新或删除操作;
(5)数据一般是按到期日期来删除的;
(6)数据以写操作为主,读操作为辅;
(7)数据流量平稳,可以较为准确的计算;
(8)数据都有统计、聚合等实时计算操作;
(9)数据一定是指定时间段和指定区域查找的;
(10)数据量巨大,一天的数据量就超过100亿条。
针对这些特点,TDengine定义了创新的时序数据存储结构,通过无锁设计和多核技术让数据插入和读出的速度比现有通用数据库高出10倍以上。除此之外,涛思数据还赋予了TDengine两个核心技术创新点,分别是“一个数据采集点一张表”以及“超级表”,保证TDengine插入和查询效率最优化,同时便于进行聚合查询、多维分析。
除了在产品性能、性价比上不断提升,TDengine能够形成更加广泛的影响,还在于陶建辉一个大胆的决定——开源。这一举动在国外软件市场尚不足为奇,但在相对保守的国内市场来说,无疑反响强烈。TDengine自2019年7月正式宣布开源,2020年8月,宣布将集群版本开源以来,所获成绩喜人,在开源社区GitHub(世界上最大的代码托管平台)已收获17k Stars。在资本市场,涛思数据也备受关注,近两年已经先后获得近千万美元的Pre-A轮融资、1000多万美元的A轮融资以及4700万美元的B轮融资。
在陶建辉看来,开源是中国软件走向世界的最好捷径。在目前的这些成绩之外,陶建辉内心始终有一个坚定的目标——做时序数据领域的全球第一。“在基础软件领域,无论操作系统、数据库、软件开发工具还是现在的大数据处理平台,几乎都是美国公司的天下。在基础软件领域占有一席之地,是我们所有IT人的梦想,更是一个国家科技实力的象征。”谈及中国软件的现状他略显遗憾,但是随即恢复了对于未来发展的信心,“中国拥有全球最大的数据市场,其采集的数据量和场景之多已经超过美国。在中国市场成功的大数据产品,一定会被全球市场所接纳。”
开源不仅为涛思数据带来了巨大的成功,为行业做出了很好的表率;对于中国软件人才的培养来说,也具有非常积极的意义。
陶建辉表示,高校学生往往在跟导师做项目时才能够接触到源代码,而各类开放平台上的开源软件也非常有限,但是随着TDengine的开源,学生可以免费接触到无数源代码,这无疑是最好的学习机会和资源,会对中国软件整体水平的提高起到积极的促进作用。为了促进大学生对开源的认识和理解,陶建辉先后在清华大学、复旦大学、重庆大学、西南大学、北京大学、中国人民大学、北京邮电大学和中国科学技术大学等20多个高校,分享 TDengine的核心技术,开源背后的思考,鼓励大学生积极参与到开源建设中来。
值得一提的是,对于程序员来说,他们往往是默默地改变着大家生活的一群人,随着软件的开源,他们从产品背后开始走出来,和更广泛的人群有了交流和互动,在相互促进之下,不仅可以进一步提升专业能力,用代码打造属于自己的“名片”,同样也有利于行业整体水平的提高。这些在陶建辉眼中,都是比企业成功更加有意义、有价值的事情。
时序数据的处理,是一切数字化、智能化的基础。在TDengine广泛的服务领域中,物流是非常重要的部分。并且随着物流行业的快速发展、自动驾驶等技术的升级和愈加广泛的应用,对时序数据处理的需求也在不断扩大。
“在物流领域最典型的应用如物流车辆的实时位置和运行轨迹数据,以及物流机器人、穿梭车等移动装备的位置、电池状态,以及路径规划、环境监测、轨迹追踪等等数据,通过TDengine,我们可以实现用更小的空间存储更加海量的数据,同时在最短的时间,将用户需要的数据进行调用,以及分析计算等,为其他更多功能的实现提供支撑。”他针对TDengine在物流领域的应用进行了说明,并进一步举例,国内某快递巨头旗下互联网科技公司,由于其原来采用的时序数据库OpenTSDB性能较差、占用存储空间多、对大跨度高频词的查询支持不够等原因,将目光转向了TDengine,在将大数据监控平台迁移到TDengine之后,其所需服务器从之前的21台减少到3台。此外,TDengine在部署、写入速度、查询速度、存储效率、缓存、流式计算等方面均凸显出明显的优势。此外,如在烟草等行业,随着企业业务的发展,生产中需要监测的指标从几万个增加到几十万甚至百万个以上,TDengine的应用有利于企业提升数据存取效率、打破传统数据孤岛、提升数据有效利用率。
“技术是涛思数据的立身之本,通过技术创新潜心研发极致的产品,让技术创造价值是我们努力的方向。”在整个交流过程中,从他不时爽朗的笑声中,听得出他对涛思数据未来发展的极大信心;从他始终富有激情且面带微笑的脸上,也看得出他对手中事业的热爱。“一般来说,程序员的黄金年龄是25~35岁,像我这样50岁还在写代码的程序员已经是稀有动物了。”陶建辉自嘲到,“但是,我还会继续写,写一辈子。”陶建辉站在大大的落地窗前,窗外视野开阔,阳光正好。