加入收藏 | 设为首页 | 会员中心 | 我要投稿 三明站长网 (https://www.0598zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 交互 > 正文

AI时代的金融级大规模图详解

发布时间:2021-06-14 14:19:27 所属栏目:交互 来源:互联网
导读:云栖ATEC金融科技开放峰会上,蚂蚁金服重点发布了新产品金融数据+智能套件,该套件包含金融计算引擎、数据智能中台、智能应用等组件,整合了许多世界级数据处理与智能分析能力,包括国内首个金融级图数据库GeaBase、实时计算引擎,以及领先的视觉识别、数据
云栖ATEC金融科技开放峰会上,蚂蚁金服重点发布了新产品“金融数据+智能套件”,该套件包含金融计算引擎、数据智能中台、智能应用等组件,整合了许多世界级数据处理与智能分析能力,包括国内首个金融级图数据库GeaBase、实时计算引擎,以及领先的视觉识别、数据智能能力,有效解决过去银行数据分析决策困难、迭代周期长等数据智能困局。
 
今天,我们将重点介绍其中的关键组件——金融级图数据库GeaBase,它有效解决了海量复杂关系数据的离在线查询和分析。
 
试想一下,在金融场景中,数据的组织方式本质上很多是以关系图谱的方式存在的。在数字金融时代,银行获得了场景后,如何发现数据关联进行决策?
 
一般的在线查询使用关系型数据库,但是,关系型数据库不能很好地反应数据之间的内在关联;同样,传统的基于大数据的深度学习算法,依靠统计学原理对模型进行训练,并没有考虑数据和数据之间的内在关系。所以,蚂蚁开发了基于图推理的引擎,为深度学习等支持上层业务的应用搭建计算存储基础,打造更完整的金融大数据链路。
 
GeaBase是蚂蚁金服完全自主研发的新一代金融级实时分布式图数据库,能够实现对超大规模关系网络毫秒级的复杂查询及变更,支撑蚂蚁金服风险控制、资金关系等多个关键应用场景,并都达到百亿个节点,千亿条变量的海量数据规模,为蚂蚁金服的众多业务提供风险控制、反洗钱、反套现、金融案件审理和智能营销推荐等保障和服务。
 
GeaBase历经三年自主研发,团队持续扩大,并吸引众多海归工程师。目前GeaBase不仅支持了蚂蚁金服越来越多的高并发、低延时的业务场景,而且也被广泛应用于阿里巴巴集团的其他业务场景中。
 
下面,通过对蚂蚁金服计算存储首席架构师何昌华、蚂蚁金服基础技术部图计算及存储技术团队等的访谈,我们一起来了解一下GeaBase,以及透过它,我们可以看到的未来金融数据智能蓝图中图分析能力的力量。
 
GeaBase在蚂蚁金服的实践
 
图数据库基本含义是以“图”这种数据结构存储和查询数据。它起源于图理论,数据模型主要是以节点和关系(边)来体现,它的优点是快速解决复杂的关系问题。图数据库在金融行业中有非常广泛的应用,比如反欺诈。
 
我们都知道,大数据应用让很多企业机构在这个数字经济时代享受到优势。而由于用户、系统和传感器产生的数据量呈指数增长,数据内部依赖和复杂度增加等发展因素,许多需要连续两次甚至更多join以上的数据查询场景在互联网行业应用中诞生,传统关系型数据库、大数据算法无法满足日益增长的数据处理要求。
 
除此之外,在实际发展中,随着关系型数据库使用场景的不断扩大,也暴露出一些它始终无法解决问题,其中最主要的是数据建模中的一些缺陷、以及在大数据量和多服务器之上进行水平伸缩的限制。在应对这些趋势时,关系数据库产生了更多的不适应性,从而导致大量解决这些问题中某些特定方面的不同技术出现,其中,图数据库成为了NoSQL中关注度最高、发展趋势最明显的数据库。根据db-engines统计,图数据库过去几年在市场的发展呈现出快速增长的趋势。
 
 
有人说如果传统关系型数据库可以比做火车,图数据库则相当于大数据时代的高铁。如上述所指,随着大数据应用越来越广泛,人们逐渐开始关注到,如何在巨大的关系网络中快速发现有价值的信息,成为了未来数年大数据领域的一大挑战。
 
“比如在资金关系网络中,如果我们发现资金的流动形成一个闭环,这就很可能是一个洗钱行为的讯号。”付志嵩介绍道。付志嵩是目前蚂蚁金服图计算及存储技术团队高级专家,他2015年加入蚂蚁金服,作为主要架构设计和研发人员参与了实时分布式图数据库GeaBase的开发,实现了对超大规模关系网络毫秒级的复杂查询及变更。目前团队的主要职责是研发新一代的分布式图数据库和图计算产品。回国之前,付志嵩服务于美国图数据库公司BlazeGraph,领导了分布式图计算系统的设计和开发。
 
他介绍,此前全球主流商用图数据库完全由国外商业公司垄断,导致我国在技术上无法自主可控,而且这些商用图数据库在扩展性,易用性,性能上都无法满足金融大数据的需求。这些挑战体现在:
 
1、海量数据的现状;
 
2、高并发、低延时的在线查询;
 
3、金融业务场景复杂,需要一套灵活可扩展的查询语言,支持不断迭代的场景;
 
4、需要适配不同数据源和数据导入方式;
 
5、需要高可用及多种容错机制;
 
6、考虑用户使用体验,产品化过程必须要有简单的经营流程。
 
GeaBase为蚂蚁金服自主研发,针对自身面临的海量数据规模、复杂网络和大规模实时计算的需求,经过两年多的发展,通过采用新的架构设计和算法,满足了蚂蚁金服自身金融场景的特点和需求,在蚂蚁金服众多业务场景中,取得了非常好的效果,实现了高可用、高稳定性和可用性、高性能和实时更新的性能优势。
 
值得一提的是,我们也知道,蚂蚁金服还自主研发了取代商业数据库的OceanBase。总的来说,蚂蚁金服使用关系型数据库、图数据库以及图计算,三者各自对应不同场景。从技术实现层面讲,蚂蚁金服的图数据库主要有两大应用场景,一是在线查询,该部分主要包括实时风控、实时营销等,这些场景可统称为实时决策,蚂蚁金服需要在短时间内迅速做出决策,比如某笔转账是否为洗钱或者赌博;二是离线计算,以及知识图谱等。
 
这些问题都可通过图数据库解决,但并不能完全解决所有问题,比如机器学习图模型、分析型反欺诈模型等,在线查询局限在固定范围内读取数据,可保证低时延响应。但是,当计算需要全图迭代时,在线查询性能非常差,离线计算可以很好解决全图迭代问题。
 
总结而言,蚂蚁金服解决方案GeaBase(Graph Exploration and Analytics)集合了在线查询与离线计算两大能力,是一个一站式大规模分布式图处理平台。GeaBase的设计目标主要是两大应用场景,一是高并发低延时在线查询场景,二是全图迭代的离线计算场景。主要提供四大功能,一是数据CRUD,增删查改操作;二是查询FLWOR;三是在线分析,比如风控中使用较多的找闭环;四是离线操作。

(编辑:三明站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读