作者 | 趙鈺瑩
嘉賓 | 潘臻軒(花名:泰初)
【資料圖】
編輯 | 趙鈺瑩
流圖計(jì)算,一個(gè)基礎(chǔ)軟件領(lǐng)域攻堅(jiān)難度極高的分支。行業(yè)首個(gè)工業(yè)級(jí)流式圖計(jì)算引擎 TuGraph-Analytics,與目前世界范圍內(nèi)有記錄的、最快的圖數(shù)據(jù)庫(kù)開(kāi)源項(xiàng)目 TuGraph DB 來(lái)自于一家中國(guó)企業(yè),這不僅僅解決了國(guó)產(chǎn)基礎(chǔ)軟件領(lǐng)域的一大難題,健全了開(kāi)源生態(tài),更重要的是向全球展示了中國(guó)的開(kāi)源力量。
Linked Data Benchmark Council(LDBC,關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)測(cè)評(píng)委員會(huì))是全球公認(rèn)的圖數(shù)據(jù)庫(kù)領(lǐng)域基準(zhǔn)指南制定者與評(píng)測(cè)機(jī)構(gòu),與 TPC 并稱(chēng)為國(guó)際數(shù)據(jù)庫(kù)行業(yè)兩大權(quán)威技術(shù)組織。 在這樣一個(gè)全球權(quán)威的榜單上,螞蟻集團(tuán)的 TuGraph 項(xiàng)目截至目前已 多次高居榜首 ,并不斷在打破由自己創(chuàng)造的世界紀(jì)錄 。
長(zhǎng)久以來(lái),中國(guó)企業(yè)在基礎(chǔ)軟件領(lǐng)域的攻堅(jiān)進(jìn)程不盡如人意,TuGraph 項(xiàng)目讓我們看到了中國(guó)企業(yè)在圖計(jì)算方面的巨大潛力。作為中國(guó)最早研究圖計(jì)算技術(shù)的企業(yè)之一,在工業(yè)界尚無(wú)成熟系統(tǒng)和典型落地場(chǎng)景時(shí)螞蟻集團(tuán)就已經(jīng)投入研發(fā),并在如今構(gòu)建起了世界規(guī)模領(lǐng)先的圖計(jì)算集群,打造了一流的大規(guī)模圖計(jì)算系統(tǒng) TuGraph。
本次,螞蟻集團(tuán)宣布將圖計(jì)算系統(tǒng)中的 流圖計(jì)算引擎 TuGraph-Analytics 正式開(kāi)源。結(jié)合螞蟻圖計(jì)算領(lǐng)域其他項(xiàng)目的優(yōu)異表現(xiàn), 該引擎又將對(duì)開(kāi)源領(lǐng)域及產(chǎn)業(yè)界帶來(lái)哪些價(jià)值?流圖計(jì)算領(lǐng)域“出走半生,歸來(lái)仍是素人”,到底是技術(shù)要求太高還是場(chǎng)景需求不大?AIGC 的興起對(duì)該領(lǐng)域的未來(lái)發(fā)展又會(huì)帶來(lái)哪些影響 ?
本文,InfoQ 采訪到了 螞蟻集團(tuán)流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人潘臻軒(花名:泰初) ,共同就上述問(wèn)題展開(kāi)探討。
最近幾年,隨著國(guó)際上開(kāi)源生態(tài)的不斷壯大,服務(wù)于開(kāi)源事業(yè)的機(jī)構(gòu)日益增多?;饡?huì)和企業(yè)日益成為開(kāi)源發(fā)展中最重要的構(gòu)成部分。海外開(kāi)源商業(yè)閉環(huán)已經(jīng)得到驗(yàn)證,頭部科技企業(yè)紛紛通過(guò)資源、資本、組織等形式賦能開(kāi)源,這也在很大程度上 加速了中國(guó)開(kāi)源賦能環(huán)的發(fā)育和成長(zhǎng),國(guó)內(nèi)基礎(chǔ)軟件領(lǐng)域的開(kāi)源版圖得以不斷完善 。
注:圖片來(lái)自 InfoQ 研究中心《中國(guó)開(kāi)源發(fā)展研究分析 2022》
與此同時(shí),InfoQ 研究中心也觀察到: 開(kāi)源項(xiàng)目的落地場(chǎng)景已經(jīng)從原來(lái)的互聯(lián)網(wǎng)領(lǐng)域向金融、工業(yè)等領(lǐng)域轉(zhuǎn)移,這背后是因?yàn)橹袊?guó)市場(chǎng)數(shù)字化浪潮的不斷涌動(dòng),各領(lǐng)域的數(shù)字化升級(jí)被提上日程,開(kāi)源的價(jià)值進(jìn)一步被放大 。在這個(gè)過(guò)程中,金融、工業(yè)等領(lǐng)域暴露出的需求進(jìn)一步反哺了開(kāi)源項(xiàng)目社區(qū)發(fā)展,這是一個(gè)良性循環(huán)。
具體到流圖計(jì)算領(lǐng)域,以金融場(chǎng)景為例,日益增長(zhǎng)的用戶(hù)規(guī)模和逐漸升級(jí)的攻擊手段,讓信貸風(fēng)控、反洗錢(qián)、反欺詐、資金追蹤的難度越來(lái)越高,而圖技術(shù)因?yàn)榭梢酝ㄟ^(guò)拓展風(fēng)險(xiǎn)特征維度來(lái)提升如上關(guān)鍵環(huán)節(jié)的風(fēng)險(xiǎn)防范能力而廣受關(guān)注。根據(jù) Gartner 的預(yù)測(cè),到 2025 年,圖技術(shù)將應(yīng)用于 80% 的數(shù)據(jù)和分析創(chuàng)新,能夠促進(jìn)企業(yè)的快速?zèng)Q策,這也表明未來(lái)將會(huì)有越來(lái)越多與數(shù)據(jù)相關(guān)的領(lǐng)域和企業(yè)應(yīng)用圖技術(shù)解決問(wèn)題。
那么,流圖計(jì)算技術(shù)到底是如何解決問(wèn)題的?這樣一個(gè)很多人印象中的“小眾”領(lǐng)域?yàn)楹螘?huì)被 Gartner 如此看好 ?
事實(shí)上,流圖計(jì)算是流式計(jì)算和圖數(shù)據(jù)模型的交叉領(lǐng)域。雖然很多人對(duì)這個(gè)名詞感到陌生,但對(duì)流式計(jì)算和圖計(jì)算應(yīng)該有所耳聞。
流,指的是流式動(dòng)態(tài)變化的數(shù)據(jù)流,一般動(dòng)態(tài)的數(shù)據(jù)流有實(shí)時(shí)的日志流,或者數(shù)據(jù)庫(kù)的變化日志。流式計(jì)算最早源于 80 年代學(xué)術(shù)圈關(guān)于流式實(shí)時(shí)計(jì)算的研究,隨著大數(shù)據(jù)的興起,流計(jì)算逐漸演進(jìn)成大數(shù)據(jù)的一個(gè)獨(dú)立分支,基于流式計(jì)算可以很好地提升數(shù)據(jù)計(jì)算的實(shí)效性,能夠基于實(shí)時(shí)的數(shù)據(jù)進(jìn)行決策分析,業(yè)內(nèi)比較熟知的流式計(jì)算引擎,比如 Flink。
圖論最早起源于哥尼斯堡的七橋問(wèn)題。數(shù)據(jù)結(jié)構(gòu)的圖由頂點(diǎn)的集合和邊的集合構(gòu)成。在我們現(xiàn)實(shí)生活當(dāng)中,圖無(wú)處不在,比如資金網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等。
注:哥尼斯堡的七橋問(wèn)題
隨著大數(shù)據(jù)的興起,Google 推出了大規(guī)模圖計(jì)算系統(tǒng) Pregel, 并基于此進(jìn)行 PageRank 算法的計(jì)算,來(lái)獲取網(wǎng)頁(yè)權(quán)重。
流圖計(jì)算繼承了流式計(jì)算和圖計(jì)算的優(yōu)點(diǎn),一方面它基于流式實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,另一方面它構(gòu)建在實(shí)時(shí)數(shù)據(jù)之上構(gòu)建圖模型進(jìn)行計(jì)算,但同時(shí)技術(shù)挑戰(zhàn)也更高了。
采訪中,泰初表示,根據(jù)螞蟻集團(tuán)的應(yīng)用實(shí)踐和來(lái)自金融風(fēng)控等多個(gè)場(chǎng)景的應(yīng)用反饋,流圖計(jì)算的價(jià)值在螞蟻集團(tuán)內(nèi)部得到了廣泛的認(rèn)可,但因?yàn)槠溆幸欢ǖ募夹g(shù)門(mén)檻,并需要更加復(fù)合型的人才,導(dǎo)致今天看起來(lái)似乎依舊“小眾”,螞蟻集團(tuán)希望通過(guò)開(kāi)源的方式降低門(mén)檻,讓生態(tài)更加繁榮,讓流圖計(jì)算技術(shù)更加普惠。
注:螞蟻?zhàn)匝械墓I(yè)級(jí)流式圖計(jì)算引擎 TuGraph Analytics
經(jīng)過(guò)六年的技術(shù)積累、半年多的準(zhǔn)備和內(nèi)部開(kāi)源技術(shù)委員會(huì)評(píng)審,TuGraph-Analytics 最終被螞蟻集團(tuán)定為 A 級(jí)項(xiàng)目(該級(jí)別意味著公司將會(huì)投入眾多資源支持項(xiàng)目的持續(xù)運(yùn)營(yíng))正式開(kāi)源。
注:TuGraph-Analytics 的開(kāi)源路線圖
很多人因?yàn)榭匆?jiàn),所以相信。如今,螞蟻集團(tuán)想辦法讓更多人不僅能看見(jiàn)流圖計(jì)算的價(jià)值,還能實(shí)際感受到。根據(jù)泰初的介紹,項(xiàng)目開(kāi)源后會(huì)給出大量文檔,后期也會(huì)做很多公開(kāi)課等運(yùn)營(yíng)動(dòng)作。目前, 開(kāi)發(fā)者根據(jù)案例十分鐘就可以運(yùn)行一個(gè)簡(jiǎn)單的 demo,初步體會(huì)該項(xiàng)目的價(jià)值 。
根據(jù)團(tuán)隊(duì)的經(jīng)驗(yàn),假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統(tǒng)方式可以將風(fēng)控時(shí)效性從小時(shí)級(jí)降到秒級(jí)。對(duì)于 數(shù)據(jù)模型天然適合圖模型,同時(shí)希望能夠更快看到圖計(jì)算的價(jià)值的應(yīng)用,流圖計(jì)算引擎 TuGraph-Analytics 是更加合適的選擇 。
開(kāi)源地址: /TuGraph-family/tugraph-analytics
對(duì)外界來(lái)說(shuō),開(kāi)源只是一個(gè)動(dòng)作。但對(duì)螞蟻集團(tuán)流圖計(jì)算團(tuán)隊(duì)來(lái)說(shuō),這是不斷踩坑、不斷進(jìn)化的結(jié)果。
螞蟻集團(tuán)對(duì)流圖計(jì)算的探索大致可以分為三個(gè)階段: 創(chuàng)業(yè)階段、規(guī)模落地、持續(xù)優(yōu)化 。
在創(chuàng)業(yè)階段,反套現(xiàn)成為團(tuán)隊(duì)遇到的第一個(gè)挑戰(zhàn) 。在花唄反套現(xiàn)場(chǎng)景中,并不是每一筆交易或回款行為都需要進(jìn)行套現(xiàn)行為的識(shí)別,需要先進(jìn)行一定的規(guī)則處理。比如,基于實(shí)時(shí)統(tǒng)計(jì)交易的筆數(shù)或者回款金額,在滿足一定的條件后才開(kāi)始進(jìn)行子圖的迭代計(jì)算。最后,基于圖的迭代計(jì)算結(jié)果,在進(jìn)行后續(xù)數(shù)據(jù)鏈路的處理后再提供給在線使用。因此,一個(gè)場(chǎng)景在完整的計(jì)算鏈路中,需要流計(jì)算和圖計(jì)算兩種計(jì)算范式的融合計(jì)算。
當(dāng)時(shí)的流圖計(jì)算團(tuán)隊(duì)僅僅只有兩名成員,探索了一年多的時(shí)間才將該技術(shù)在內(nèi)部初步落地?!半m然公司在這個(gè)過(guò)程中沒(méi)有給我們太多壓力,這也特別感謝螞蟻對(duì)前沿技術(shù)探索的接受度和包容度,但其實(shí)個(gè)人壓力是非常大的?!?
在規(guī)模落地階段,團(tuán)隊(duì)雖然在不斷壯大,但是也迎來(lái)了一場(chǎng)“技術(shù)大考”。 2018 年的雙 11,流圖計(jì)算做到了在大促極端流量高峰情況下,動(dòng)態(tài)識(shí)別超過(guò)六度關(guān)系鏈(隱蔽性強(qiáng))的異常資金風(fēng)險(xiǎn),這一風(fēng)控能力在當(dāng)時(shí)的業(yè)界非常領(lǐng)先。
“ 那時(shí),我們從 6、7 月份就開(kāi)始和業(yè)務(wù)同學(xué)一起閉關(guān)籌備雙 11,內(nèi)部做了幾輪流量壓測(cè),包括極端情況下的解決方案全部討論完畢才確定推到雙 11。 ”
在那以后,越來(lái)越多的業(yè)務(wù)方希望通過(guò)部署流圖計(jì)算技術(shù)解決來(lái)問(wèn)題。此時(shí),團(tuán)隊(duì)又迎來(lái)了難題:怎么把門(mén)檻降得再低一些,讓業(yè)務(wù)方可以最低成本用起來(lái)。團(tuán)隊(duì)開(kāi)始和中臺(tái)聯(lián)動(dòng),通過(guò)支持特定的中臺(tái)(比如風(fēng)控中臺(tái)、知識(shí)圖譜等)快速覆蓋一類(lèi)場(chǎng)景用戶(hù),從而讓更多的業(yè)務(wù)用起流圖計(jì)算。
當(dāng)解決這些問(wèn)題之后,螞蟻流圖計(jì)算踏入第三個(gè)階段——持續(xù)優(yōu)化 。2020 年前后,隨著圖在螞蟻應(yīng)用的越來(lái)越廣,體系化的建設(shè)給團(tuán)隊(duì)帶來(lái)了很大的挑戰(zhàn)。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶(hù)可以基于一套 DSL 支持基于離線的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并在隨后的時(shí)間內(nèi)針對(duì)計(jì)算框架、存儲(chǔ)引擎等做了持續(xù)性?xún)?yōu)化,這些工作未來(lái)也都將通過(guò)開(kāi)源的方式貢獻(xiàn)給社區(qū)。
目前,流圖計(jì)算在螞蟻內(nèi)部及產(chǎn)業(yè)界得到廣泛應(yīng)用,比如金融風(fēng)控 (支付風(fēng)控、信貸風(fēng)控、基礎(chǔ)安全風(fēng)控)、知識(shí)圖譜 (商戶(hù)圖譜、資金圖譜、企業(yè)圖譜)、會(huì)員社交 (新春五福、親密支付、會(huì)員增長(zhǎng)) 以及數(shù)據(jù)應(yīng)用 (資金基線、數(shù)據(jù)血緣、歸因分析) 等百余場(chǎng)景。
基于流式動(dòng)態(tài)圖構(gòu)建的資金云圖項(xiàng)目實(shí)現(xiàn)了長(zhǎng)周期萬(wàn)度資金流轉(zhuǎn)分析,且支持秒級(jí)還原資金路徑,成功解決了金融場(chǎng)景下因資金鏈路復(fù)雜,導(dǎo)致風(fēng)險(xiǎn)分析難、識(shí)別率低、時(shí)效性差等業(yè)界難題。
發(fā)展至今,螞蟻集團(tuán)已經(jīng)形成了完備的圖計(jì)算版圖,彼此能力互補(bǔ) 。比如 TuGraph-DB 作為圖數(shù)據(jù)庫(kù),主要應(yīng)用場(chǎng)景是數(shù)據(jù)管理和查詢(xún)。TuGraph-Analytics 作為流式圖計(jì)算引擎,偏重于流式實(shí)時(shí)圖的分析和計(jì)算。在解決業(yè)務(wù)問(wèn)題時(shí),二者一般聯(lián)動(dòng)運(yùn)行,比如基于 TuGraph-Analytics 進(jìn)行實(shí)時(shí)數(shù)據(jù)分析,并將分析之后的數(shù)據(jù)寫(xiě)回到 TuGraph-DB,提供查詢(xún)服務(wù)。
注:螞蟻圖計(jì)算平臺(tái) TuGraph 已達(dá)世界領(lǐng)先水平
不難看出,開(kāi)源并非一時(shí)興起,而是基于豐富的技術(shù)積累和場(chǎng)景磨練 。在看到價(jià)值之后,團(tuán)隊(duì)第一時(shí)間就選擇開(kāi)源,讓 TuGraph-Analytics 快速賦能整個(gè)行業(yè),從而更好地助力整個(gè)行業(yè)的數(shù)字化升級(jí)。
從產(chǎn)業(yè)視角來(lái)看,當(dāng)前流圖計(jì)算還處于起步階段。TuGraph-Analytics 這類(lèi)項(xiàng)目的開(kāi)源,可以更好地讓產(chǎn)業(yè)各方參與到流圖計(jì)算方向的建設(shè),同時(shí)也會(huì)出現(xiàn)更多解決方案推動(dòng)整個(gè)行業(yè)更好地發(fā)揮流圖計(jì)算的價(jià)值。
AIGC 的火爆讓每一個(gè)領(lǐng)域的從業(yè)者都開(kāi)始重新評(píng)估自身所從事的工作會(huì)發(fā)生哪些變化。這樣的技術(shù)革新,流圖計(jì)算團(tuán)隊(duì)同樣關(guān)注到了。采訪中,泰初表示初步判斷這對(duì)流圖計(jì)算領(lǐng)域是利好的,可以進(jìn)一步降低用戶(hù)的交互門(mén)檻。未來(lái),用戶(hù)有望通過(guò)自然語(yǔ)言的方式直接獲取想要的信息,團(tuán)隊(duì)圍繞此也做了初步規(guī)劃。即便不談 AIGC,流圖計(jì)算領(lǐng)域未來(lái)也會(huì)越來(lái)越熱鬧,因?yàn)閳D本身能夠解決更多復(fù)雜問(wèn)題。
從標(biāo)準(zhǔn)化層面來(lái)看,該領(lǐng)域的標(biāo)準(zhǔn)正在被逐步建立,比如圖的查詢(xún)語(yǔ)言之前一直沒(méi)有相關(guān)標(biāo)準(zhǔn),但最近兩年已經(jīng)有相關(guān)組織在牽頭做這件事情,其他方面也是如此。隨著技術(shù)的成熟和標(biāo)準(zhǔn)的建立,產(chǎn)業(yè)實(shí)踐路徑漸趨清晰。我們有理由相信,流圖計(jì)算領(lǐng)域未來(lái)可期。
嘉賓介紹
潘臻軒 ,螞蟻集團(tuán)資深技術(shù)專(zhuān)家,現(xiàn)螞蟻流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人。2012 年加入阿里集團(tuán)數(shù)據(jù)平臺(tái),2016 年加入螞蟻集團(tuán)數(shù)據(jù)技術(shù)部,經(jīng)歷了阿里和螞蟻實(shí)時(shí)計(jì)算從 0 到 1 的演進(jìn),從 2017 年底開(kāi)始負(fù)責(zé)流式圖系統(tǒng)和團(tuán)隊(duì)的構(gòu)建,從 0 到 1 打造了螞蟻的流式圖系統(tǒng),對(duì)實(shí)時(shí)計(jì)算和圖計(jì)算以及上層的應(yīng)用場(chǎng)景有深入的理解。
相關(guān)閱讀 :
《中國(guó)開(kāi)源發(fā)展研究分析 2022》
《螞蟻圖數(shù)據(jù)庫(kù)再獲 LDBC 權(quán)威測(cè)試世界第一》
《坐擁多個(gè) TOP 級(jí)開(kāi)源項(xiàng)目,不搞“競(jìng)爭(zhēng)性開(kāi)源”,螞蟻在玩一種很新的開(kāi)源》
《未來(lái)幾年,圖計(jì)算或許是一條很好的賽道》
嘉賓 | 潘臻軒(花名:泰初)
編輯 | 趙鈺瑩
流圖計(jì)算,一個(gè)基礎(chǔ)軟件領(lǐng)域攻堅(jiān)難度極高的分支。行業(yè)首個(gè)工業(yè)級(jí)流式圖計(jì)算引擎 TuGraph-Analytics,與目前世界范圍內(nèi)有記錄的、最快的圖數(shù)據(jù)庫(kù)開(kāi)源項(xiàng)目 TuGraph DB 來(lái)自于一家中國(guó)企業(yè),這不僅僅解決了國(guó)產(chǎn)基礎(chǔ)軟件領(lǐng)域的一大難題,健全了開(kāi)源生態(tài),更重要的是向全球展示了中國(guó)的開(kāi)源力量。
Linked Data Benchmark Council(LDBC,關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)測(cè)評(píng)委員會(huì))是全球公認(rèn)的圖數(shù)據(jù)庫(kù)領(lǐng)域基準(zhǔn)指南制定者與評(píng)測(cè)機(jī)構(gòu),與 TPC 并稱(chēng)為國(guó)際數(shù)據(jù)庫(kù)行業(yè)兩大權(quán)威技術(shù)組織。 在這樣一個(gè)全球權(quán)威的榜單上,螞蟻集團(tuán)的 TuGraph 項(xiàng)目截至目前已 多次高居榜首 ,并不斷在打破由自己創(chuàng)造的世界紀(jì)錄 。
長(zhǎng)久以來(lái),中國(guó)企業(yè)在基礎(chǔ)軟件領(lǐng)域的攻堅(jiān)進(jìn)程不盡如人意,TuGraph 項(xiàng)目讓我們看到了中國(guó)企業(yè)在圖計(jì)算方面的巨大潛力。作為中國(guó)最早研究圖計(jì)算技術(shù)的企業(yè)之一,在工業(yè)界尚無(wú)成熟系統(tǒng)和典型落地場(chǎng)景時(shí)螞蟻集團(tuán)就已經(jīng)投入研發(fā),并在如今構(gòu)建起了世界規(guī)模領(lǐng)先的圖計(jì)算集群,打造了一流的大規(guī)模圖計(jì)算系統(tǒng) TuGraph。
本次,螞蟻集團(tuán)宣布將圖計(jì)算系統(tǒng)中的 流圖計(jì)算引擎 TuGraph-Analytics 正式開(kāi)源。結(jié)合螞蟻圖計(jì)算領(lǐng)域其他項(xiàng)目的優(yōu)異表現(xiàn), 該引擎又將對(duì)開(kāi)源領(lǐng)域及產(chǎn)業(yè)界帶來(lái)哪些價(jià)值?流圖計(jì)算領(lǐng)域“出走半生,歸來(lái)仍是素人”,到底是技術(shù)要求太高還是場(chǎng)景需求不大?AIGC 的興起對(duì)該領(lǐng)域的未來(lái)發(fā)展又會(huì)帶來(lái)哪些影響 ?
本文,InfoQ 采訪到了 螞蟻集團(tuán)流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人潘臻軒(花名:泰初) ,共同就上述問(wèn)題展開(kāi)探討。
最近幾年,隨著國(guó)際上開(kāi)源生態(tài)的不斷壯大,服務(wù)于開(kāi)源事業(yè)的機(jī)構(gòu)日益增多?;饡?huì)和企業(yè)日益成為開(kāi)源發(fā)展中最重要的構(gòu)成部分。海外開(kāi)源商業(yè)閉環(huán)已經(jīng)得到驗(yàn)證,頭部科技企業(yè)紛紛通過(guò)資源、資本、組織等形式賦能開(kāi)源,這也在很大程度上 加速了中國(guó)開(kāi)源賦能環(huán)的發(fā)育和成長(zhǎng),國(guó)內(nèi)基礎(chǔ)軟件領(lǐng)域的開(kāi)源版圖得以不斷完善 。
注:圖片來(lái)自 InfoQ 研究中心《中國(guó)開(kāi)源發(fā)展研究分析 2022》
與此同時(shí),InfoQ 研究中心也觀察到: 開(kāi)源項(xiàng)目的落地場(chǎng)景已經(jīng)從原來(lái)的互聯(lián)網(wǎng)領(lǐng)域向金融、工業(yè)等領(lǐng)域轉(zhuǎn)移,這背后是因?yàn)橹袊?guó)市場(chǎng)數(shù)字化浪潮的不斷涌動(dòng),各領(lǐng)域的數(shù)字化升級(jí)被提上日程,開(kāi)源的價(jià)值進(jìn)一步被放大 。在這個(gè)過(guò)程中,金融、工業(yè)等領(lǐng)域暴露出的需求進(jìn)一步反哺了開(kāi)源項(xiàng)目社區(qū)發(fā)展,這是一個(gè)良性循環(huán)。
具體到流圖計(jì)算領(lǐng)域,以金融場(chǎng)景為例,日益增長(zhǎng)的用戶(hù)規(guī)模和逐漸升級(jí)的攻擊手段,讓信貸風(fēng)控、反洗錢(qián)、反欺詐、資金追蹤的難度越來(lái)越高,而圖技術(shù)因?yàn)榭梢酝ㄟ^(guò)拓展風(fēng)險(xiǎn)特征維度來(lái)提升如上關(guān)鍵環(huán)節(jié)的風(fēng)險(xiǎn)防范能力而廣受關(guān)注。根據(jù) Gartner 的預(yù)測(cè),到 2025 年,圖技術(shù)將應(yīng)用于 80% 的數(shù)據(jù)和分析創(chuàng)新,能夠促進(jìn)企業(yè)的快速?zèng)Q策,這也表明未來(lái)將會(huì)有越來(lái)越多與數(shù)據(jù)相關(guān)的領(lǐng)域和企業(yè)應(yīng)用圖技術(shù)解決問(wèn)題。
那么,流圖計(jì)算技術(shù)到底是如何解決問(wèn)題的?這樣一個(gè)很多人印象中的“小眾”領(lǐng)域?yàn)楹螘?huì)被 Gartner 如此看好 ?
事實(shí)上,流圖計(jì)算是流式計(jì)算和圖數(shù)據(jù)模型的交叉領(lǐng)域。雖然很多人對(duì)這個(gè)名詞感到陌生,但對(duì)流式計(jì)算和圖計(jì)算應(yīng)該有所耳聞。
流,指的是流式動(dòng)態(tài)變化的數(shù)據(jù)流,一般動(dòng)態(tài)的數(shù)據(jù)流有實(shí)時(shí)的日志流,或者數(shù)據(jù)庫(kù)的變化日志。流式計(jì)算最早源于 80 年代學(xué)術(shù)圈關(guān)于流式實(shí)時(shí)計(jì)算的研究,隨著大數(shù)據(jù)的興起,流計(jì)算逐漸演進(jìn)成大數(shù)據(jù)的一個(gè)獨(dú)立分支,基于流式計(jì)算可以很好地提升數(shù)據(jù)計(jì)算的實(shí)效性,能夠基于實(shí)時(shí)的數(shù)據(jù)進(jìn)行決策分析,業(yè)內(nèi)比較熟知的流式計(jì)算引擎,比如 Flink。
圖論最早起源于哥尼斯堡的七橋問(wèn)題。數(shù)據(jù)結(jié)構(gòu)的圖由頂點(diǎn)的集合和邊的集合構(gòu)成。在我們現(xiàn)實(shí)生活當(dāng)中,圖無(wú)處不在,比如資金網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等。
注:哥尼斯堡的七橋問(wèn)題
隨著大數(shù)據(jù)的興起,Google 推出了大規(guī)模圖計(jì)算系統(tǒng) Pregel, 并基于此進(jìn)行 PageRank 算法的計(jì)算,來(lái)獲取網(wǎng)頁(yè)權(quán)重。
流圖計(jì)算繼承了流式計(jì)算和圖計(jì)算的優(yōu)點(diǎn),一方面它基于流式實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,另一方面它構(gòu)建在實(shí)時(shí)數(shù)據(jù)之上構(gòu)建圖模型進(jìn)行計(jì)算,但同時(shí)技術(shù)挑戰(zhàn)也更高了。
采訪中,泰初表示,根據(jù)螞蟻集團(tuán)的應(yīng)用實(shí)踐和來(lái)自金融風(fēng)控等多個(gè)場(chǎng)景的應(yīng)用反饋,流圖計(jì)算的價(jià)值在螞蟻集團(tuán)內(nèi)部得到了廣泛的認(rèn)可,但因?yàn)槠溆幸欢ǖ募夹g(shù)門(mén)檻,并需要更加復(fù)合型的人才,導(dǎo)致今天看起來(lái)似乎依舊“小眾”,螞蟻集團(tuán)希望通過(guò)開(kāi)源的方式降低門(mén)檻,讓生態(tài)更加繁榮,讓流圖計(jì)算技術(shù)更加普惠。
注:螞蟻?zhàn)匝械墓I(yè)級(jí)流式圖計(jì)算引擎 TuGraph Analytics
經(jīng)過(guò)六年的技術(shù)積累、半年多的準(zhǔn)備和內(nèi)部開(kāi)源技術(shù)委員會(huì)評(píng)審,TuGraph-Analytics 最終被螞蟻集團(tuán)定為 A 級(jí)項(xiàng)目(該級(jí)別意味著公司將會(huì)投入眾多資源支持項(xiàng)目的持續(xù)運(yùn)營(yíng))正式開(kāi)源。
注:TuGraph-Analytics 的開(kāi)源路線圖
很多人因?yàn)榭匆?jiàn),所以相信。如今,螞蟻集團(tuán)想辦法讓更多人不僅能看見(jiàn)流圖計(jì)算的價(jià)值,還能實(shí)際感受到。根據(jù)泰初的介紹,項(xiàng)目開(kāi)源后會(huì)給出大量文檔,后期也會(huì)做很多公開(kāi)課等運(yùn)營(yíng)動(dòng)作。目前, 開(kāi)發(fā)者根據(jù)案例十分鐘就可以運(yùn)行一個(gè)簡(jiǎn)單的 demo,初步體會(huì)該項(xiàng)目的價(jià)值 。
根據(jù)團(tuán)隊(duì)的經(jīng)驗(yàn),假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統(tǒng)方式可以將風(fēng)控時(shí)效性從小時(shí)級(jí)降到秒級(jí)。對(duì)于 數(shù)據(jù)模型天然適合圖模型,同時(shí)希望能夠更快看到圖計(jì)算的價(jià)值的應(yīng)用,流圖計(jì)算引擎 TuGraph-Analytics 是更加合適的選擇 。
開(kāi)源地址: /TuGraph-family/tugraph-analytics
對(duì)外界來(lái)說(shuō),開(kāi)源只是一個(gè)動(dòng)作。但對(duì)螞蟻集團(tuán)流圖計(jì)算團(tuán)隊(duì)來(lái)說(shuō),這是不斷踩坑、不斷進(jìn)化的結(jié)果。
螞蟻集團(tuán)對(duì)流圖計(jì)算的探索大致可以分為三個(gè)階段: 創(chuàng)業(yè)階段、規(guī)模落地、持續(xù)優(yōu)化 。
在創(chuàng)業(yè)階段,反套現(xiàn)成為團(tuán)隊(duì)遇到的第一個(gè)挑戰(zhàn) 。在花唄反套現(xiàn)場(chǎng)景中,并不是每一筆交易或回款行為都需要進(jìn)行套現(xiàn)行為的識(shí)別,需要先進(jìn)行一定的規(guī)則處理。比如,基于實(shí)時(shí)統(tǒng)計(jì)交易的筆數(shù)或者回款金額,在滿足一定的條件后才開(kāi)始進(jìn)行子圖的迭代計(jì)算。最后,基于圖的迭代計(jì)算結(jié)果,在進(jìn)行后續(xù)數(shù)據(jù)鏈路的處理后再提供給在線使用。因此,一個(gè)場(chǎng)景在完整的計(jì)算鏈路中,需要流計(jì)算和圖計(jì)算兩種計(jì)算范式的融合計(jì)算。
當(dāng)時(shí)的流圖計(jì)算團(tuán)隊(duì)僅僅只有兩名成員,探索了一年多的時(shí)間才將該技術(shù)在內(nèi)部初步落地。“雖然公司在這個(gè)過(guò)程中沒(méi)有給我們太多壓力,這也特別感謝螞蟻對(duì)前沿技術(shù)探索的接受度和包容度,但其實(shí)個(gè)人壓力是非常大的?!?
在規(guī)模落地階段,團(tuán)隊(duì)雖然在不斷壯大,但是也迎來(lái)了一場(chǎng)“技術(shù)大考”。 2018 年的雙 11,流圖計(jì)算做到了在大促極端流量高峰情況下,動(dòng)態(tài)識(shí)別超過(guò)六度關(guān)系鏈(隱蔽性強(qiáng))的異常資金風(fēng)險(xiǎn),這一風(fēng)控能力在當(dāng)時(shí)的業(yè)界非常領(lǐng)先。
“ 那時(shí),我們從 6、7 月份就開(kāi)始和業(yè)務(wù)同學(xué)一起閉關(guān)籌備雙 11,內(nèi)部做了幾輪流量壓測(cè),包括極端情況下的解決方案全部討論完畢才確定推到雙 11。 ”
在那以后,越來(lái)越多的業(yè)務(wù)方希望通過(guò)部署流圖計(jì)算技術(shù)解決來(lái)問(wèn)題。此時(shí),團(tuán)隊(duì)又迎來(lái)了難題:怎么把門(mén)檻降得再低一些,讓業(yè)務(wù)方可以最低成本用起來(lái)。團(tuán)隊(duì)開(kāi)始和中臺(tái)聯(lián)動(dòng),通過(guò)支持特定的中臺(tái)(比如風(fēng)控中臺(tái)、知識(shí)圖譜等)快速覆蓋一類(lèi)場(chǎng)景用戶(hù),從而讓更多的業(yè)務(wù)用起流圖計(jì)算。
當(dāng)解決這些問(wèn)題之后,螞蟻流圖計(jì)算踏入第三個(gè)階段——持續(xù)優(yōu)化 。2020 年前后,隨著圖在螞蟻應(yīng)用的越來(lái)越廣,體系化的建設(shè)給團(tuán)隊(duì)帶來(lái)了很大的挑戰(zhàn)。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶(hù)可以基于一套 DSL 支持基于離線的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并在隨后的時(shí)間內(nèi)針對(duì)計(jì)算框架、存儲(chǔ)引擎等做了持續(xù)性?xún)?yōu)化,這些工作未來(lái)也都將通過(guò)開(kāi)源的方式貢獻(xiàn)給社區(qū)。
目前,流圖計(jì)算在螞蟻內(nèi)部及產(chǎn)業(yè)界得到廣泛應(yīng)用,比如金融風(fēng)控 (支付風(fēng)控、信貸風(fēng)控、基礎(chǔ)安全風(fēng)控)、知識(shí)圖譜 (商戶(hù)圖譜、資金圖譜、企業(yè)圖譜)、會(huì)員社交 (新春五福、親密支付、會(huì)員增長(zhǎng)) 以及數(shù)據(jù)應(yīng)用 (資金基線、數(shù)據(jù)血緣、歸因分析) 等百余場(chǎng)景。
基于流式動(dòng)態(tài)圖構(gòu)建的資金云圖項(xiàng)目實(shí)現(xiàn)了長(zhǎng)周期萬(wàn)度資金流轉(zhuǎn)分析,且支持秒級(jí)還原資金路徑,成功解決了金融場(chǎng)景下因資金鏈路復(fù)雜,導(dǎo)致風(fēng)險(xiǎn)分析難、識(shí)別率低、時(shí)效性差等業(yè)界難題。
發(fā)展至今,螞蟻集團(tuán)已經(jīng)形成了完備的圖計(jì)算版圖,彼此能力互補(bǔ) 。比如 TuGraph-DB 作為圖數(shù)據(jù)庫(kù),主要應(yīng)用場(chǎng)景是數(shù)據(jù)管理和查詢(xún)。TuGraph-Analytics 作為流式圖計(jì)算引擎,偏重于流式實(shí)時(shí)圖的分析和計(jì)算。在解決業(yè)務(wù)問(wèn)題時(shí),二者一般聯(lián)動(dòng)運(yùn)行,比如基于 TuGraph-Analytics 進(jìn)行實(shí)時(shí)數(shù)據(jù)分析,并將分析之后的數(shù)據(jù)寫(xiě)回到 TuGraph-DB,提供查詢(xún)服務(wù)。
注:螞蟻圖計(jì)算平臺(tái) TuGraph 已達(dá)世界領(lǐng)先水平
不難看出,開(kāi)源并非一時(shí)興起,而是基于豐富的技術(shù)積累和場(chǎng)景磨練 。在看到價(jià)值之后,團(tuán)隊(duì)第一時(shí)間就選擇開(kāi)源,讓 TuGraph-Analytics 快速賦能整個(gè)行業(yè),從而更好地助力整個(gè)行業(yè)的數(shù)字化升級(jí)。
從產(chǎn)業(yè)視角來(lái)看,當(dāng)前流圖計(jì)算還處于起步階段。TuGraph-Analytics 這類(lèi)項(xiàng)目的開(kāi)源,可以更好地讓產(chǎn)業(yè)各方參與到流圖計(jì)算方向的建設(shè),同時(shí)也會(huì)出現(xiàn)更多解決方案推動(dòng)整個(gè)行業(yè)更好地發(fā)揮流圖計(jì)算的價(jià)值。
AIGC 的火爆讓每一個(gè)領(lǐng)域的從業(yè)者都開(kāi)始重新評(píng)估自身所從事的工作會(huì)發(fā)生哪些變化。這樣的技術(shù)革新,流圖計(jì)算團(tuán)隊(duì)同樣關(guān)注到了。采訪中,泰初表示初步判斷這對(duì)流圖計(jì)算領(lǐng)域是利好的,可以進(jìn)一步降低用戶(hù)的交互門(mén)檻。未來(lái),用戶(hù)有望通過(guò)自然語(yǔ)言的方式直接獲取想要的信息,團(tuán)隊(duì)圍繞此也做了初步規(guī)劃。即便不談 AIGC,流圖計(jì)算領(lǐng)域未來(lái)也會(huì)越來(lái)越熱鬧,因?yàn)閳D本身能夠解決更多復(fù)雜問(wèn)題。
從標(biāo)準(zhǔn)化層面來(lái)看,該領(lǐng)域的標(biāo)準(zhǔn)正在被逐步建立,比如圖的查詢(xún)語(yǔ)言之前一直沒(méi)有相關(guān)標(biāo)準(zhǔn),但最近兩年已經(jīng)有相關(guān)組織在牽頭做這件事情,其他方面也是如此。隨著技術(shù)的成熟和標(biāo)準(zhǔn)的建立,產(chǎn)業(yè)實(shí)踐路徑漸趨清晰。我們有理由相信,流圖計(jì)算領(lǐng)域未來(lái)可期。
嘉賓介紹
潘臻軒 ,螞蟻集團(tuán)資深技術(shù)專(zhuān)家,現(xiàn)螞蟻流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人。2012 年加入阿里集團(tuán)數(shù)據(jù)平臺(tái),2016 年加入螞蟻集團(tuán)數(shù)據(jù)技術(shù)部,經(jīng)歷了阿里和螞蟻實(shí)時(shí)計(jì)算從 0 到 1 的演進(jìn),從 2017 年底開(kāi)始負(fù)責(zé)流式圖系統(tǒng)和團(tuán)隊(duì)的構(gòu)建,從 0 到 1 打造了螞蟻的流式圖系統(tǒng),對(duì)實(shí)時(shí)計(jì)算和圖計(jì)算以及上層的應(yīng)用場(chǎng)景有深入的理解。
相關(guān)閱讀 :
《中國(guó)開(kāi)源發(fā)展研究分析 2022》
《螞蟻圖數(shù)據(jù)庫(kù)再獲 LDBC 權(quán)威測(cè)試世界第一》
《坐擁多個(gè) TOP 級(jí)開(kāi)源項(xiàng)目,不搞“競(jìng)爭(zhēng)性開(kāi)源”,螞蟻在玩一種很新的開(kāi)源》
《未來(lái)幾年,圖計(jì)算或許是一條很好的賽道》
[責(zé)任編輯:linlin]
標(biāo)簽: