智東西(公眾號(hào):zhidxcom)
作者 | 三北
編輯 | 漠影

“47塊!第一次搶到這么大的春晚紅包,該在京東買點(diǎn)啥?”

“下午新耳機(jī)就上崗了~~~京東真的快!還用上了除夕搖的紅包?!?/p>

“搶到的京東春晚紅包,幾乎免費(fèi)獲得一臺(tái)紅米k40,這運(yùn)氣簡(jiǎn)直沒誰了,開心!”

今年春晚,秀紅包成為一大新潮,動(dòng)輒幾十上百元的紅包刷新額度,與此同時(shí)越來越多的觀眾利用紅包在京東APP上立馬下單消費(fèi),春節(jié)期間實(shí)現(xiàn)送貨到家。最新數(shù)據(jù)顯示,春晚期間15億紅包與好物遍發(fā)全球,京東APP紅包累計(jì)互動(dòng)量高達(dá)691億次。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

在這些背后,京東云作為本次春晚紅包互動(dòng)的技術(shù)保障底座,成功挑戰(zhàn)世界上規(guī)模最大的網(wǎng)絡(luò)互動(dòng)活動(dòng)以及全球最復(fù)雜場(chǎng)景,紅包互動(dòng)與“年貨春運(yùn)”雙場(chǎng)景疊加,在不增加計(jì)算資源的情況下實(shí)現(xiàn)秒級(jí)超大規(guī)模的計(jì)算資源變陣,為春晚紅包互動(dòng)提供了“變形金剛”般的硬核支持。

一、春晚紅包+年貨春運(yùn):京東云登頂云計(jì)算的“珠穆朗瑪峰”

邊看春晚邊搖紅包,已成為近年來闔家團(tuán)圓過春節(jié)的一個(gè)重要儀式。今年,春晚紅包卻有了新玩法,不僅能夠快速流暢地體驗(yàn)春晚互動(dòng)并分享15億紅包與好物,還能憑借所得紅包獎(jiǎng)券即時(shí)選購商品與下單,在強(qiáng)大的供應(yīng)鏈履約支持下將好物迅速帶回家,而這背后的技術(shù)服務(wù)支持正是來自于很多人熟知的京東云。

實(shí)際上在過去很多年的春節(jié)中,“春節(jié)不打烊”的服務(wù)讓更多人能夠在新春佳節(jié)這個(gè)特殊時(shí)間里見到平日熟悉的京東快遞。但與往年不同的是,今年京東從臘月二十二(1月24日)到元宵節(jié)(2月15日)的時(shí)間內(nèi),在APP中增加了擊鼓搖紅包的環(huán)節(jié),區(qū)別于往年的春節(jié)流量模型,這是一個(gè)集預(yù)約搖紅包、正式搖紅包、紅包下單購物、線下物流配送等于一身的業(yè)務(wù)流程鏈,尤其是在除夕當(dāng)晚,這種場(chǎng)景復(fù)雜更加凸顯。

“今年在4個(gè)多小時(shí)的春晚直播中,京東技術(shù)體系需要支持紅包互動(dòng)及購物交易場(chǎng)景,兩個(gè)場(chǎng)景差異性大,峰值頻繁往返切換,技術(shù)挑戰(zhàn)極大;另外除紅包互動(dòng)場(chǎng)景外正值年貨節(jié),京東技術(shù)體系還需要支持京東的交易、支付、客服、分揀、配送等眾多業(yè)務(wù)場(chǎng)景,鏈路超長。每一個(gè)鏈路節(jié)點(diǎn)的增加,都大幅提升了項(xiàng)目技術(shù)系統(tǒng)的復(fù)雜度和保障難度。”備戰(zhàn)團(tuán)隊(duì)表示。

為此,京東云在不增加計(jì)算資源的前提下,決定采用“大規(guī)模資源騰挪”的方式應(yīng)對(duì)挑戰(zhàn)。

秒級(jí)調(diào)度近300萬個(gè)容器、超1000萬核算力資源,在除夕當(dāng)晚的紅包互動(dòng)過程中依靠云原生數(shù)字基礎(chǔ)設(shè)施、混合云操作系統(tǒng)云艦實(shí)現(xiàn)了紅包互動(dòng)模式與“年貨春運(yùn)”模式之間16次無縫切換,在世界頂級(jí)流量及超級(jí)復(fù)雜場(chǎng)景下成功挑戰(zhàn)極限,以超高彈性成功登頂云計(jì)算領(lǐng)域的“珠穆朗瑪峰”。

19天的緊鑼密鼓籌備、上萬研發(fā)工程師高效協(xié)同、秒級(jí)的超大規(guī)模資源切換……發(fā)紅包的京東人完成了一個(gè)個(gè)幾乎不可能實(shí)現(xiàn)的任務(wù)。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

二、19天備戰(zhàn)“難上加難”,我們有“劇本”和“地圖”做保障

接到電話的時(shí)候是元旦,當(dāng)時(shí)2022春晚項(xiàng)目IDC基礎(chǔ)保障負(fù)責(zé)人、京東云基礎(chǔ)設(shè)施研發(fā)部高級(jí)總監(jiān)常亮正和他的家人在北京長陽滑雪場(chǎng)休假,得知京東可能成為2022年春晚紅包互動(dòng)板塊的支持方,他趕忙開車回到公司。

準(zhǔn)備的時(shí)間才19天,“線上紅包+線下履約”的復(fù)雜場(chǎng)景需求對(duì)技術(shù)要求又十分苛刻:一方面團(tuán)隊(duì)需要保障“春節(jié)不打烊”等全鏈路業(yè)務(wù)完整順暢、用戶體驗(yàn)良好;另一方面,團(tuán)隊(duì)需要應(yīng)對(duì)“春晚紅包互動(dòng)”帶來的極端并發(fā)流量,的確這次京東面臨的困難很大?!拔覀冞@次的春晚紅包項(xiàng)目會(huì)影響到全國的老百姓,必須針對(duì)可能出現(xiàn)的故障做好完備預(yù)案?!背A琳f。

后來這些預(yù)案在京東內(nèi)部被稱為“應(yīng)急劇本”,為業(yè)內(nèi)首創(chuàng)。61頁、2萬多字,涉及基礎(chǔ)設(shè)施、登錄、支付、安全等多塊業(yè)務(wù),“應(yīng)急劇本”可以說是本次春晚紅包成功背后的“武功秘籍”之一。它們清楚寫出了可能出現(xiàn)的故障、解決方案以及相應(yīng)的負(fù)責(zé)人等,幾乎將所有可能發(fā)生的問題都考慮在內(nèi)。

據(jù)了解,這些劇本有的會(huì)涉及應(yīng)用層面,比如當(dāng)用戶收不到手機(jī)驗(yàn)證碼導(dǎo)致有些重要功能很難實(shí)現(xiàn)時(shí)就會(huì)被投訴,怎么處理?按照應(yīng)急劇本,會(huì)馬上啟動(dòng)和微信、QQ拉通的一鍵登陸來解決。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

但這些應(yīng)用層面問題并不是最棘手的,最棘手的問題在于基礎(chǔ)設(shè)施故障。比如CDN被打爆了怎么辦?公網(wǎng)出口中斷了該如何?這些問題都可能讓整個(gè)春晚紅包互動(dòng)“翻車”,為此應(yīng)對(duì)網(wǎng)絡(luò)中斷問題,會(huì)有一個(gè)關(guān)鍵負(fù)責(zé)人緊急做專線切換操作并在一分鐘內(nèi)生效。“就像《哈利波特》最后一集中女校長談到的一樣,她一生中特別激動(dòng)的是用一個(gè)咒語將整個(gè)霍格沃茨的石像鬼復(fù)活去抵御伏地魔大軍,而這位專線切換的負(fù)責(zé)人也是類似的角色,一人按鍵瞬時(shí)切換成功?!?/p>

此外鏈路壓測(cè)是“應(yīng)急劇本”的一大補(bǔ)充?!霸趥鋺?zhàn)過程中,通過多達(dá)7輪的壓力測(cè)試,其中還包括公網(wǎng)壓測(cè)以及斷網(wǎng)演練等,反復(fù)練習(xí)預(yù)案的操作步驟并觀察效果,同時(shí)還要考察系統(tǒng)上運(yùn)行的應(yīng)用的健康度,進(jìn)而驗(yàn)證劇本是否符合預(yù)期效果并不斷調(diào)整,更好應(yīng)對(duì)突發(fā)的業(yè)務(wù)異常和模塊異常等情況。”

所謂“將軍不打無準(zhǔn)備的仗”,除了“應(yīng)急劇本”,在春晚紅包活動(dòng)前,技術(shù)團(tuán)隊(duì)還通過“流量地圖”這一獨(dú)特方式對(duì)流量精準(zhǔn)預(yù)判。根據(jù)過往觀看春晚并參與活動(dòng)的多維數(shù)據(jù),經(jīng)分析后提前預(yù)判地域流量差異再將資源的針對(duì)性部署。“我們還會(huì)根據(jù)目前掌握的數(shù)據(jù)分析預(yù)判大流量可能出現(xiàn)的環(huán)節(jié),并做好對(duì)應(yīng)的資源部署與調(diào)整的同時(shí),預(yù)判流量流轉(zhuǎn)的路徑以及走向,做好把控和引導(dǎo)及時(shí)響應(yīng)資源需求來進(jìn)行擴(kuò)縮容,確?!邢薜馁Y源用在刀刃上’。”

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

19天備戰(zhàn)、近萬人研發(fā)協(xié)同、最終達(dá)成近600個(gè)需求被快速拆分、3000多個(gè)任務(wù)被有效跟蹤、600多個(gè)上下游系統(tǒng)的快速交付、數(shù)百萬核資源的快速擴(kuò)縮容……“很多年前,我們會(huì)去想大規(guī)模場(chǎng)景到底怎么去支撐;成功實(shí)踐了三四年之后,我們的心就沉下來了,感覺像‘618’、‘11.11’這種場(chǎng)景對(duì)我們來說也毫無壓力?,F(xiàn)在碰到春晚這樣極具挑戰(zhàn)的事兒,感覺又重新激發(fā)了我們追求極致的那股干勁兒!”備戰(zhàn)團(tuán)隊(duì)沈建林向我們講述。

三、以少勝多、以簡(jiǎn)馭繁?京東云如何煉就“變形金剛”?

實(shí)際上京東云面對(duì)的并不僅僅是“新戰(zhàn)場(chǎng)”,更是一塊檢驗(yàn)底層云技術(shù)的試金石。短短19天的時(shí)間內(nèi),面對(duì)如此復(fù)雜的場(chǎng)景要求,通過大規(guī)模擴(kuò)充服務(wù)器資源基本是不可能的事兒,這是一場(chǎng)“以少勝多”的技術(shù)仗。

在早幾年春晚紅包互動(dòng)中,大部分企業(yè)還是會(huì)選擇新增大量服務(wù)器的傳統(tǒng)方法做相應(yīng)活動(dòng)的籌備支持,但今年京東云選擇在不增加資源的情況下,僅僅就是通過之前“618”以及“11.11”的資源在內(nèi)部快速騰挪以及擴(kuò)容,從而省去額外購置上萬臺(tái)服務(wù)器的成本。

“以前大家提到云,往往是像自來水一樣堆算力、存儲(chǔ)和網(wǎng)絡(luò)資源,而當(dāng)下云技術(shù)的核心則聚焦在資源于不同場(chǎng)景中的靈活調(diào)度?!北敬未和砑t包互動(dòng)項(xiàng)目,京東云正是展現(xiàn)出其“變形金剛”般的云資源部署調(diào)度能力,能夠根據(jù)場(chǎng)景不同來快速“變身”,滿足不同的任務(wù)需求。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

「靈活敏捷,這是“變形金剛”的顯著特征」備戰(zhàn)團(tuán)隊(duì)除了通過“流量地圖”精準(zhǔn)預(yù)測(cè)和引導(dǎo)流量來完成資源靈活布局之外,還依靠混合云操作系統(tǒng)云艦實(shí)現(xiàn)資源秒級(jí)調(diào)度,做到最優(yōu)的集群調(diào)度以及一次作業(yè)調(diào)度,確保全局資源編排和成本最優(yōu)、系統(tǒng)運(yùn)行最穩(wěn)。

其中云艦內(nèi)嵌的智能調(diào)度系統(tǒng),充分利用了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)智能算法,對(duì)應(yīng)用的資源使用情況進(jìn)行預(yù)測(cè),彈性地對(duì)資源進(jìn)行優(yōu)化。同時(shí)針對(duì)本次春晚紅包互動(dòng)還采用了超大規(guī)模離在線混部技術(shù),可實(shí)現(xiàn)錯(cuò)峰的數(shù)據(jù)計(jì)算功能,實(shí)現(xiàn)有限資源的高效率充分利用,讓算力發(fā)揮最大價(jià)值。

值得一提的是,春晚紅包互動(dòng)場(chǎng)景的主要難點(diǎn)在于“紅包+消費(fèi)”疊加帶來的全鏈路復(fù)雜度,為此團(tuán)隊(duì)制定了分級(jí)標(biāo)準(zhǔn)(SABC)達(dá)成資源的最優(yōu)調(diào)配,確保在互動(dòng)過程中高優(yōu)先級(jí)的應(yīng)用系統(tǒng)盡量多的得到資源使用機(jī)會(huì),做到“更少資源辦大事兒”。

所以在主持人口播之時(shí),京東云快速將系統(tǒng)資源調(diào)整到“春晚互動(dòng)”模式,資源全面向春晚紅包互動(dòng)涉及的鏈路傾斜;在口播結(jié)束一段時(shí)間,搶紅包的洪峰退潮之后,再迅速切換為“年貨春運(yùn)”模式,即支撐從前端App平臺(tái)、訂單、結(jié)算等到后端倉儲(chǔ)、配送等與年貨春運(yùn)相關(guān)業(yè)務(wù)系統(tǒng)。如此互動(dòng),京東云控制超大規(guī)模計(jì)算資源極限變陣,成功實(shí)現(xiàn)4小時(shí)內(nèi)16次秒級(jí)精準(zhǔn)騰挪應(yīng)對(duì)極限雙場(chǎng)景,猶如表演“大象走鋼絲”。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

「穩(wěn)定有序,這是“變形金剛”的硬核底氣」機(jī)房斷電宕機(jī)、硬盤故障、網(wǎng)絡(luò)連接斷開……這些故障對(duì)于 “春晚紅包互動(dòng)”這個(gè)國民級(jí)活動(dòng)來說簡(jiǎn)直是”災(zāi)難”。除了首創(chuàng)異常演練預(yù)案“劇本”為項(xiàng)目提供了穩(wěn)定有序的支持外,在京東云打磨多年的云原生架構(gòu)支持下,基于京東體系多年積累的混沌工程能力,京東云沉淀出穩(wěn)定性主動(dòng)管理系統(tǒng)云泰,可以對(duì)外輸出可見、可查、可管、可控的穩(wěn)定性解決方案,提供穩(wěn)定性主動(dòng)測(cè)算、故障注入與演練、全鏈路壓測(cè)、紅藍(lán)對(duì)抗和基于“穩(wěn)定性基線”的評(píng)分服務(wù)等核心功能,從容平穩(wěn)地應(yīng)對(duì)大規(guī)模復(fù)雜流量場(chǎng)景的挑戰(zhàn)。

京東云的春晚日記:691億次紅包互動(dòng)背后,一個(gè)“變形金鋼”鍛造而生

「高效協(xié)同,這是“變形金剛”背后的超能戰(zhàn)隊(duì)」短于尋常的19天備戰(zhàn)時(shí)間,數(shù)十個(gè)部門參與備戰(zhàn),京東如何在組織上保證敏捷協(xié)作與快速落地?其實(shí)在備戰(zhàn)最初,京東已經(jīng)指定備戰(zhàn)總指揮統(tǒng)一協(xié)調(diào)整個(gè)京東橫跨零售、科技、物流等多個(gè)部門的所有研發(fā)團(tuán)隊(duì),召集超3000名技術(shù)人員參與了春晚項(xiàng)目的技術(shù)攻關(guān)與保障工作,除夕當(dāng)天參與一線值守的技術(shù)保障人員近2000人,總體超萬名技術(shù)人員協(xié)同作戰(zhàn)。

而支持這場(chǎng)超大規(guī)模作戰(zhàn)的,就是多年來積淀而成的京東云一站式研發(fā)協(xié)同平臺(tái)“行云”,它覆蓋從需求、開發(fā)、測(cè)試、發(fā)布、運(yùn)維、運(yùn)營整個(gè)生命周期?!皬拇和眄?xiàng)目立項(xiàng)的那一刻開始,所有核心備戰(zhàn)人員就已經(jīng)通過‘行云’知道了本次項(xiàng)目的戰(zhàn)略地位,近萬人很快對(duì)齊了目標(biāo)與規(guī)劃等?!痹谛性破脚_(tái)支持下,京東研發(fā)體系具備了整齊劃一、快速作戰(zhàn)的能力。

如今的京東云可通過一站式安全、高效生產(chǎn)體系來助力研發(fā)進(jìn)行全鏈路、全方位的架構(gòu)升級(jí)和精細(xì)化資源管理,做到越來越多依靠系統(tǒng)來確保重大節(jié)點(diǎn)的穩(wěn)定,是快速平穩(wěn)應(yīng)對(duì)特殊業(yè)務(wù)場(chǎng)景的能力修煉,更是常態(tài)化備戰(zhàn)的經(jīng)驗(yàn)積淀。

今年春晚,常亮以及同事們都沒能和家人們除夕團(tuán)聚,守在電視機(jī)前一起觀看春晚,但他們的心中卻有不一樣的喜悅?!爱?dāng)老百姓們都打開京東APP參與搖紅包時(shí),我們一線人員會(huì)非常驕傲自豪,這是大家一起努力得到的成績(jī)?!?/p>

結(jié)語:一肩挑兩大極端場(chǎng)景 成功詮釋“中國云”力量

19天緊急備戰(zhàn)、超萬人春節(jié)堅(jiān)守……京東云在首次不增加服務(wù)器資源的情況下獨(dú)自支持春晚互動(dòng),不依靠物理資源的堆砌而憑借先進(jìn)云計(jì)算部署調(diào)度技術(shù)來實(shí)現(xiàn)穩(wěn)定、靈活的底層資源支持,經(jīng)受住了春晚互動(dòng)史上最嚴(yán)酷考驗(yàn):一肩挑戰(zhàn)“四宗最”——最短備戰(zhàn)時(shí)間、最長流量沖擊周期、世界上規(guī)模最大的網(wǎng)絡(luò)互動(dòng)活動(dòng)、全球最復(fù)雜春晚紅包互動(dòng)場(chǎng)景。

從 “春晚紅包互動(dòng)” 到“春節(jié)不打烊”,從拼搶資源到修煉敏捷靈活的調(diào)度能力,從流量爭(zhēng)奪到實(shí)體消費(fèi)驅(qū)動(dòng),本次春晚紅包互動(dòng)不僅是一場(chǎng)全民線上線下的狂歡,還用一場(chǎng)“國民級(jí)”活動(dòng)丈量了“中國云”力量;不僅了改變春晚互動(dòng)紅包的玩法,更是將線上盛會(huì)與線下消費(fèi)無縫鏈接起來的首次:為互動(dòng)帶來美好體驗(yàn),更將落腳點(diǎn)深深扎根實(shí)體消費(fèi)增長上。

春晚流量洪峰的背后,是以全國“年貨春運(yùn)”中零售和物流等整體供應(yīng)鏈履約為代表的龐大而復(fù)雜的世界級(jí)的供應(yīng)鏈應(yīng)用場(chǎng)景,涉及前端App平臺(tái)、訂單、結(jié)算、支付、搜索、推薦,到后端的倉儲(chǔ)、配送、客服、售后等多種業(yè)務(wù)系統(tǒng)??梢哉f,依靠多年在業(yè)務(wù)場(chǎng)景淬煉而成的“云鏈一體”高響應(yīng)、高敏捷能力,京東云做到了從單純“上云”滿足業(yè)務(wù)需求,到“更用好云”提升創(chuàng)新效能的示范,不僅僅展現(xiàn)了云計(jì)算硬核技術(shù)實(shí)力,更能夠看作是行業(yè)創(chuàng)新發(fā)展的一道光,熠熠生輝。