|
高通量計(jì)算基礎(chǔ)理論
與傳統(tǒng)高性能計(jì)算以高速度為設(shè)計(jì)目標(biāo)相比,高通量計(jì)算的核心是追求高通量,即算得多。具體包括?3?個(gè)核心要素,即高吞吐、高利用率、低延遲。
高吞吐。是指單位時(shí)間完成的任務(wù)數(shù)或者響應(yīng)的請求數(shù)要多。對于互聯(lián)網(wǎng)應(yīng)用場景來說,數(shù)據(jù)中心的一個(gè)核心挑戰(zhàn)是要實(shí)時(shí)響應(yīng)海量的并發(fā)用戶請求。以?2018?年天貓“雙?11”全球狂歡節(jié)為例,其實(shí)時(shí)數(shù)據(jù)處理峰值超過?6?億條/秒,支付成功峰值超過?30?萬筆/秒,數(shù)據(jù)中心必須充分挖掘各種并行性以應(yīng)對如此巨大的實(shí)時(shí)并發(fā)處理需求。
高利用率。是指計(jì)算機(jī)系統(tǒng)中的核心部件(如?CPU、存儲(chǔ)器、網(wǎng)絡(luò)等)的利用率要高。當(dāng)前大型數(shù)據(jù)中心通常包括數(shù)十萬臺(tái)甚至百萬臺(tái)服務(wù)器,建設(shè)資金則高達(dá)數(shù)十億甚至百億美元。然而,為了確保用戶的服務(wù)質(zhì)量,現(xiàn)有數(shù)據(jù)中心不得不將利用率控制在較低水平,因此整體利用率情況很不理想。公開數(shù)據(jù)顯示,2013?年谷歌數(shù)據(jù)中心的平均?CPU?利用率只有30%,而其他互聯(lián)網(wǎng)公司運(yùn)營的數(shù)據(jù)中心的利用率甚至比該值還要低??梢娫诂F(xiàn)有的架構(gòu)下,要做到既能實(shí)時(shí)滿足用戶處理需求,同時(shí)又能達(dá)到高的利用率,是非常困難的。
低延遲。指用戶請求的響應(yīng)時(shí)間要短?;ヂ?lián)網(wǎng)上的大部分在線服務(wù)具有明顯的實(shí)時(shí)交互特征,數(shù)據(jù)中心必須確保在給定的實(shí)時(shí)性約束條件滿足的情況下返回結(jié)果,否則會(huì)導(dǎo)致服務(wù)的失效。比如一些圖像識(shí)別或者語音翻譯之類的人工智能(AI)應(yīng)用場景,通常要求響應(yīng)時(shí)間在毫秒級別,這對于當(dāng)前的計(jì)算機(jī)系統(tǒng)來講是一個(gè)巨大挑戰(zhàn)。
針對上述高吞吐、高利用率、低延遲的設(shè)計(jì)需求,我們提出一個(gè)基于“系統(tǒng)熵”的通量分析模型?。系統(tǒng)熵主要受延遲的不確定性(波動(dòng)情況)、資源利用率和吞吐量?3?個(gè)因素影響。簡單來講,系統(tǒng)熵與延遲的波動(dòng)幅度成正比,與資源利用率以及系統(tǒng)吞吐量成反比。因此,延遲波動(dòng)越大,系統(tǒng)熵越大;資源利用率越高、吞吐量越大,則系統(tǒng)熵越小。類似于“熱力學(xué)熵”的用法,我們通過“系統(tǒng)熵”可以反映計(jì)算機(jī)系統(tǒng)中的易擾動(dòng)程度或者不確定性。
“熵者,傷也。”高熵系統(tǒng)往往開銷大、成本高。相比于高熵系統(tǒng),低熵系統(tǒng)具有更優(yōu)的可預(yù)測性,能達(dá)到更高的效率、更低的成本,也更受用戶青睞。曾有人問美國能源部副部長斯蒂文?·?庫寧(Steven Koonin),為什么電能如此受到人們的喜愛?他回答道,因?yàn)殡娏κ且环N低熵能源。前文提到,為了確保用戶服務(wù)質(zhì)量,現(xiàn)有的數(shù)據(jù)中心的?CPU?平均利用率很低,一旦利用率提高,其負(fù)載性能的波動(dòng)幅度將迅速增大。因此,當(dāng)前數(shù)據(jù)中心計(jì)算系統(tǒng)仍然是高熵系統(tǒng)。而高通量計(jì)算機(jī)的核心目標(biāo)就是要降低系統(tǒng)熵,也即降低系統(tǒng)的不確定性;以及通過高通量計(jì)算機(jī)實(shí)現(xiàn)提高系統(tǒng)利用率和任務(wù)吞吐量的同時(shí),避免應(yīng)用的性能波動(dòng)。