|
新型應(yīng)用發(fā)展趨勢(shì)
新型行業(yè)應(yīng)用的計(jì)算行為基本特征就是數(shù)據(jù)密集。大數(shù)據(jù)涌現(xiàn)在高性能計(jì)算應(yīng)用廣度和深度的進(jìn)一步拓展方面、高性能計(jì)算系統(tǒng)發(fā)展方面、高性能算法和軟件研發(fā)方面,帶來(lái)一些新的趨勢(shì)。
高性能計(jì)算應(yīng)用廣度和深度進(jìn)一步拓展
大數(shù)據(jù)應(yīng)用層出不窮。在物聯(lián)網(wǎng)技術(shù)、5G技術(shù)及各種數(shù)據(jù)采集技術(shù)快速發(fā)展的背景下,以大數(shù)據(jù)為基本特征的各類應(yīng)用層出不窮,從智慧城市、生命健康到粒子物理、天體物理,大數(shù)據(jù)應(yīng)用廣度和深度不斷拓展。
傳統(tǒng)問(wèn)題的人工智能求解帶來(lái)新機(jī)遇。人工智能產(chǎn)生應(yīng)用的基本條件,大數(shù)據(jù)和計(jì)算力已經(jīng)發(fā)展到新階段,人工智能對(duì)傳統(tǒng)問(wèn)題,生命健康、基礎(chǔ)物理乃至氣象氣候預(yù)報(bào)、石油勘探等眾多領(lǐng)域,產(chǎn)生積極推動(dòng)作用。2018?年?Gordon Bell?獎(jiǎng)之一,就是利用深度學(xué)習(xí)方法,分析氣候變化模式。
多領(lǐng)域問(wèn)題協(xié)同分析陸續(xù)出現(xiàn)。大數(shù)據(jù)的積累和計(jì)算力的大幅度提升,也為復(fù)雜系統(tǒng)或多領(lǐng)域問(wèn)題協(xié)同分析創(chuàng)造了可能,如環(huán)境與生態(tài)的模擬問(wèn)題、物理化學(xué)和生命的多尺度分析、精準(zhǔn)醫(yī)療等。
高性能計(jì)算系統(tǒng)研發(fā)面臨新的發(fā)展機(jī)遇
專用加速硬件興起。從傳統(tǒng)的圖形處理器(GPU)到張量處理器(TPU)、深度計(jì)算器(DCU)等專用硬件的流行,高性能計(jì)算加速芯片不斷涌現(xiàn)。其中?TPU是近年來(lái)?Google?提出的專用于深度學(xué)習(xí)加速的張量處理單元,其提供低精度高通量的計(jì)算。相比?GPU,TPU?擁有更高的?I/O(輸入/輸出)效率和更低的能耗。
大數(shù)據(jù)處理對(duì)超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)提出新要求。典型的大數(shù)據(jù)處理問(wèn)題,數(shù)據(jù)?I/O?等從存儲(chǔ)到計(jì)算的頻繁程度和帶寬需求大幅度上升,而計(jì)算進(jìn)程之間通信更多以小消息為主,約占消息總數(shù)的?95%。因此,大數(shù)據(jù)處理對(duì)存儲(chǔ)網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)的性能需求,產(chǎn)生顯著分離。
大數(shù)據(jù)處理平臺(tái)的非功能需求特點(diǎn)。新的業(yè)務(wù)對(duì)應(yīng)用提出了眾多非功能性的需求,如要求應(yīng)用具備快速開(kāi)發(fā)、可擴(kuò)展、易重用、有統(tǒng)一接口、有完整的生態(tài)供下游業(yè)務(wù)進(jìn)行作業(yè),以及自動(dòng)容錯(cuò)等。
高性能算法與軟件設(shè)計(jì)面臨新的挑戰(zhàn)
大數(shù)據(jù)矩陣的稀疏性特點(diǎn)。大多數(shù)大數(shù)據(jù)處理問(wèn)題,最終轉(zhuǎn)化成矩陣計(jì)算,這些矩陣通常具有稀疏性(零元數(shù)據(jù)個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于非零元數(shù)據(jù)個(gè)數(shù)),但一般不具備偏微分方程求解問(wèn)題中稀疏矩陣非零元對(duì)角分布特性。另外,傳統(tǒng)的稀疏矩陣求解通常要求精確解,但隨著新應(yīng)用的出現(xiàn),人們對(duì)于稀疏矩陣的求解精度要求,往往讓位于求解速度的要求。例如,在商品推薦、搜索引擎和社交網(wǎng)絡(luò)等大規(guī)模推理任務(wù)中,用戶往往只需要在?Top k(Rank k)的結(jié)果中出現(xiàn)想要的結(jié)果,即認(rèn)為求解符合預(yù)期。而在求解性能方面,可能要求計(jì)算復(fù)雜度?O(k)(k<<n)的算法。
大數(shù)據(jù)時(shí)空性特點(diǎn)。新興智慧城市等應(yīng)用中,時(shí)空特性越來(lái)越受到人們的關(guān)注。例如:交通流量預(yù)測(cè)中,GPS?前后有很強(qiáng)的時(shí)序關(guān)系;自然語(yǔ)言處理(NLP)中,上下文前后詞語(yǔ)之間也呈現(xiàn)出明顯的時(shí)空特性。
大數(shù)據(jù)高維度特點(diǎn)。數(shù)據(jù)的維度通常隨著業(yè)務(wù)問(wèn)題規(guī)模的增大而指數(shù)級(jí)增大。為了約減數(shù)據(jù)集的維度,研究人員通常采用特征抽取、去不相關(guān)、去低方差和去常量屬性等技術(shù)。數(shù)據(jù)體量大增加了數(shù)據(jù)維度約減的難度。
異構(gòu)大數(shù)據(jù)融合特點(diǎn)。大數(shù)據(jù)往往是異構(gòu)的,數(shù)據(jù)的屬性是不一致的。面臨體量大、種類多和數(shù)據(jù)持續(xù)產(chǎn)生等特點(diǎn)。如何有效地融合多個(gè)異質(zhì)數(shù)據(jù)集并挖掘出其中有用的信息,是高性能計(jì)算需要解決的問(wèn)題。
大規(guī)模圖處理特點(diǎn)。基于圖來(lái)發(fā)現(xiàn)事物之間的關(guān)聯(lián)性是大數(shù)據(jù)領(lǐng)域的典型問(wèn)題。大規(guī)模圖處理往往面臨數(shù)據(jù)局部性差、數(shù)據(jù)剖分困難、通信開(kāi)銷大等挑戰(zhàn),而實(shí)際應(yīng)用對(duì)于算法實(shí)時(shí)性又往往存在較高要求。隨著數(shù)據(jù)體量的增大,如何進(jìn)一步減少數(shù)據(jù)的處理時(shí)間,是高性能計(jì)算面臨的新挑戰(zhàn)。