中國網/中國發展門戶網訊 近年來,隨著科技創新發展,人工智能(AI)技術在科學研究中得到廣泛應用,引發“智能化科研”(AI4R)范式的變革熱潮,即第五科研范式。集網絡、數據與計算于一體的科研信息化基礎平臺在科技創新活動中持續影響著世界科技格局。世界各國十分重視科研信息化基礎平臺的建設,將發展面向新科研范式的新型科研信息化基礎平臺視為保持全球科技領先、提升國家競爭力的關鍵舉措,打造出多類型科研創新要素融會貫通的科研信息化基礎設施,逐漸形成融合數據、計算與模型的整體服務能力,支撐前沿科學研究與科研數字化創新。
文章從科研范式與科研信息化基礎平臺技術架構的概念入手,研究分析科研范式變革對科研信息化基礎平臺架構帶來的影響,重點分析第五科研范式下新型科研信息化基礎平臺的技術架構及其面臨的關鍵技術挑戰,展望新型科研信息化基礎平臺架構的未來發展趨勢。
科研信息化基礎平臺的內涵與價值
科研信息化基礎平臺內涵
科研信息化基礎平臺與科研范式密切相關。科研范式是常規科學所賴以運作的理論基礎和實踐規范,是從事某一科學的科學家群體所共同遵循的認識論和行為方式。科研信息化基礎平臺集網絡、數據和計算于一體,不僅包括為科學研究提供支撐的網絡、超級計算機、存儲等硬件設施,還包括在硬件設施上部署的系統中間件、基礎軟件和與學科發展緊密結合的應用軟件、科學數據資源等軟環境。
科研信息化基礎平臺的意義與價值
科研信息化基礎平臺是科技創新的基礎性、戰略性平臺,是現代科學研究不可或缺的基座。它是各國開展新一輪科技競爭的關鍵支撐,對突破關鍵核心技術、催生高新技術和推動國家科技創新具有重要意義和價值。歐盟提出并建設歐洲開放科學云(EOSC),將泛歐數據基礎設施、歐洲網絡基礎設施等信息化基礎設施聯合起來,形成一體化的科研信息化基礎平臺,實現對科學數據資產的長期管理;美國科教網絡Internet2的下一代信息化基礎設施(NGI)計劃,升級實現300多所大學、超級計算中心等科研單元的400 GB/s互聯互通,支持大規模跨地域、跨學科的科研協作。
近年來,重大科學突破越來越依賴于先進的信息化技術與手段。2017年獲諾貝爾物理學獎的引力波探測,科學家利用超級計算機對成百上千種可能的引力波觀測數據進行模擬計算,數據與計算扮演著無可替代的作用;2021年底,谷歌公司DeepMind團隊采用AlphaFold 2算法在短短18個月內成功預測出約100萬物種的超2億種蛋白質結構。2024年5月,AlphaFold 3橫空出世,人類能夠以前所未有的原子精度預測出幾乎所有重要生物分子的結構和相互作用;“中國科技云”面向500米口徑球面射電望遠鏡(FAST)多目標巡天快速射電暴研究需求,提供高速數據傳輸網絡和自動化數據處理流水線,將數據傳輸、處理時間從15天縮短至1天,數據處理效率提升1個數量級,推進重大科研成果產出。
科研范式的轉變推動科研信息化基礎平臺模式發生變革
科研范式是特定歷史時期科學共同體進行科學研究小樹屋的方式,與科技創新的內在規律要求相適應。在人類科學研究歷史上,已經發生過4次科研范式的轉變。第一科研范式稱為“經驗科學”,主要以記錄和描述自然現象為特征;第二科研范式稱為“理論科學”,主要通過模型或歸納法進行科學研究;第三科研范式稱為“計算科學”,是指通過計算機模擬計算和仿真來解決不同學科、領域中的問題;第四科研范式稱為“數據密集型科學”,是指通過對大數據進行分析研究得出相關結論。自第三科研范式開始,信息化與信息技術開始進入科研活動流程。
第三科研范式。從第三科研范式開始,馮·諾依曼體系結構的計算機出現,人們利用計算機的計算能力、基于大規模并行的計算機體系結構,通過設計算法并編制程序對復雜現象進行模擬計算和仿真,使復雜問題得以清晰地解釋。在第三科研范式中,超級計算機成為分析和解決科學問題的主要平臺,逐漸在科學研究中發揮重要作用,因此第三科研范式被稱為“計算科學”(圖1)。
第四科研范式。隨著數據量的爆炸性增長,數據類型也愈發復雜,如何有效處理和利用復雜大數據,成為科研難題。為此,圖靈獎得主吉姆·格雷(Jim Gray)提出基于數據密集型科學發現(data-intensive scientific discovery)的科研范式,即第四科研范式(圖2)。在第四科研范式中,大數據、大算力、算法模型三者結合,以數據為中心,融合利用高速網絡、強大算力算法與模型庫的科研信息化基礎平臺在科學研究中發揮重要作用。相比于第三科研范式的超級計算機,第四科研范式的科研信息化基礎平臺擁有先進的計算工具和分析模型,不僅能對復雜現象進行模擬仿真,還能快速分析總結得出結論,大大降低了人力資源消耗,科研效率也得到了顯著提升。
第五科研范式。隨著信息技術和傳感技術的快速發展,科學研究中產生的數據越來越多、形態越來越多樣。在處理和應用復雜大數據過程中,第四科研范式遇到很多問題無法解決。科學家開始尋找更加有效處理大數據不確定性和復雜性等問題的新科研范式,程學旗等將其暫時稱之為“第五科研范式”,李國杰將第五科研范式稱為“智能化科研”。在第五科研范式中,AI全面融入科學、技術和工程研究,人機融合、機器涌現智能成為科研的組成部分,形成“人在回路”的人機結合科研模式。面向“智能化科研”范式,亟須通過融合高質量的數據、先進的算法模型和強大的計算能力,逐漸形成跨域互聯、存算一體、數智融合、智能調度的新型科研信息化基礎平臺技術架構,實現機器涌現智能、人機物智能融合,以有效應對難解的組合爆炸問題(圖3)。
新型科研信息化基礎平臺技術架構及面臨的關鍵挑戰
面向第五科研范式對科學研究的算法算力、網絡傳輸能力以及數據存儲與管理能力帶來的巨大挑戰,必然構建新型的平臺技術框架,以滿足科學研究發展需要。新型科研信息化基礎平臺的技術架構主要包括智能算力、PB級數據存儲和高吞吐讀寫、跨域軟硬件一體化調度、垂直領域大模型和面向AI的高質量數據資源。
智能算力及其面臨的挑戰
第四科研范式的算力主要以中央處理器(CPU)的高并行、高通量的高性能計算和云計算為特征。第五科研范式的到來和快速發展,以圖形處理器(GPU)和加速卡為代表的算力九宮格在AI計算技術中將占據更為重要的位置,在融合了CPU、GPU等的算力基礎設施中,GPU算力的比例預計將大大提高。或者說,第五科研范式下的智能計算將會以GPU計算且與計算軟件有機融合的軟硬一體為九宮格顯著特征。這必然要求新型科研信息化基礎平臺能夠滿足科研全流程中的智能化發展需求,包括科學數據獲取、大規模參數學習、模型思維推理等。在原創性算法、方法與理論研究方面,新型科研信息化基礎平臺將智能算力系統的突破,突破芯片內部、多卡和多節點等不同粒度的異構計算調度技術,促進科學研究通用大模型和領域專用模型的數據預處理、訓練和推理全過程效率;極大拓展基礎算子庫規模與大模型訓練基座算力容量,提高硬件系統對AI計算的適配能力,以支撐AI模型高效研發、調試、訓練和推理等關鍵過程。新型科研信息化基礎平臺擬采用開放式和可擴展的架構,主要包含硬件算力基座、中間件系統和應用服務3部分內容(圖4)。針對已有的計算資源,平臺將融合多會議室出租種類型的智能芯片計算資源,形成軟硬件齊備的驗證環境,支持團隊快速開展模型驗證工作。平臺將重點構建可定制的AI、大數據處理和并行計算等環境,形成從多源終端需求到異構算力資源再到應用團隊的全鏈條全生命周期的算力聯合體。研究細粒度、彈性和可擴展的調度策略,以支持交互式研發、模型訓練與微調、在線或離線推理等類型的計算任務,實現算力資源從時間和空間兩個維度的共享。平臺將形成面向多類型AI業務流水線的科學應用場景,包括數據集準備、模型構建、模型訓練和模型應用等關鍵環節,結合大模型或領域模型的個性化需求,支撐數據傳輸與處理、模型訓練與推理、模型與數據結果歸檔等研究過程的自動化,支持科學研究和技術開發,支持新科研范式創新發展。
平臺硬件GPU等顯卡加速部件為大模型預訓練提供了必需的算力,但是由于其自身有限的顯存或多級存儲部件,限制了可訓練模型參數量的大小。因此,如何有效估計顯存大小從而避免存儲空間溢出并保證計算正常運行具有重要意義。在大模型顯存估算方面,以國產K100_AI為例,640張海光DCU芯片K100_AI的顯存容量累計40960 GB,可有效滿足7 B—70 B參數的大模型訓練需求(表1),該類型智能計算卡已支持GPT-3和LLaMa等大模型的預訓練。此外,計算能力需求估算也是大模型計算的重要因素。大模型訓練中計算能力評估方法主要有分析和模擬兩種。分析方法,是通過人工分析的技術手段獲取計算需求公式,利用公式直接求出對應計算開銷;模擬方法,是通過使用少量設備進行模擬訓練或實際訓練,在訓練過程中獲取具體計算開銷。通過將二者結合,利用分析方法降低模擬時的資源消耗,利用模擬方法獲取準確的計算性能數據,再通過混合建模,高效獲取模型訓練的計算量,進而提升模型計算效率和算力資源利用效率(表2)。
為更好適配大模型預訓練和海量推理服務等發展需求,平臺的算力規模越來越大,單卡性能和效率也越來越高。目前主流智算平臺的算力規模約為半精度1 000 PF,并逐漸朝著更大規模發展;單個計算中心智能計算卡的數量規模從千卡起步,萬卡集群逐漸成為主流,十萬卡規模的集群正在規劃或建設之中。智能計算卡的計算能力和功耗快速提升,顯存容量受大規模參數如千億、萬億甚至更大規模參數的影響,單卡顯存容量雖以40 GB或80 GB為主流,但也出現了100 GB以上的產品。與超算平臺的雙精度算力特征不同,智算平臺主要以半精度和混合精度進行計算,算力密度更高,能耗效率也更好。
PB級數據存儲和高吞吐讀寫及其面臨的挑戰
近年來,我國重大科技基礎設施高速發展,科學數據資源快速積累,FAST每年約產生50 PB數據,硬X射線自由電子激光在建成后每年將產生100 PB數據,海量科學數據高效存儲、傳輸、處理對傳統的數據中心技術和架構形成了新的挑戰,現有科研信息化基礎平臺無法完全滿足其應用需求。與此同時,AI正融入科學研究的各個環節,AI4R正在成為一種科研活動的新常態。傳統數據中心存儲系統的主要作用是數據存儲及為集群中的計算節點提供共享的存儲空間。然而,由于傳統存儲磁盤介質、接口、協議的限制,其性能僅能達到寫入帶寬數GB/s、延時毫秒級、IOPS幾十萬的水平。科學數據的數量和質量決定了AI4R整體的落地水平。大模型時代參數量從最初的百億已增長至千億、萬億規模,數據集也從最初的文本語料擴展到包含圖片、視頻數據等多種類型的訓練樣本,數據容量規模從TB級增長到PB級,GPT-5的訓練數據量預計將達到4 PB。新的大模型配置千億乃至萬億級別參數,一個訓練節點每秒就可以處理2萬張圖片,每個節點需要8萬IOPS。傳統存儲系統無法滿足這樣的需求,第五科研范式下,智算中心的存儲系統需要達到數十PB到百PB級的容量,IOPS需要達到千萬級別、延時達到亞毫秒級、總讀寫帶寬達到數十GB/s乃至百GB/s級別。傳統的TCP/IP網絡存在延遲大、多次數據拷貝和復雜的協議處理等問題,為了達到高吞吐的讀寫性能,智算中心GPU服務器節點每塊GPU卡通過200 GB/s高速RDMA接口與其他設備互聯,任意一塊GPU卡與其他設備的數據交換最多只有一跳,計算與存儲區域之間通過800 GB/s高速交換機互聯,采用RDMA及NVMe-oF技術直接將數據傳入全閃存儲區,減少數據復制和交換操作,實現高性能的存儲設備網絡數據訪問和交換。存儲系統通過多臺配備NVMe閃存介質的分布式全閃存儲節點提供同時數據存取服務的方法以滿足大量計算的并發訪問需求(圖5)。當計算節點往存儲系統上寫數據時,文件將會被根據一定大小進行分片存放到多臺分布式全閃存儲節點上;在應用程序讀取文件時,則并發地從多個分布式全閃存儲節點上讀取數據。由于大量的數據IO請求都被分散到多臺分布式全閃存儲節點上,使得所有的分布式全閃存儲節點上的磁盤性能和網絡帶寬都可以同時得到充分利用,存儲系統的聚合帶寬由多臺分布式全閃存儲節點上的IO帶寬相加而成,克服了傳統存儲的單一出口點所造成的性能瓶頸,一塊NVMe磁盤即可提供5 GB/s順序讀寫、幾十萬IOPS的訪問性能,一臺全閃存儲節點讀寫性能可達到40 GB/s,100萬IOPS,PB級的全閃存儲集群即可達到總聚合讀寫帶寬數百GB/s,聚合IOPS千萬級別,從而有效保障計算系統之間、計算存儲之間的超高吞吐性能、超低延時,滿足大模型訓練超高IO性能的要求。
跨域軟硬件一體化調度及其面臨的挑戰
在第三和第四科研范式中,科學活動在科學數據產生、存儲的位置展開,跨域數據傳輸的需求少。因此,科學數據以離線的方式傳輸,數據產生模式、傳輸需求穩定,傳輸時間需求以天為單位。面向第五科研范式的科學研究,以AI模型為中心,需要海量數據來訓練通用模型或特定領域的模型,跨域數據傳輸是其重要特征之一。在集中式模型訓練環境中,需要將廣域分布存儲的原始數據傳輸到模型訓練集群,作為模型訓練的輸入。然而,在更為普遍的環境中,由于數據量大或者版權問題等,科學數據無法共享和集中,需通過廣域分布式模型訓練來協同完成模型訓練任務。此時,巨量梯度數據跨域傳輸,數據傳輸呈現低熵、大突發等特征。
因此,在新科研范式中,數據、網絡和算力為模型服務,而模型則在數據存儲位置、網絡帶寬和算力資源約束的情況下,需動態劃分,以實現性能和能效最優。面向科學數據大規模存儲、跨域傳輸和高效讀取等特征需求,亟須構建靈活的硬件數據平面與軟件化、智能化的控制平面(圖6)。為此,基于算網融合基礎平臺,對數據存儲、底層計算、信息通信、模型訓練、知識調用各模塊的系統依賴關系建模,并研發全局最優數據路徑與成本最優資源調度以及算網融合等關鍵技術,包括多云資源匯聚與共享調度技術、數據存儲資源調度與共享技術等。通過計算任務的充分解耦下沉以及與傳輸路徑、軟硬件平臺的智能最優映射,使得科學數據在網絡高速流轉的過程中可同時被高效地計算處理,以彌補網絡傳輸與數據計算間的性能鴻溝。通過智能軟硬件調度和協同,突破傳統高熵(多條業務流分時盡力而為共享)網絡傳輸通量低的瓶頸,實現面向算網協同調度的低熵網絡,提升網絡傳輸的確定性,實現能效比的指數級提升。
具體來說,在算網一體的跨域計算場景中,各計算中心配備了異構的算力集群配置(如GPU和國產算力芯片等),通過廣域網連接實現資源互通。然而,遠距離的地理限制導致廣域網上的可用帶寬不足和波動問題,增加了跨域并行調度的復雜性。如何有效整合這些分布式計算資源,以實現高性能的跨域分布式并行,是推動算力共享和多方協作的核心問題。可以從3個層面解決該問題。在應用層,針對多種智算任務進行智能任務拆分和自動并行。基于模型特性、數據分布和網絡狀況,生成高效模型劃分和并行策略,優化各算力中心的計算與傳輸負載。例如,GPT-3 175 B模型在混合精度訓練中,采用數據并行方式時需要傳輸約350 GB的梯度;若改用流水線并行,僅需傳輸中間激活值,從而將傳輸量降低至30%以下(批次大小為2 048),可在數據中心間的100 GB/s網絡帶寬下滿足傳輸需求。在流量調度層,可通過流量工程技術結合低熵業務流量特性,優化計算中心間的數據傳輸路徑,以滿足周期性的突發流量需求并有效減少傳輸延遲。同時,底層網絡狀態可實時反饋至智能決策系統,使其在網絡狀況發生變化時,靈活調整上層模型的分配策略,從而實現算網資源和任務需求的高效匹配,提升任務執行效率和資源利用率。在底層傳輸中,根據AI流量特性可進一步優化數據傳輸策略,例九宮格如通過梯度量化和稀疏化技術降低數據量,并設計基于梯度貢獻度的差異化傳輸協議,通過多路、端網、跨層的協同數據傳輸協議,滿足低時延梯度數據傳輸需求。
垂直領域大模型及其面臨的挑戰
垂直領域大模型是指用于解決特定領域科研問題的、參數量較大的AI模型。如用于解決蛋白質結構預測問題的AlphaFold 2模型、用于解決短臨降水預報問題的NowCastNet模型。垂直領域大模型具有兩個明顯區別于通用大模型和傳統領域模型的特征——定域性和端到端。相較于通用大模型,垂直領域大模型一般具有顯著的定域性。垂直領域大模型專注于解決特定科研問題,而非追求通用人工智能(AGI)能力。這種定域性可以顯著降低模型參數量、訓練數據集規模和訓練算力需求。如AlphaFold 2參數量僅為0.93億,訓練數據集大小約3 TB,使用單張NVDIA A100顯卡即可訓練。相較于傳統基于數值分析的領域模型,垂直領域大模型具有顯著的端到端特性。這些大模型基于特別設計的類Transformer架構進行端到端訓練(而非傳統領域模型多階段的數值函數擬合),通過單個人工神經網絡模型直接從訓練數據中擬合出特定研究對象之間的相關性,可以有效避免多階段數值函數擬合導致的誤差累積問題。例如,AlphaFold 3直接擬合了PDB數據庫中的一維氨基酸序列、小分子化合物到蛋白質三維結構及其配體結構的對應關系。又如NowCastNet直接擬合了氣象雷達數據中云觀測值與降水量之間的對應關系,與傳統基于數值計算的降水預測方法相比,預測效率和準確性大幅提升且運算開銷大幅降低。
高水平垂直領域大模型離不開高質量的帶標注領域訓練數據集(如用于AlphaFold訓練的PDB數據庫),以及根據領域問題專門設計的人工神經網絡結構(AlphaFold 2的Evoformer),其對算力的需求反而要小于通用大模型。因此,構建垂直領域大模型的主要挑戰在于:如何針對科研任務的特點設計精巧的神經網絡結構并找到足夠多的、帶標注的高質量訓練數據集。其中,對科研領域訓練數據進行標注,往往不是簡單地為原始數據賦上文本標簽,有時還需要借助專用儀器設備進行。例如,PDB數據庫中的蛋白質原子坐標可以被視作是其對應的一維氨基酸殘基序列的標注信息,但需借助冷凍電鏡(cryo-EM)測出。
當然,通用大模型也可應用于科研領域,如采用富含領域知識的文本知識庫對通用大語言模型進行微調,使其具備回答特定領域問題的能力。另一種很有發展潛力的大模型賦能科研應用的方法是:基于流行的RAG(檢索—增強—生成)范式,進行問答式科學數據分析。這種基于“通用大模型+RAG”的智能化科研應用可實現復雜科學數據分析流程的自動生成和調校,并可在工作瑜伽場地流編排框架(如BigFlow)的支持下進一步實現對分析流程所涉及的網絡、計算、模型(含垂直領域大模型)及數據資源的自動化匹配調度,從而最終完成復雜科學數據分析任務的全程自動化在線運行。其優勢在于,大幅降低了對領域科學家的編程技術要求,同時也減少了人工介入的必要性。這種方法,同樣依賴專業性強的領域文本知識庫(如領域概念體系、數據分析流程),用于彌補通用大模型在特定領域問題上的知識欠缺。
綜上所述,新型科研信息化基礎平臺應同時提供3類資源:帶標注領域訓練數據集、領域模型結構和一定規模的算力,可用于垂直領域大模型的訓練和推理。大規模訓練語料和大規模算力,可用于通用基礎大模型的訓練和推理。領域文本知識庫和工作流編排框架,用于支撐對通用大模型進行領域微調以及基于“通用大模型+RAG”的智能化科研應用。新型科研信息化基礎平臺在垂直領域大模型及智能化科研應用方面的技術九宮格架構如圖7所示。
面向AI的高質量數據資源及其面臨的挑戰
高質量的科學數據是自然規律的真實體現,高質量的AI-Ready數據集是讓AI系統能夠理解、處理、發現科學新原理、新規律的基礎。相比于目前主要通用AI模型所使用的互聯網文本、語音、圖像等數據,AI-Ready科學數據模態更加多樣、價值密度更高、對真實世界的描述更加充分,對科技創新乃至國民經濟各個行業的智能化發展都具有重要的支撐作用。AI科學應用對科學數據治理提出新的要求。對于AI-Ready科學數據的治理,除傳統的面向領域科學研究的數據質控以及大數據治理關注的一致性、準確性等因素外,還需要強化其數據的均衡性、可用性與機器可理解性,及面向具體場景的適配性、相關性,以及倫理、安全等合規性因素。面對算法模型的應用需求,現有科學數據集往往面臨資源分散、知識化水平不高、標準不一、共享不充分等問題,必然要完善科學數據多渠道匯聚和整合高質量科學數據資源,提升科學數據規范整編、可信流轉、關聯化組織與知識化融合的水平,形成知識嵌入、模型融合、智能調度和流轉供給的高質量AI-Ready科學數據供給能力,建設一批高價值、高可靠、高影響力的科學數據庫,為智能化科研范式提供高質量數據供給。AI方法也為高質量數據資源建設帶來新的機遇,擴展數據生產的傳統方式。現有科學數據大多來源于長期觀測、科學實驗等科學活動,高質量的科學數據往往需要長期積累,受研究條件、實驗環境等因素局限,科學數據的均衡性和質量難以保證。基于物理模型的科學計算可作為科學數據產生的一種補充方式,但受計算深度和精度的限制,尚未廣泛應用于科學數據生產。而隨著新一輪AI技術的爆發,或可突破現有瓶頸,使得基于物理模型計算的高精度、高質量科學數據生產成為科學數據來源的重要補充。利用AI技術,輔助科學數據的選擇、模擬、合成等,將以較過去更低的成本實現數據產品的快速構建,改變高質量科學數據資源格局。
小結
目前,新型科研信息化基礎平臺仍面臨諸多問題與挑戰。未來,在芯片、存儲、互聯等硬件技術不斷提升性能的基礎上,我國亟須通過融合高速寬帶網絡、海量存儲、分析計算能力,以及基礎軟件、AI模型等軟硬件資源,構建以新型技術架構為基礎的新型科研信息化基礎平臺(圖8),形成支撐科學數據全域分析處理的全新能力,實現科研要素的泛在、跨域、高速連接與全局智能調度,推動科學數據傳輸、存儲、分析、計算的生存周期活動,支撐智能化科研新范式,促進AI時代的科技創新。
展望
在智能化科研范式中,科學數據是創新的“生產資料”,也是創新要素的重要引擎。新型科研信息化基礎平臺作為支撐新科研范式的基礎設施,是創新的“生產工具”。未來,新型科研信息化基礎平臺技術架構在下一步發展的關鍵主要包括如下3個方面:構建面向新科研范式的計算、數據與網絡通信模式,設計從科學研究意圖抽象到平臺軟硬件的映射,實現平臺體系結構的自演進;通過軟硬件技術架構創新,實現異構計算融合的邏輯一體化存儲計算,以及科學數據的精準智能發現、分析任務智能編排、可信高效調度和端到端一體化處理,實現科學數據的可發現、可訪問、可互操作和可重用;打造包容并蓄、開放共享的服務平臺,實現意圖驅動的任務自動化編排和部署,并根據學科領域模型需求,自動組合各種計算單元、存儲單元、垂直模型及科學數據,形成“人在回路”的智能會話式科研模式,為科技創新提供一體化的新型平臺服務。
(作者:廖方宇、汪洋、曹榮強、張波、王華進、陳昕、王彥棡、魏鑫,中國科學院計算機網絡信息中心;李振宇,中國科學院計算技術研究所;李東,國家自然科學基金委員會。《中國科學院院刊》供稿)