
“《孫子兵法》云,‘夫未戰(zhàn)而廟算勝者,得算多也;未戰(zhàn)而廟算不勝者,得算少也’。市場如戰(zhàn)場,我省的經(jīng)濟建設(shè)、科學(xué)研究離不開‘多算’。而我省現(xiàn)在有了孫武無法想象的‘多算’設(shè)備——每秒鐘運算4000億次的大型計算機?!苯?,甘肅計算中心主任胡鐵鈞面對媒體發(fā)出了如上感慨。
項目需求分析:跨行業(yè)高性能計算網(wǎng)格拓展甘肅省計算中心是直屬于甘肅省科技廳的科研事業(yè)單位,是全省計算機技術(shù)應(yīng)用、推廣和服務(wù)的專業(yè)化研究與開發(fā)機構(gòu)。2005年為了進一步加強高性能方面的實力,攜手曙光建立了甘肅高性能計算中心,旨在發(fā)展甘肅省高性能計算,帶動甘肅省計算技術(shù)、信息技術(shù)和相關(guān)產(chǎn)業(yè)向更高水平發(fā)展,解決甘肅省國民經(jīng)濟與產(chǎn)業(yè)發(fā)展、社會和科學(xué)進步、國防和國家安全等一系列挑戰(zhàn)性問題。
甘肅計算中心主任胡鐵鈞表示:“這幾個‘花小錢’的雄心勃勃的行動,只是我省計算能力和運行方式的一小步結(jié)構(gòu)性變化,帶來的卻是我省科研基礎(chǔ)能力的一大進步:以前我省的眾多科研人員擠出寶貴時間,花費大量科研資金,跑到外地去排隊進行大型運算;今后他們只需坐在辦公室里,輕點鼠標,向甘肅省計算中心的‘窗口’發(fā)個申請,提交運算任務(wù),省計算中心就把任務(wù)分配到閑著的計算機上運算,不長時間后,運算結(jié)果就會出現(xiàn)在科研人員的電腦上。
甘肅省超級計算中心致力于建成一個開放可共享的高端計算環(huán)境,為政府各機構(gòu)、企事業(yè)、大中專院校、科研單位提供超級計算能力、海量信息處理、超大型數(shù)據(jù)庫管理、尖端技術(shù)科研開發(fā)的服務(wù),將有限的計算延展為無限的可能。最終形成應(yīng)用環(huán)境、用戶培訓(xùn)、科普宣傳、應(yīng)用開發(fā)、科學(xué)研究、人才培養(yǎng)等功能齊全、布局合理的一流信息化平臺環(huán)境和產(chǎn)業(yè)基地。
在建設(shè)周期方面,初期希望在甘肅省計算中心建設(shè)管理結(jié)點的集群系統(tǒng),準備購置主要設(shè)備、軟件,構(gòu)建應(yīng)用環(huán)境,實現(xiàn)計算能力,高性能計算機采用中國電信寬帶網(wǎng)和中國教育網(wǎng)傳輸數(shù)據(jù)。同時與蘭州大學(xué)構(gòu)建網(wǎng)格試驗床。二期建設(shè)將連接蘭州大學(xué)、蘭州交通大學(xué)、蘭州理工大學(xué)、中科院資源環(huán)境科學(xué)信息中心等大專院校、科研院所的高性能計算系統(tǒng),完成高速網(wǎng)絡(luò)接入光纖主干網(wǎng);實現(xiàn)高性能計算資源的連接和共享,形成一個具有強大管理能力和計算能力的平臺。三期建設(shè)將逐步完善網(wǎng)格系統(tǒng),吸納有一定計算能力的科研單位,提高計算能力,實現(xiàn)高性能計算應(yīng)用,研究網(wǎng)格系統(tǒng)向其他領(lǐng)域的應(yīng)用拓展、應(yīng)用。
解決方案:網(wǎng)絡(luò)經(jīng)過對需求的分析,可以確定甘肅省高性能計算中心(網(wǎng)格系統(tǒng))的建立是利用網(wǎng)格技術(shù)實現(xiàn)大規(guī)??茖W(xué)數(shù)據(jù)集的協(xié)作虛擬化,實現(xiàn)高要求數(shù)據(jù)分析所進行的分布式計算(共享計算能力和存儲空間)。網(wǎng)格將在科學(xué)計算、信息集成領(lǐng)域一展身手,提高甘肅省的科學(xué)計算能力,是典型的高性能計算應(yīng)用,需要大規(guī)模系統(tǒng)。
對應(yīng)于甘肅省高性能計算中心的實際需要,曙光公司在本次項目中采用了基于機群架構(gòu)的設(shè)計思想,采用最新的超級計算機曙光天潮,該款超級服務(wù)器是一臺成熟的產(chǎn)品,采用大規(guī)模機群體系結(jié)構(gòu),其中采用了許多創(chuàng)新技術(shù),在平衡創(chuàng)新和可靠性上采用了冗余設(shè)計方法,每個創(chuàng)新部件都有成熟的產(chǎn)品部件與之對應(yīng),使高性能計算機的可擴展性得到很大提高,同時保證應(yīng)用飽和性能的穩(wěn)定。
曙光大規(guī)模機群系統(tǒng)的規(guī)模為22個計算節(jié)點,每個計算節(jié)點2顆AMD Opteron 64bit處理器,總共44顆處理器,1個I/O節(jié)點、1個管理登錄節(jié)點,均為雙AMD Opteron處理器節(jié)點。在應(yīng)用性能方面提高<系統(tǒng)應(yīng)用飽和性能的方法包括,提供輕核心操作系統(tǒng),單用戶通信軟件、并行I/O庫,支持多種操作系統(tǒng);而在系統(tǒng)動態(tài)重構(gòu)方面可提高系統(tǒng)的管理能力,提供多種使用模式,包括開發(fā)大規(guī)模KVM(Keyboard-Video-Mouse)管理網(wǎng)絡(luò),操作系統(tǒng)動態(tài)加載等。整體系統(tǒng)架構(gòu)如下。

圖:曙光體系結(jié)構(gòu)
不過,雖然有了這臺超級計算機,省計算中心還有著更為雄心勃勃的行動——建立近兩年在國際上開始發(fā)展的網(wǎng)格,針對甘肅省以高能計算所為中心建立甘肅超級計算網(wǎng)格的設(shè)想,在此套解決方案的網(wǎng)絡(luò)子系統(tǒng)設(shè)計方面,本項目為曙光4000L大規(guī)模機群系統(tǒng)配以3套網(wǎng)絡(luò),分別是高速計算數(shù)據(jù)傳輸網(wǎng),千兆數(shù)據(jù)交換網(wǎng)絡(luò)和管理網(wǎng),分別用于并行計算時的數(shù)據(jù)交換、計算通訊以及I/O讀寫;用戶接入、系統(tǒng)管理控制。高速計算網(wǎng)采用網(wǎng)絡(luò),千兆數(shù)據(jù)交換網(wǎng)絡(luò),兩套網(wǎng)絡(luò)可以互為備份,即千兆以太網(wǎng)可以作為InfiniBand網(wǎng)絡(luò)的備份,千兆以太網(wǎng)可以作為千兆以太網(wǎng)的備份。而且本次項目中所提供的網(wǎng)絡(luò)交換設(shè)備均在曙光機群服務(wù)器中有大量的成功應(yīng)用案例,所選用的產(chǎn)品無論是產(chǎn)品質(zhì)量、性能、互聯(lián)、互通性都有所保證。
另外,曙光4000L采用數(shù)據(jù)交換網(wǎng)和管理網(wǎng)分開的方式,有效地減輕了對數(shù)據(jù)網(wǎng)的負載,做到系統(tǒng)管理對業(yè)務(wù)網(wǎng)絡(luò)完全沒有干擾。接入管理網(wǎng)采用了百兆以太網(wǎng),在本項目的曙光4000L機群系統(tǒng)中,采用了臺鏡,端口百兆交換機組成一個百兆以太網(wǎng),各節(jié)點通過它連接成百兆的管理網(wǎng)隊整個機群的管理、監(jiān)控。而千兆計算網(wǎng)絡(luò)主要用于機群的、登錄、任務(wù)調(diào)度等系統(tǒng)管理員常用工作。這個網(wǎng)絡(luò)既是用戶接入、系統(tǒng)管理網(wǎng)絡(luò),也是高速數(shù)據(jù)網(wǎng)的備份網(wǎng)絡(luò)。通過網(wǎng)捷網(wǎng)絡(luò)的網(wǎng)絡(luò)管理軟件,網(wǎng)絡(luò)管理員可以通過一個中央工作站控制所有網(wǎng)捷網(wǎng)絡(luò)產(chǎn)品軟件和配置的升級,極大地簡化了網(wǎng)絡(luò)分配、故障診斷和清除,從而減少安裝和維護一個世界級網(wǎng)絡(luò)基礎(chǔ)設(shè)施的總成本。
在規(guī)劃、建設(shè)曙光的存儲系統(tǒng)時,曙光推薦了磁盤陣列,內(nèi)部硬盤為Ultra 160接口,主機端口為2Gb FC或Ultra 160 SCSI接口標準的磁盤陣列系統(tǒng),通過靈活的可配置性,提供一種強有力的,高性價比的解決方案,從而更好的控制整體成本。
用戶評價:從性能到細節(jié)均,美妙貫穿始終
甘肅計算中心主任胡鐵鈞表示:“曙光4000是一款既能進行高性能計算,又能滿足信息服務(wù)需要的高性能集群系統(tǒng),在生物、氣象、流體力學(xué)等方面均有非常出色的表現(xiàn)?!泵鎸τ谟脩舻牧己迷u價,曙光的技術(shù)人員介紹到:“該系統(tǒng)完成后的系統(tǒng)可以完成每秒4000億次的高能運算,相當(dāng)于一秒鐘內(nèi)全國每個人運算300多次,然后把所有人的運算結(jié)果加到一起。以個人電腦來打比方,一臺目前最好的普通電腦運算300天才能完成的任務(wù),用這種大型計算機一天就可以完成。以舊的運算設(shè)備來做對比,以往用一個月才能處理完的核物理試驗數(shù)據(jù),現(xiàn)在2、3個小時就可以處理完成?!?/P>
與此同時,曙光的技術(shù)人員在談及整個項目的規(guī)劃時介紹到:“在建設(shè)網(wǎng)格方面,除省計算中心外,還將蘭州大學(xué)擁有每秒運算2000億次能力,蘭州交通大學(xué)擁有每秒1000億次能力,西地所擁有每秒4000億次能力建成一個開放可共享的高端計算環(huán)境,為政府各機構(gòu)、企事業(yè)、大中專院校、科研單位提供超級計算能力、海量信息處理、超大型數(shù)據(jù)庫管理、尖端技術(shù)科研開發(fā)的服務(wù),正式運行后,這個網(wǎng)格可以達到每秒鐘運算2萬億次的能力”。
另外,曙光4000L系統(tǒng)充分考慮了國內(nèi)用戶的本地化要求,管理軟件界面是中文界面,同時也支持英文界面,可以在程序內(nèi)直接進行切換,無需重新啟動。這項功能是曙光機群管理系統(tǒng)的亮點之一,中文化的界面具有親切的人機接口,充分滿足了中國用戶的使用習(xí)慣,對此用慣了繁瑣英文界面的用戶在操作的時候顯得頗為興奮。
CIO頻道人物視窗
CIO頻道方案案例庫
大數(shù)據(jù)建設(shè)方案案例庫
電子政務(wù)建設(shè)方案案例庫
互聯(lián)集成系統(tǒng)構(gòu)建方案案例庫
商務(wù)智能建設(shè)方案案例庫
系統(tǒng)集成類軟件信息研發(fā)企業(yè)名錄