中國的AI模擬芯片據(jù)稱在計算機視覺任務(wù)中比Nvidia A100快

來源: 西安童程童美少兒編程培訓碑林交大校區(qū) 發(fā)布時間：2023-12-12

閱讀：19
舉報

中國清華大學的一篇新論文描述了專門用于計算機視覺任務(wù)的超快速、人工智能處理芯片的開發(fā)和運行。該芯片名為電子與光計算相結(jié)合的全模擬芯片 (ACCEL)，在專門的架構(gòu)中利用光子和模擬計算，能夠在圖像分類工作負載中提供 Nvidia A100 3.7 倍以上的性能。是的，它是一款用于視覺任務(wù)的專用芯片，但我們不應(yīng)該將其視為市場碎片化，而是可以將其視為邁向異構(gòu)計算未來的又一步，其中半導體越來越多地設(shè)計用于滿足特定需求，而不是“捕獲”。所有”配置。

正如《自然》雜志上發(fā)表的論文所述，模擬的 ACCEL 處理器在視覺任務(wù)中達到了每秒 4,600 次萬億次運算 (TOPS)。與 Nvidia 的A100 (Ampere)相比，這具有 3.7 倍的性能優(yōu)勢，后者在 INT8 工作負載（稀疏）中的峰值為 1,248 TOPS。根據(jù)該研究論文，ACCEL 的系統(tǒng)能源效率為每秒每瓦 74.8 peta 操作。此后，Nvidia 的 A100 被 Hopper 及其 800 億晶體管 H100 超級芯片所取代，但即便如此，與這些結(jié)果相比，這看起來也并不令人印象深刻。

當然，速度對于任何處理系統(tǒng)都是至關(guān)重要的。然而，準確性對于計算機視覺任務(wù)來說是必要的。畢竟，這些系統(tǒng)用于管理我們的生活和文明的應(yīng)用范圍和方式是廣泛的：它從可穿戴設(shè)備市場（可能在 XR 場景中）延伸到自動駕駛、工業(yè)檢查以及其他圖像檢測和識別系統(tǒng)。一般，比如面部識別。清華大學的論文稱，ACCEL 在 Fashion-MNIST、3 類 ImageNet 分類和延時視頻識別任務(wù)中進行了實驗，具有“具有競爭力的高”準確度（分別為 85.5%、82.0% 和 92.6%），同時顯示在弱光條件下具有出色的系統(tǒng)魯棒性（每幀 0.14 fJ μm−2）。

就 ACCEL 而言，清華大學的架構(gòu)通過衍射光學模擬計算 (OAC) 并輔以電子模擬計算 (EAC) 進行操作，在一塊芯片中具有可擴展性、非線性和靈活性，但其 99% 的操作是在光學系統(tǒng)內(nèi)實現(xiàn)的。根據(jù)該論文，這有助于克服其他視覺架構(gòu)中的限制，例如馬赫-曾德干涉儀和衍射深度神經(jīng)網(wǎng)絡(luò)（DNN）。

這個 99% 的數(shù)字至少可以解釋 ACCEL 和其他非模擬方法之間能源效率的差異：Nvidia 的 GPU 是 100% 數(shù)字化的，這意味著它的運行基于電子的連續(xù)流動（并產(chǎn)生廢熱作為結(jié)果）。

然而，光子光學系統(tǒng)利用非電氣方式來傳輸、操作和編碼信息。這可以通過特定波長的激光脈沖來完成（我們在較近關(guān)于中國量子密鑰分配 [QKD] 衛(wèi)星系統(tǒng)的文章中對此進行了探討，也是基于光子的），用于提取和傳達視覺數(shù)據(jù)（圖像）的特征并進行操作幾乎在過境時就按那個燈（改變它）。由于采用了這種光學處理系統(tǒng)，因此能量需求更少，熱耗散中浪費的電子也更少。擺脫 ADC（模數(shù)轉(zhuǎn)換器）的高能耗和延遲成本對于光子學帶來的性能改進大有幫助。這也是為什么光子系統(tǒng)被用于量子計算和 HPC（高性能計算）安裝。

同時，我們擺脫了電子在半導體上有序但混亂的運動，并解鎖了僅受光本身限制的運行速度，從而獲得了速度優(yōu)勢。研究論文稱，該芯片的內(nèi)部測試顯示，每幀的計算延遲較低，為 72 納秒，每秒生成約 13,000 幀的吞吐量，足以讓任何《毀滅戰(zhàn)士》玩家忘記現(xiàn)實。。協(xié)處理器似乎也有足夠的幀來分析任何計算視覺任務(wù)中選擇的這些圖像。通過 ACCEL 對這些圖像進行深度學習處理似乎不會成為瓶頸。

ACCEL 似乎是專用集成電路 (ASIC) 設(shè)計的模擬版本。這正是電子模擬計算 (EAC) 單元的作用，因為它可以重新配置其中的模擬路徑以加速特定任務(wù)。將這些視為芯片內(nèi)的預(yù)編程算法，由 EAC 協(xié)調(diào)應(yīng)將哪種配置應(yīng)用于哪個任務(wù)。

研究團隊聯(lián)合負責人戴瓊海表示：“為人工智能時代開發(fā)新的計算架構(gòu)是一項成就。但更重要的挑戰(zhàn)是將這種新架構(gòu)落地到實際應(yīng)用中，解決國家和公眾的重大需求，這是我們的責任。”

新的光子和模擬 ACCEL 芯片可能會讓人想起 IBM 較近發(fā)布的另一款模擬 AI 加速芯片（Hermes）。也許有趣的是，即使對中國實施了所有制裁，該國的研發(fā)仍使其能夠迎頭趕上，并且在某些方面明顯有所改進，無論它們受到什么阻礙。能夠繞過限制無疑是中國考慮制裁的方式。

同樣重要的是要了解這一代基于光子學的模擬芯片正在極其輕松的光刻水平上進行加工。例如，ACCEL 是采用標準 180 nm CMOS 技術(shù)制造的，用于電子模擬計算單元 (EAC)——操作的大腦。當然，通過進一步小型化工藝以實現(xiàn)更低的 CMOS 節(jié)點（Nvidia 的 H100 采用 4 nm 工藝制造），可以進一步提率。目前還不清楚可以做哪些進一步的工作來小型化光學模擬計算（OAC）模塊。

大規(guī)模實施 ACCEL 等模擬計算系統(tǒng)似乎更多的是制造吞吐量和行業(yè)適應(yīng)性的問題，而不是物理上不可能的問題。但高性能人工智能模擬芯片仍未大規(guī)模部署是有原因的：目前其制造水平太低，無法滿足研究工作和原型工作以外的任何需求。我們現(xiàn)在沒有足夠的吞吐量或可用的能力將這些芯片添加到臺積電等公司已經(jīng)的 2025 年制造中，但在擴大規(guī)模之前始終需要這些實驗結(jié)果。此類芯片的市場非常希望擁有它們。較終，這都是計劃、支出和時間的問題。

機構(gòu)相關(guān)資訊

推薦課程

中國的AI模擬芯片據(jù)稱在計算機視覺任務(wù)中比Nvidia A100快

咨詢機構(gòu)