用資工的角度聊聊 Nvidia GTC Grace #14
用資工的角度聊聊 Nvidia GTC Grace #14

用資工的角度聊聊 Nvidia GTC Grace #14

contributed by <Tim096>

前言

用資工的角度聊聊 AMD 收購 Xilinx #13用資工的角度聊聊 Nvidia 收購 ARM,所看見的未來 #12青菜聊聊 2020 Q4 AMD 財報 #4用資工角度看亞馬遜和微軟的雲端大戲 PaaS #9。2021 年伺服器領域真的是大放異彩,各種消息出來,各大廠商瘋狂搶進,大家都為了伺服器領域收購工絲毫不手軟。搞得筆者也瘋狂的打伺服器這一方面的文章,真的不是筆者故意的,還請讀者多多見諒啦,今天主題又會說到伺服器XD。

當初在 Nvidia 收購 ARM 時,筆者就有提到 Nvidia 的目地肯定是要往伺服器領域更進一步的發展,而這一次 Nvidia GTC 大會也順勢推出了挑戰 Intel 的 CPU

  1. Grace 是什麼?
  2. Grace 其實不是 CPU?
  3. 見樹也見林,Nvidia 到底想幹嘛?
  4. Tim096 的觀點

1. Grace 是什麼?

Grace – 源由

Grace 其實是取自於電腦科學史上非常重要的一位電腦科學家的名字,葛麗絲·穆雷·霍普(Grace Murray Hopper),生於美國紐約州紐約市,美國海軍准將(Rear admiral)及電腦科學家,世界最早一批的程式設計師之一,也是最早的女性程式設計師之一。她是 Harvard Mark I 上第一個專職程式設計師,創造了現代第一個編譯器 A-0 系統,以及第一個進階商用電腦程式語言「COBOL」,被譽為「COBOL 之母」。

最有趣也最廣為人知的事情,大家是否有想過「debug」,這一個詞為什麼會成為程式設計當中除錯的意思呢?便是 Grace 因為 Harvard Mark II 不明原因停止運作,Grace 經過仔細檢查後,發現是一隻飛蛾飛進繼電器,造成短路。她將飛蛾的殘骸貼在研發記錄簿上,說她發現一個 bug,造成電腦停止運作。此後,在這個部門中,凡是任何引起電腦停止運作的錯誤,都被稱為「bug」,找出錯誤則稱為「debug」,這形成日後電腦程式錯誤及除錯的名稱起源。

這隻飛蛾也成為電腦科學史上第一個「bug」XD

歷史上第一個程式的 bug - (來源 : wiki)
歷史上第一個程式的 bug – (來源 : wiki)

NVIDIA Grace

NVIDIA Grace CPU 是一款高度「專用型」處理器,主要面向大型數據密集型 HPC 和 AI 應用。製程上, Grace 使用的是更先進的 5nm 製程;架構上,使用的是下一代 Arm Neoverse 內核;通信上,使用了 NVIDIA 第四代 NVIDIA NVLink,在 CPU 和 GPU 之間提供高達 900 GB/s 的雙向帶寬,相比之前的產品提升了八倍。未來要和 Intel 搶伺服器領域的先鋒者。

Grace 傳輸速度比較 - (來源 : NVIDIA 官網)
Grace 傳輸速度比較 – (來源 : NVIDIA 官網)

以上是大部分人在介紹的 NVIDIA Grace 所看到的,而以下開始介紹筆者所看到一點不太一樣的地方。

先來簡單介紹一下 NVIDIA 到底想解決目前的什麼痛點?目前資料的日益俱增,並且由於晶片製成的不斷進步,都大大改變了伺服器這一領域的變化。現在大部分的伺服器情況就是算力是有的,但是資料搬運的速度不夠快速。大家可以想像成「處理器」(注意:這邊使用的詞是處理器,不是 CPU、GPU、FPGA等)就是一顆擁有強大算力的大腦,並且也有超龐大的資料要處理,目前的痛點就是即使我擁有了強大的算力,但是資料傳送的速度卻不夠快速。

特別是在 AI、ML 的領域發展,更是這樣。在 AI、ML 領域當中所需要不是一個極其複雜的運算,需要的是快速處理簡單但大量的資料。而 NVIDIA Grace 也是由此而生。

由於 AI 的快速發展和資料的日益俱增,接下來的世界只會對於記憶體的頻寬需求越來越大而已。

2. Grace 其實不是 CPU?

還記得 NVIDIA 剛推出 Grace 的那幾天,總有一些人說 NVIDIA 要進攻 CPU 領域了,要來和 Intel 搶生意了,而 Intel 的股價也應聲下跌。但事實上 NVIDIA Grace 根本就不是一顆 CPU,更準確一點的來說,NVIDIA Grace 是一顆 SoC。

NVIDIA Grace
NVIDIA Grace – (來源 : NVIDIA 官網)

簡單的說,Grace 不僅是單一顆 GPU ,而是包含 CPU、DPU、記憶體等的完整模組,同時專為連接 NVIDIA GPU 所設計,從 NVLink 的特性以及先前老黃介紹 NVLink 連接的 GPU 的方式,筆者認為 Grace 藉由 NVLink 搭配下一代 NVIDIA 超算級 GPU ,根本就是一顆超大型的 SoC 晶片。

並非 NVIDIA 第一款 CPU,亦非第一款 Arm 架構產品

而「Grace」CPU 實際上也並非 NVIDIA 第一款以 Arm 架構打造的 CPU 產品,早在之前就已經推出多款 Tegra 處理器,甚至也曾應用在手機、機上盒等產品,只是後來考量競爭優勢與公司業務發展方向轉型,因此 Tegra 處理器後續便轉往自動化應用、車載平台設計發展為主。

Tegra 處理器 - (來源 : NVIDIA 官網)
Tegra 處理器 – (來源 : NVIDIA 官網)

NVIDIA Grace – 優勢

若讀者比較不了解 SoC,筆者以前寫過一篇「用資工的角度看特斯拉的自動駕駛(FSD Beta)上 #4」裡面有詳細的介紹,感興趣的讀者不訪去閱讀一下。

由於 SoC 系統單晶片,將數個功能不同的晶片,整合成「一個」具有完整功能的晶片。這一特性的發揮可以讓資料傳送的速度極快無比。以往我們 ML 把資料輸入進電腦中,每一次都要從 CPU 端,藉由頻寬傳送給 GPU 造成效率不佳的情況發生,而 NVIDIA Grace 由於是 SoC + NVLink 的加持大大的解決這一問題,但相信眼尖的讀者也發現這樣做的問題所在之處了。

NVIDIA Grace – 劣勢

由於 NVIDIA Grace 是一顆 SoC 晶片,又可以說為了超「特定」領域所創造的一個晶片,可以想到 NVIDIA Grace 的泛用性極差無比,而 HPC、邊緣運算、伺服器等等。雖然近期大家都只注意到 AI、自動駕駛。這些相對比較新穎的主題,可是事實上是目前伺服器的大市場中,泛用性晶片還是佔大宗,從 Intel 的財報中我們可以看到 Intel 的 Data Center 這隻金雞母佔據了 Intel 30% 的營收,而 NVIDIA Grace 是幾乎吃不到這一塊大蛋糕的。

3. 見樹也見林,Nvidia 到底想幹嘛?

經過以上的討論,我們可以發現,NVIDIA Grace 是專門為了 AI 所發展而進行研發,並不是通用型的處理器。因此更有可能的情況是,作為特定場景,為了某一個客戶客製化打造一個伺服器場,例如,未來 AI 的訓練、自動駕駛等等,與 AI 相關的領域才會使用到。而這也呼應了老黃演講所說的:「對於 Nvidia 來說,NVIDIA Grace 是最後一塊拼圖」。近年來 Nvidia 的所有主旋律是圍繞者什麼而展開的相信各位讀者都了解,那就是「AI」。

4. Tim096 的觀點

未來伺服器的發展是筆者在打這一篇思考最多的地方。從前的伺服器領域就是一台快一點、大一點、強大一點的萬用電腦,但是由於晶片廠商們白熱化的競爭,誰也不想錯過伺服器這一塊大蛋糕,當然一部分也是得力於晶片製程的進步。隨者市場上的需求越來越多,廠商們要如何提供給客戶更「客製化」的服務,也成為了一大重點。

簡單一點來看,我們可以想像成,一台超級電腦很好很讚,但是對於一個普通人來說,一台 iPad 用起來更順手、更好用。接下來晶片大廠要如何端出一道更符合客戶需求的佳餚,成為他們下一道的課題,而這一課題其他晶片廠也藉由收購公司,大家都繳出了屬於自己的答案。AMD 收購 Xilinx、Intel 原本的王者,Nvidia 推出 Grace。讓我們一起來期待接下來的發展。

5. Tim096 加碼

由於很多東西,筆者以前都有打過類似的東西,因此這一篇筆者試者簡潔有力一點。如果有一些不懂,或是想要了解更多相關主題的讀者,筆者強烈建議把筆者其他篇相關文章,也閱讀一下,相信會有更多的了解的。