脈絡拆解: NVIDIA GTC 2024 主題演講 - NVIDIA 執行長黃仁勳

Post Title Image

摘要 tl;dr

在 2024 年的 GTC 大會上,代表全球超過 100 兆美元產業的焦點從降低運算成本轉變為指數級增加運算規模。這種典範轉移被稱為「生成」而非「推理」,標誌著從傳統的資料檢索方法向生成智慧輸出的轉移。討論強調了人工智慧的持續工業革命,即使是如蛋白質、基因及腦波等複雜實體也正在被數位化並透過 AI 理解,進而創造出它們的數位孿生。

主題演講強調了 AI 應用的轉變,提到 AI Foundry 的三個主要支柱:NIM、NeMo 微服務和 DGX Cloud。這些工具代表著一個新時代的開始,其中結構化和非結構化的資料都被轉換為一個動態的 AI 資料庫。這個資料庫不僅儲存資訊,還能與使用者進行智慧互動,代表著從傳統的語義編碼往一個內嵌在數位生成場景中的意義世界的重大演化。


內容大綱


完整筆記


Opening


開場影片

  • [音樂]
  • 我是一位願景家,照亮星系以見證星星的誕生,並增進我們對極端氣候事件的理解。
  • 我是一位助手,引導盲人穿越擁擠的世界。
  • 我想到要跑到商店去。
  • 並賦予無法說話者以聲音。
  • 別逗我笑。
  • 我是一位 Transformer,利用重力儲存可再生能源,並為我們所有人鋪平通往無限潔淨能源的道路。
  • 我是一位訓練者,教導機器人協助留意危險並拯救生命。
  • 我是一位醫治者,提供新一代治療方案及新層次的病人照護,我對青黴素過敏。
  • 服用這些藥物還可以嗎?
  • 當然可以,這些抗生素不含青黴素,所以你服用它們是完全安全的。
  • 我是一位導航者,建立虛擬場景讓我們安全地探索真實世界並理解每一個決策。
  • 我甚至幫助編寫劇本,賦予文字生命。
  • 我是 AI,由 NVIDIA 的深度學習和各地的卓越人才賦予生命。

NVIDIA 創辦人兼執行長黃仁勳

  • 請歡迎 NVIDIA 創辦人兼執行長黃仁勳上台。
  • 歡迎來到 GTC。

一場開發者大會,不是音樂會

  • 希望你們明白這裡不是一場音樂會
  • 你們來到了一場開發者大會
  • 會有很多科學描述、算法、電腦架構、數學。
  • 我突然感受到房間裡沉重的氣氛,彷彿你來錯了地方。
  • 在世界上沒有哪個會議能聚集如此多來自不同科學領域的研究人員,從氣候科技到無線電科學,探索如何使用 AI 來機器人化地控制 MIMO 1,以應用在下一代 6G 無線電、機器人自動駕駛汽車,甚至人工智慧。
  • 我突然注意到大家都鬆了一口氣。
  • 這場會議還有一些驚人的公司參與。
  • 這份名單不是與會者。
  • 這些是演講者。
  • 令人驚訝的是這一點。
  • 如果把我所有的朋友拿掉,好朋友 Michael Dell 就坐在那裡,IT 行業裡我一起長大的朋友們。
  • 如果拿掉那份名單,這真的很驚人,這些是非 IT 行業的演講者,他們利用加速運算來解決普通電腦無法解決的問題。
  • 它涵蓋了生命科學、健康照護、基因組學、運輸、當然還有零售、物流、製造業、工業等行業,所涵蓋的行業範圍確實令人驚嘆。
  • 你們不僅是來參加的,你們是來介紹你們的研究。今天在這個房間裡代表的是全世界100 兆美元的產業
  • 這實在是太驚人了。

1️⃣ 新產業 - 加速運算


NVIDIA 的旅程與新產業

  • 確實有事情發生,正在進行中。
  • 這個產業正在轉變,不僅僅是我們的產業
  • 因為電腦產業,電腦是今天社會最重要的工具。
  • 電腦的基礎變革影響了每個行業,但我們是如何開始,如何到達這裡的,我為你們畫了一幅小插畫。
  • 在這一頁中,這是 NVIDIA 的旅程,始於 1993 年,這可能是接下來談話的其餘部分。
  • 1993 年是我們的旅程起點,我們成立於 1993 年,沿途發生了幾件重要事件。
  • 我只強調幾個。
  • 2006 年 CUDA 2 3 證明是一個革命性的計算模型,我們認為它是革命性的,當時以為它會一夜成名,近 20 年後才實現。
  • 我們看到了未來。
  • 兩個十年後。
  • 2012 年 AlexNet 4,AI 和 CUDA 首次接觸。
  • 2016 年,認識到這種計算模型的重要性,我們發明了一種全新的電腦,稱為DGX-1,這台超級電腦擁有 170 TFLOP(5),首次將八個 GPU 連接在一起。
  • (在 2016 年)我親自出貨了第一台 DGX-1 給位於舊金山的一家新創公司 OpenAI 6 。DGX-1 是世界上第一台 AI 超級電腦。
  • 記住是 170 teraflops。
  • 2017 年,Transformer 7 到來。
  • 2022 年 ChatGPT 捕獲了世界的想像力,讓人們認識到人工智慧的重要性和能力。
  • 而到了 2023 年,生成式 AI 出現,新產業開始形成。
  • 為什麼是一個新產業?
  • 因為以前不存在的軟體,我們現在正在產生軟體,利用電腦編寫軟體,產生以前從未存在的軟體,這是一個全新的類別,它從無到有開創市場,這是一個全新的類別。
  • 而產生軟體的方式與我們之前做過的任何事情都不同。
  • 在資料中心,生成 token,大規模生產浮點數,就像在此之初上一次工業革命,當人們意識到你會設立工廠,對其施加能量,然後這種看不見的有價值的東西稱為電力從交流發電機中產出
  • 100 年後,200 年後,我們現在正在創造新類型的電子,token,利用基礎設施,我們稱之為 AI 工廠,來產生這種新的極其有價值的東西,稱為人工智慧
  • 一個新產業已經出現。

模擬

  • 我們將要談論這個新產業的許多事情,我們將討論我們接下來將如何進行計算,我們將討論因這個新產業而建立的軟體類型,這個新軟體,你會如何思考這個新軟體,這個新產業的應用程式,然後也許是接下來會發生什麼,以及我們今天如何開始為即將來臨的事情做準備。
  • 好。
  • 但在我開始之前,我想向你展示 NVIDIA 的靈魂,我們公司的靈魂,在電腦圖形學、物理學和人工智慧的交會處。
  • 所有在電腦內交會,在 Omniverse 中,在虛擬世界的模擬中,我們今天將向你展示的一切,實際上我們今天要展示的一切都是模擬,而非動畫
  • 它之所以美麗,因為它是物理的,世界是美麗的,它之所以驚人,因為它是由機器人技術動畫呈現的,是由人工智慧動畫呈現的,你今天將要看到的一切都是完全生成的,完全模擬的,在 Omniverse 中。
  • 而你即將欣賞的所有內容,是世界上第一場音樂會,其中一切都是自製的,你即將觀看一些家庭影片,所以坐下來好好享受吧。

Omniverse & Digital Twins 的家庭影片

  • NVIDIA Warp 8

  • Cadence Reality Digital Twin Platform 9
  • Microsoft PowerBI, Rockwell Automation Emulate3D
  • Pegatron
  • Amazon Robotics
  • NVIDIA NIM - DeepSearch
  • SimReady USD
  • Siemens Teamcenter X
  • Hexagon HxDR
  • Audio2Face NIM
  • Isaac Perceptor
  • BMW Group
  • Omniverse Cloud APIs for AV Sim
  • Ansys Perceive EM
  • God I love NVIDIA.

加速運算

  • 加速運算已達到轉折點。
  • 通用運算已力不從心,我們需要另一種計算方式,讓我們可以繼續擴展,讓我們可以繼續降低計算成本,讓我們可以持續地消耗越來越多計算資源的同時保持可持續性。
  • 加速運算比通用運算大幅加速。
  • 而在我們參與的每一個產業中,我將向你展示許多,影響是戲劇性的,但 沒有任何產業比我們自己的產業更重要的了,使用模擬工具打造產品的產業,在這個產業中 這不是關於降低運算成本,而是關於提高運算規模
  • 我們希望能夠完全以高保真度、完全數位的方式模擬我們所做的整個產品,基本上就是我們所說的 digital twins
  • 我們希望設計它、建造它、模擬它、營運它,完全數位化。
  • 為此,我們需要加速整個產業,今天我很高興地宣布,我們有一些合作夥伴將加入我們的旅程,以加速他們的整個生態系統,使我們能將世界帶入加速運算。
  • 但這裡有一個亮點。
  • 當你導入加速運算的時候,你的基礎設施是 CUDA GPUs,當這發生時,這恰好是生成式 AI 的同樣基礎設施,所以我很高興地宣布幾個非常重要的合作夥伴關係,他們都是一些世界上最重要的公司,例如 Ansys
  • 為世界所製造的東西進行工程模擬,我們與他們合作,使用 CUDA 加速 Ansys 生態系統,將 Ansys 連接到 Omniverse digital twin,這非常令人驚奇。
  • 更棒的是,安裝基底、GPU、加速運算系統遍布全球,在每個雲端、在每個系統、在所有企業中,所以他們加速的應用程式將有一個巨大的安裝基底可以服務。
  • 最終使用者將擁有驚人的應用程式,當然,系統製造商和 CSPs 將有巨大的客戶需求。
  • Synopsys,Synopsys 是 NVIDIA 的第一個軟體合作夥伴,當我們公司的第一天他們就在了。
  • Synopsys 的高階設計革新了晶片產業,我們正在 CUDA 加速 Synopsys,我們正在加速計算微影製程 10,這是幾乎沒有人知道的最重要的應用之一。
  • 為了製造晶片,我們必須將微影製程推至極限。
  • NVIDIA 建立了一個特定領域的工具庫,該工具庫極大地加速了計算微影製程。
  • 一旦我們可以加速並由軟體定義, tsmc,今天宣布,他們將開始在量產中使用 NVIDIA cuLitho 11
  • 一旦這個軟體定義並加速,下一步就是將生成式 AI 應用於半導體製造的未來,進一步推動幾何學。
  • Cadence 建立了世界上必不可少的 EDA 和 SDA 12 工具,我們也使用 Cadence,這三家公司,Ansys、Synopsys 和 Cadence,我們基本上一起建立了 NVIDIA。
  • 我們正在 CUDA 加速 Cadence,他們使用 NVIDIA GPUs 建造一台超級電腦,使他們的客戶能夠進行流體動力模擬,規模可達 100 倍甚至 1000 倍,基本上是即時的風洞。
  • Cadence Millennium 13,一台內建 NVIDIA GPUs 的超級電腦,一個軟體公司建造超級電腦,看到這一點我很高興,一起建造 Cadence 副駕駛,想像一天,當 Cadence、Synopsys、Ansys 這些工具提供商會提供 AI co-pilot 給你,讓我們有成千上萬的 co-pilot 助理,幫助我們設計晶片設計系統,我們也將把 Cadence digital twin 平台連接到 Omniverse,正如你所見的趨勢,我們正在加速世界的 Cadence EDA 和 SDA,讓 大家可以在 digital twins 中創造未來
  • 我們將把它們全部連接到 Omniverse,這是未來 digital twins 的底層操作系統。

2️⃣ 更大的 GPU - Blackwell 平台


模型的大小

  • 其中一個業界因規模而獲益良多的,你們都很清楚,那就是大型語言模型 (LLM)。
  • 基本上在 Transformer 被發明後,我們得以驚人的速度擴展大型語言模型,實際上每六個月就翻倍。
  • 現在每六個月翻倍是如何可能的呢?這讓我們的產業增長,我們的運算需求激增,這個原因其實很簡單。
  • 如果你將模型的大小翻倍,你的大腦大小就翻倍,你需要兩倍的資訊來填充它。
  • 因此每次你翻倍你的參數數量,你也必須相應地增加你的訓練 token 數量,這兩個數字的組合,成為你必須達成的運算規模。
  • 最新的先進 OpenAI 模型,大約有 1.8 兆個參數。
  • 1.8 兆個參數需要數兆的 tokens 來訓練。
  • 因此幾兆的參數大約需要幾兆的 tokens,當你將這兩者相乘時,大約有 30 到 50 十億千兆 (billion quadrillion) 的浮點運算每秒。
  • 現在我們只需要做一些 CEO 數學,對,就現在,請跟著我來,所以你有 30 十億千兆 (30 billion quadrillion)。
  • 一千兆 (1 quadrillion) 就像一個 petaflop。
  • 因此 如果你有一個 petaflop 的 GPU,你將需要 30 十億秒 (30 billion seconds) 來進行運算,來訓練那個模型
  • 30 十億秒大約是 1000 年
  • 好吧,1000 年,它值得,就像要更快完成一樣,但它值得,這通常是我的回答。
  • 當大多數人問我多久,多久才能完成某事時,20 年,這是值得的,但我們下週可以做吗?因此,1000 年,我們需要,我們需要更大的 GPU,我們需要更大的 GPU,我們很早就認識到這一點,並意識到答案是將一大堆 GPU 組合在一起,當然還需要在此過程中創新許多事物,如發明 A10 Tensor Cores 以及 NVLink,讓我們可以打造本質上一個巨大的 GPU,並將它們全部用驚人的網路連接在一起,來自一家名為 Mellanox 公司的 InfiniBand 技術 14,讓我們可以建立這些巨型系統,因此 DGX-1 是我們的第一版,但它不是我們打造的最後一版。
  • 我們一直在建造超級電腦,在 2021 年,我們有 Selene 15 大約 4500 個 GPU。
  • 然後在 2023 年,我們建造了世界上最大的 AI 超級電腦之一,它剛剛上線,Eos 16
  • 當我們在建造這些東西時,我們試圖幫助全球建造這些東西,為了幫助全球建造這些東西,我們必須首先建造它們。
  • 我們建立了晶片、系統、網絡以及執行此操作所需的所有軟體,你應該看看這些系統。
  • 想像一下撰寫一個遍及整個系統的軟體,將運算分佈到數千個 GPU 上,但內部有數千個更小的 GPU,數百萬個 GPU 來分佈工作,並平衡工作負載,以便你可以獲得最高的能源效率,最好的運算時間並降低成本。
  • 因此,這些基本創新是我們到達這裡的原因。
  • 在這裡,當我們看到 ChatGPT 的奇蹟在我們面前出現時,我們也意識到,我們還有很長的路要走,我們需要更大的模型,我們將使用多模態資料來訓練它,不僅僅是網路上的文本,而是我們將使用文本和圖像、圖表和圖表來訓練它,就像我們看電視學習一樣,因此將有大量的觀看影片。
  • 因此這些模型可以在物理學上有根據,理解手臂不會穿過牆壁,因此這些模型將藉由觀看大量的世界影片,結合大量的世界語言,具有常識。
  • 它將使用像合成資料生成 (synthetic data generation) 這樣的事物,就像你和我在嘗試學習時所做的那樣,我們可能會使用我們的想像力來模擬它最終將如何就像我在為這次主題演講做準備時所做的那樣,我一直在模擬它
  • 我希望它的結果和我腦海中想的一樣好。
  • 當我在模擬這次主題演講將如何進行時,有人說另一位表演者完全在跑步機上進行了她的表演,使她可以保持最佳狀態來發揮充分的能量,我沒有那樣做,如果我在這個演講進行約 10 分鐘時突然停止了,你就知道發生了什麼,那麼我們在哪裡。
  • 我們正在使用合成資料生成 (synthetic data generation),我們將使用強化學習,我們將在我們的腦海中練習它,我們將讓 AI 與 AI 一起工作,互相訓練,就像學生教師辯論者一樣,所有這些都將增加我們模型的大小,增加我們擁有的資料量,我們將不得不建立更大的 GPU。

公開發表 Blackwell

發表影片

  • Hopper 17 是很棒的,但我們需要更大的 GPU。
  • 因此女士們、先生們,我想向你介紹一款非常非常大的 GPU,以數學家、賽局理論學家 David Blackwell 的名字命名,以機率 (probability) 來說,我們認為這是一個完美的名字。
  • Blackwell,女士們、先生們,請欣賞。
  • Blackwell 不是一顆晶片。
  • Blackwell 是一個平台的名稱。
  • 呃,人們以為我們製造 GPU,而我們確實如此,但 GPU 的外觀不再像以前那樣了。
  • 如果你願意,Blackwell 系統的核心,而在公司內部這並不被稱為 Blackwell。
  • 它只是一個編號。
  • 這是 Blackwell,今天生產中的世界上最先進的 GPU。
  • 這是 Hopper。
  • 這是 Hopper。
  • Hopper 改變了世界。
  • 這是 Blackwell。
  • 沒關係 Hopper,你做得很好
  • 好。
  • 好小子,好吧,好女孩。
  • 有 2080 億個電晶體等等。
  • 因此你可以看到(我可以看到),兩個晶片之間有一條細線。
  • 這是兩個晶片這樣相鄰的第一次。
  • 這樣,這兩個晶片認為它們是一顆晶片
  • 這兩個晶片之間有 10 TB 的資料,每秒 10 TB,因此這兩個 Blackwell 晶片完全不知道它們位於兩側的哪個位置。
  • 沒有記憶體位置問題,沒有快取問題。
  • 它只是一顆巨大的晶片,所以,呃,當我們被告知 Blackwell 的抱負超出了物理學的限制時,呃,工程師說那又怎樣,所以這就是發生的事情。
  • 因此這是 Blackwell 晶片。

兩種類型的 Blackwell 系統

  • 並且Blackwell 它分為兩種系統
  • 第一種與 Hopper 相容,因此你可以將 Hopper 拿出來,再推入 Blackwell
  • 這就是為什麼其中一個生產放量挑戰將會是如此高效的原因。
  • 全世界有許多 Hopper 的安裝。
  • 它們可以是,你知道的,相同的基礎設施、相同的設計、電力、熱管理、軟體,一模一樣地推回去,所以這是目前 HGX 配置的 Hopper 版本
  • 而這是另一個 Hopper 的樣子。
  • 現在這是一塊原型板,嗯,Janine,我能借一下嗎,女士們先生們,Janine 的板子,(Janine 給了 Jensen 一塊巨大的 PCB 板。)所以,這是一塊功能完整的板子。
  • 我只是要小心一點。
  • 這裡,就在這裡,我不知道,100 億。
  • 第二個是 50 億。
  • 之後就便宜了。
  • 所以如果現場有顧客,別擔心。
  • 好的,但是,這塊相當昂貴。
  • 這是用來提升板。
  • 嗯,而且它將會以這種方式進入生產,好的,所以你要拿這個它有兩個 Blackwell 晶片 (chips) 和四個 Blackwell 晶粒 (dies),連接到一個 Grace CPU
  • Grace CPU 擁有超快的晶片對晶片連接,令人驚訝的是,這台電腦是第一台擁有這麼多運算能力的電腦。
  • 首先,所有這些都剛好可以放進這麼小的空間。
  • 其次,它是記憶體一致的。
  • 它們感覺就像是一個大家庭,一起工作於一個應用程式,所以內部的一切都是一致的。
  • 嗯,就是這些,你知道,你看到了數字,有很多 TB 這個和那個。
  • 嗯但這是,這是一個奇蹟。
  • 這是一個,這,讓我們看看這裡有些什麼。
  • 嗯這裡有嗯嗯NVLink 18 在上面,PCI Express 19 在下面,嗯在你的哪一邊是我的,你的左邊。
  • 其中一個,無所謂,嗯其中一個,其中一個是 CPU 晶片對晶片連接,是我的左邊,或者你的,取決於哪一邊。
  • 我只是在試著搞清楚,我只是有點,無所謂。
  • 希望它已經插好了。
  • 所以好的,所以這是 Grace Blackwell 系統。

第二代 Transformer 引擎

  • 但還有更多,所以事實證明,所有的規格都很棒,但我們需要許多新功能。
  • 呃,為了突破物理學的極限,如果你願意,我們希望總是能獲得更多的 X 因素,因此我們做的其中一件事,就是我們發明了另一個 Transformer 引擎,第二代 Transformer 引擎。
  • 它具有動態且自動地重新縮放和重新計算數值格式到更低精度的能力,只要有可能。
  • 記住,人工智慧關於的是機率 (probability),所以你大致有,你知道的,1.7 大約乘以 1.4,大約等於別的什麼。
  • 這說得通嗎?
  • 因此,讓數學在工作流程 (pipeline) 的特定階段,保持所需的精確度和範圍非常重要。
  • 所以這不僅僅是因為我們設計了一個更小的 ALU。
  • 世界並不是那麼簡單。
  • 你必須弄清楚,何時可以使用。
  • 在由數千個 GPU 組成的運算中,這運算持續執行數周又數周。
  • 你會希望確保訓練工作能夠收斂。
  • 因此,在這個新的 Transformer 引擎中,我們有一個第五代 NVIDIA NVLink
  • 它現在的速度是 Hopper 的兩倍,但非常重要的是它在網路中進行運算。
  • 這樣做的原因是因為當你有這麼多不同的 GPU 一起工作時,我們必須互相分享資訊。
  • 我們必須同步並更新彼此,並且經常必須減少部分產品,然後重新廣播部分產品,將部分產品的總和發送回其他所有人,因此這涉及很多所謂的 all-reduce, all-to-all 以及 all-gather。
  • 這是同步 (synchronization) 和集體 (collectives) 領域的一部分,以便我們可以讓 GPU 相互配合,具有極快的連結,並且能夠直接在網路中進行運算,進而在本質上進一步擴大效能。

RAS 引擎(自我測試)

  • 所以即使它是每秒 1.8 兆位元組 (terabytes per second),實際效能更高,因此它的效能是 Hopper 的多倍,像一台超級電腦運行數週的效能(在內)幾乎為零。
  • 這樣的原因是因為有這麼多元件同時運作,它們持續運作的統計機率非常低,因此我們需要確保,我們會盡可能經常地進行檢查和重新啟動。
  • 如果我們有能力早期檢測到弱晶片或弱節點,我們可以將其淘汰,並可能替換另一個處理器
  • 保持超級電腦的高利用率 (utilization) 是非常重要的。
  • 特別是當你剛剛花了 20 億美元建造它的時候,這非常重要。
  • 因此,我們加入了一個 RAS 引擎 (RAS Engine),一個可靠性引擎,它能夠對 Blackwell 晶片上的每個閘 (gate)、每個記憶體位元 (bit) 進行 100% 的自我測試,以及所有連接到它的記憶體做系統測試。
  • 這幾乎就像我們隨每個晶片一起發貨的自我先進測試儀一樣,我們用它來測試我們的晶片。
  • 這是我們第一次這樣做,對此感到非常興奮。

安全 AI

  • 安全 AI,在這個會議上,只有在提到 RAS 時,大家才會鼓掌,這個安全 AI,顯然你剛剛花了數億美元打造了一個非常重要的 AI。
  • 這個 AI 的智慧是編碼在參數中的,你要確保一方面不會失去它,另一方面它不會受到污染。
  • 因此,我們現在有能力對資料進行加密,當然是在靜止時,但也包括在傳輸中,以及在運算時,它都是加密的。
  • 因此,我們現在有能力加密並傳輸,在我們運算時,它位於一個受信任的環境中,一個受信任的引擎環境。

解壓縮引擎

  • 最後一個是解壓縮。
  • 在運算速度如此快速時,將資料進出這些節點變得非常關鍵。
  • 因此,我們加入了一個高速度的壓縮引擎,有效地將資料的進出速度提高 20 倍

Blackwell 與 Hopper 的比較

  • 這些電腦非常強大,且投資巨大,我們最不希望的就是讓它們閒置,因此所有這些功能都是目的在讓 Blackwell 保持忙碌
  • 整體與 Hopper 相比,用作訓練 (training) 的 fp8 性能 (per chip) 提高了兩倍半。
  • 它也引入了一種新格式 fp6,所以即使運算速度相同,頻寬也得以放大。
  • 因為記憶體的參數數量,現在可以在記憶體中儲存的數量也得到了放大。
  • fp4 有效地加倍了總處理量 (throughput)。

推理 | 內容 Token 生成 ⭐️⭐️⭐️

  • 這對於推理來說至關重要,其中一點越來越明顯,那就是每當你使用帶 AI 的電腦時,當你在與聊天機器人對話時,當你要求它審核或產生圖片時,記住在後端有一個 GPU 正在生成 token有些人稱之為推理 (inference),但更恰當的稱呼是生成 (generation)
  • 過去的運算方式是檢索 (retrieval),你會拿起手機,觸摸某些東西,呃,發送一些信號,基本上發送一封郵件就是將資料存進某個儲存空間。
  • 有預先錄製的內容,有人寫了一個故事,或者製作了一張圖片,或者錄製了一個影片,然後這些預錄的內容會根據推薦系統以某種方式重新組合,然後回傳到手機,對你呈現資訊。
  • 你知道在未來,絕大多數的內容都不會被檢索,原因是因為那些內容是由不了解上下文情境 (context) 的人預先錄製的,這就是我們必須檢索大量內容的原因
  • 如果你能與一個理解上下文情境的 AI 一起工作,知道你是誰,為什麼你要獲取這些資訊,並為你產生資訊,正如你所希望的那樣
  • 我們節省的能源量,節省的網路帶寬,節省的時間浪費,將是巨大的
  • 未來是生成式的,這就是我們稱它為生成式 AI 的原因,這也是這是一個全新產業的原因。
  • 我們的運算方式徹底改變了。
  • 我們為生成式 AI 時代打造了一個處理器。
  • 其中最重要的部分之一就是內容 token 生成 (content token generation)
  • 我們稱這種格式為fp4
  • 嗯,這是大量的運算。
  • 是 Hopper 的 5 倍 Token 生成,5 倍的推理能力,看起來已經足夠,但為什麼要止步於此。
  • 答案是這樣還不夠,我來跟你說說為什麼。
  • 我來跟你說說為什麼。

更大的 GPU,提升 1000 倍 AI 運算能力

  • 因此,我們希望有一個更大的 GPU,比現在這個還要大。
  • 所以我們決定將其擴展。
  • 首先,讓我告訴你我們是如何擴展的。
  • 在過去八年中,我們將運算能力提升了 1000 倍。
  • 八年。
  • 1000 倍。
  • 回想摩爾定律的美好時光
  • 那時每五年增加 2 倍、5 倍、10 倍
  • 最簡單的數學是五年增加 10 倍,十年增加 100 倍。
  • 在 PC 革命的鼎盛時期,十年增加 100 倍,過去 8 年我們增長了 1000 倍,我們還有兩年的時間。
  • 從這個角度來看,我們提升運算速度的速率簡直驚人。
  • 但這仍然不夠快。
  • 因此我們又建立了一顆晶片。
  • 這顆晶片真的非常驚人,我們稱它為NVLink Switch 20
  • 它有 500 億個電晶體 (transistors)。
  • 它幾乎和 Hopper 一樣大,全靠它自己。
  • 這顆交換晶片內部有四個 NVLink
  • 每個 1.8 TB 每秒,而且如我所述,它內建運算能力。
  • 如果我們要建造這樣一顆晶片,每個 GPU 都可以同時以全速與其他 GPU 通訊
  • 這簡直太瘋狂了。
  • 這甚至聽起來都不合理,但如果你能做到,如果你能找到一種方式來實現這一點,並建造一個成本效益高的系統。
  • 如果我們能讓所有這些 GPU 透過一個一致的連結連接起來,讓它們實際上像一個巨大的 GPU 那樣運作,那會有多驚人呢?
  • 其中一項偉大的發明,為了實現成本效益,就是這顆晶片必須能直接驅動銅線
  • 這顆晶片的系列是一項了不起的發明,使我們能夠直接驅動銅線,因此你可以建立一個看起來像這樣的系統。

DGX GB200 NVL72

  • 現在這個系統實在是有點瘋狂。
  • 這是一台 DGX。
  • 現在的 DGX 是這個樣子。(DGX GB200 NVL72
  • 回想六年前,它很重但我還是能舉起來,我親自遞交了第一台DGX-1給 OpenAI,當時的照片都在網路上,我們都簽了名。
  • 呃,如果你來我的辦公室,那裡有簽名,真的很漂亮。
  • 而且你還可以舉起來。
  • 這台 DGX,那台 DGX 的運算能力是 170 teraflops,如果你不熟悉這個數字系統,那就是 0.17 petaflops (PFLOPS)。
  • 所以這是 720,我交給 OpenAI 的第一台是 0.17
  • 你可以把 0.17 四捨五入到 0.2,沒有任何差別。
  • 但那時候,哇,你知道,增加了 30 petaflops,所以現在是 720 petaflops,幾乎達到一個 exaflops,用於訓練和世界上第一台可以放進一個機架的 exaflops 機器
  • 順帶一提,在我們聊天的當下,目前地球上只有兩三台 exaflops 等級的機器。
  • 因此,這是一台單一機架的 exaflops AI 系統。
  • 我們來看看它的背面。
  • 這是讓它成為可能的原因。
  • 那是背面,那是背面,DGX NVLink 骨幹 (spine),每秒 130 TB 的資料會透過那個機架的背面
  • 這比網際網路的總頻寬還要多
  • 因此,我們基本上可以在一秒內將所有內容發送給所有人。
  • 因此,我們有 5000 條 NVLink 電纜,總長 2 英里
  • 現在這是令人驚奇的事情,如果我們必須使用光學設備,我們需要使用發射器和重定時器 (retimer)。
  • 單是這些發射器和重定時器就需要 20000 瓦。
  • 僅發射器就需要 2000 瓦
  • 僅用來驅動 NVLink 骨幹。
  • 因此我們完全透過 NVLink Switch 免費完成了這一切
  • 我們能夠節省 20 千瓦的運算能力。
  • 整個機架是 120 千瓦,因此 20 千瓦的節省是相當顯著的。
  • 它使用液體冷卻,進入的溫度是 25°c,大約是室溫。
  • 出來的是 45°c,差不多是你的按摩浴缸溫度。
  • 所以室溫進入,按摩浴缸溫度出來,每秒 2 公升。我想我們可以多賣一個配件產品,由 600000 零件組成。

Jensen 看待 GPU 的方式

  • 有人曾說,你知道的,你們製造 GPU,我們的確如此,但對我來說,GPU 看起來是長這樣的
  • 當有人提到 GPU,我想到的是這個,兩年前我看到的 GPU 是 HGX 21 ,它重達 70 磅,有 35,000 個元件
  • 我們現在的 GPU,有 600,000 個零件,重達 3,000 磅
  • 3,000 磅。
  • 3,000 磅大約是一輛你知道的碳纖維法拉利的重量。
  • 我不知道這是否是一個有用的度量標準,但每個人都會說我感覺到了,我感受到了,我明白了。
  • 現在你這麼一說,我感受到了。
  • 我不知道 3,000 磅是什麼。
  • 好的,所以 3,000 磅,一噸半。
  • 所以它還不像一隻大象那麼重。
  • 所以這就是一台DGX 22 的樣子。
  • 現在讓我們看看它運作時的樣子。
  • 好的,讓我們想像一下,這是如何運作的,這意味著什麼。

營運:訓練

  • 接著,如果你要訓練一個 GPT 模型,1.8 兆參數的模型,大概需要 3 到 5 個月左右,使用 25,000 安培
  • 呃,如果我們使用 Hopper 來做,大概需要 8,000 個 GPU,並且會消耗 15 兆瓦電力,8,000 個 GPU 使用 15 兆瓦電力,大約需要 90 天,即大約 3 個月。
  • 這將使你能夠訓練一個,你知道的,這種突破性的 AI 模型,顯然,這並不像大家想的那樣昂貴。
  • 但這是 8,000 個 GPU。
  • 這仍然需要很多錢,所以 8,000 個 GPU,15 兆瓦。
  • 如果你使用 Blackwell 來做這件事,只需要 2,000 個 GPU
  • 2,000 個 GPU,同樣的 90 天,但這是令人驚奇的部分,只需要 4 兆瓦的電力,從 15 兆瓦降到 4 兆瓦,沒錯。
  • 這就是我們的目標。
  • 我們的目標是持續降低成本和能源消耗,這兩者是直接成比例的,與運算相關的成本和能源,以便我們可以繼續擴展和提升我們必須做的運算,以訓練下一代模型
  • 這就是訓練的過程。

營運:推理 | 生成

  • 推理、或生成,對未來極為重要。
  • 你可能知道,現在 NVIDIA GPU 在雲端的使用中,大約有一半的時間被用於 token 生成,他們要麼在執行 co-pilot,要麼在進行 ChatGPT 的對話,或是所有這些不同模型的使用,當你與它互動時。
  • 或者生成圖片、生成影片、生成蛋白質、生成化學品,有許多生成活動正在進行
  • 所有這些都屬於我們稱作推理的運算類別。
  • 但對大型語言模型來說,推理極其困難。
  • 因為這些大型語言模型具有幾個特點
  • 其中一個它們非常龐大,因此無法完全適用於一個 GPU,想像一下 Excel 無法完全運行在一個 GPU 上,你知道,想像一下你每天在運行的某個應用程式無法完全適用於一台電腦。
  • 像是一個影片遊戲無法在一台電腦上運行。
  • 實際上,在過去的超大規模運算中,許多應用程式適用於許多人的同一台電腦上,而現在突然間,這一個推理應用程式,當你與程式互動時,這個聊天機器人,需要一個超級電腦在後端運行。
  • 這就是未來,未來是與這些聊天機器人一起的生成式,這些聊天機器人有數兆的 token,數兆的參數,並且必須以互動速率生成 token。
  • 現在這意味著什麼呢,嗯三個 token 大約是一個單詞,我知道,你知道,“宇宙,最後的邊疆。 這是星艦企業號繼續的旅程。”,那大約是 80 個 token。
  • 好吧,我不知道,如果這對你有用,嗯,你知道的,溝通藝術。
  • 是選擇好的類比。
  • 是的,這似乎不是個好的類比。
  • 每個人都不知道他在說什麼。
  • 從未看過Star Trek
  • 因此,在這裡我們正在努力生成這些 token。
  • 當你與它互動時,你希望 token 能盡可能快地回傳給你。
  • 而且要像你閱讀的那麼快。
  • 因此,生成 token 的能力非常重要。
  • 你必須平行處理這個模型的工作,在許多 GPU 上。
  • 這樣你可以達到幾個目標。
  • 一方面你希望達到總處理量 (throughput),因為那總處理量 (throughput) 降低了成本每個 token 的整體成本,因此你的總處理量決定了提供服務的成本。
  • 另一方面,你有另一個互動速率,即另一個每秒 token 數,這與每位用戶相關,這與服務質量有關
  • 因此,這兩件事情相互競爭我們必須找到一種方式,在所有這些不同的 GPU 上分配工作,並以某種方式平行處理
  • 能夠實現這兩個目標的搜索空間 (search space) 是巨大的
  • 你知道,我告訴你,將涉及數學,當我展示那張幻燈片時,每個人都喔天哪,我剛才聽到有人驚呼。
  • 你知道,這裡,y 軸是資料中心的每秒 token 數x 軸是人的每秒互動性 token 數
  • 注意右上角是最佳的
  • 你希望互動性很高,每位用戶的每秒 token 數,你希望每個資料中心的每秒 token 數都很高,右上角是極好的。
  • 然而這很難做到。
  • 為了尋找最佳答案,需要橫跨每一個交點,XY 坐標。
  • 好吧,所以你只需查看每一個 XY 坐標,所有那些藍點都來自於一些軟體的重新分區
  • 需要一些優化解決方案去判斷是否使用 tensor parallel、expert parallel、pipeline parallel 或 data parallel,並將這個巨大的模型分散到所有這些不同的 GPU 上,並保持你需要的性能。
  • 如果沒有 NVIDIA GPU 的可程式性,這種探索空間將是不可能的。
  • 因此,由於 CUDA,因為我們擁有如此豐富的生態系統,我們可以探索這個宇宙,並找到那條綠色的上限線。
  • 事實證明那條綠色上限線,注意你得到了TP2 EP8 DP4意味著兩個 tensor parallel,橫跨兩個 GPU,expert parallels 橫跨八個,data parallel 橫跨四個
  • 注意另一端,你得到了 tensor parallel 橫跨 4,和 expert parallel 橫跨 16
  • 配置軟體的分配是一個不同的運行時,會產生這些不同的結果。
  • 你必須去發現那條上限線。
  • 這只是一個模型,這只是一台電腦的一種配置
  • 想像全世界正在建立的所有模型,以及所有即將可用的不同系統配置。
  • 現在你了解了基礎知識。

Blackwell 與 Hopper 的推理比較

  • 我們來看看 Blackwell 與 Hopper 的推理性能比較。
  • 這是非凡的一點。
  • 在一個世代中。因為我們建立並設計了一個專為兆級參數生成 AI 的系統。
  • Blackwell 的推理能力非常出色。
  • 事實上,它大約是 Hopper 的 30 倍
  • 對於像 ChatGPT 這樣的大型語言模型及其類似的模型,藍線是 Hopper,我給你們展示的,想像一下,我們沒有改變 Hopper 的架構,我們只是讓晶片更大。
  • 我們只是使用了最新的,你知道的,最棒的,呃每秒 10 TB ,我們將兩個晶片連接在一起
  • 我們得到了一個巨大的 2080 億參數晶片,如果其他都沒有改變,我們的表現將如何。
  • 結果非常好。
  • 非常好。
  • 那是紫色線
  • 但沒有達到最好的可能。
  • 而這就是 fp4 tensor core、新的 Transformer 引擎,以及非常重要的 NVLink Switch 的作用所在。
  • 原因在於所有這些 GPU 必須共享結果。
  • 部分價格。
  • 每當它們進行 all-to-all 或 all-gather 通信時,那個 NVLink Switch 的通信速度幾乎比我們過去使用最快的網路快了 10 倍。
  • 因此,Blackwell 將會是一個非常驚人的生成式 AI 系統。

生成智慧

  • 在未來,資料中心將被視為我之前提到的,AI 工廠
  • 一個 AI 工廠的生命目標是產生收益,在這種情況下生成智慧,而不是像上一次工業革命中的交流發電機那樣生成電力,這次工業革命是智慧的生成
  • 因此,這個能力非常非常重要。
  • Blackwell 讓人激動的程度真的是無法形容。
  • 你知道的。

Blackwell 的客戶

  • 當我們第一次,你知道,這是一年半前,大概兩年前,我想是兩年前,當我們第一次開始與 Hopper 一起進入市場時,我們有兩個雲服務提供商(CSP)加入我們的發布,我們感到非常高興,我們有了兩個客戶,現在我們有更多了。
  • (切換到展示許多客戶企業識別標示的投影片,但投影片顯示稍有延遲)對 Blackwell 的興奮程度難以置信。
  • 難以置信的興奮。
  • 當然,有許多不同的設定配置,我展示的是適用 Hopper 的配置,因此升級很容易。
  • 我的另一個展示是液體冷卻的極端版本。
  • 一個整個機架是由NVLink 72連接的。
  • 我們將要把 Blackwell 推向世界各地的 AI 公司,現在有很多這樣的公司。
  • 在不同的模式 (modalities) 中做出了驚人的工作。
  • 每個 CSP 都做好了準備,所有的 OEM 和 ODM 也是如此
  • 全球的區域雲、主權 AI 和電信公司都在登記與 Blackwell 一起發布
  • 這個 Blackwell 將是我們歷史上最成功的產品發布。
  • 因此,我迫不及待想看到。
  • 呃,我想感謝一些正與我們一起參與這一行動的合作夥伴。

合作夥伴 - AWS

  • 呃,AWS 正在為 Blackwell 做準備,他們將要建造第一台具備安全 AI 的 GPU
  • 他們正在建設一個 222 exaflops 的系統
  • 你知道,就在剛才我們動畫展示了 digital twins,如果你看到了那些 clusters 正逐步減少,順便說一下那不僅僅是藝術,那是我們正在建造的數位孿生的真實呈現
  • 它將會是那麼大。
  • 除了基礎設施之外,我們還與 AWS 在許多方面密切合作。
  • 我們正在對SageMaker AI進行 CUDA 加速。
  • 我們正在對Bedrock AI進行 CUDA 加速。
  • Amazon Robotics正在與我們合作,使用NVIDIA Omniverse
  • Isaac Sim AWS Health已經整合了NVIDIA Health
  • 因此,AWS 真的深入推動了加速運算

合作夥伴 - Google

  • 呃,Google 正在為 Blackwell 做準備。
  • GCP 已經擁有A100s、H100s、T4s、L4s 以及一整隊的NVIDIA CUDA GPU
  • 他們最近宣布了橫跨所有這些的Gemma 模型
  • 呃,我們正在努力優化並加速 GCP 的各個方面,我們正在加速資料處理引擎,JAXXLAVertex AIMuJoCo用於機器人技術,所以我們正在與 Google 和 GCP 在一系列倡議中合作。

合作夥伴 - Oracle

  • 呃,Oracle 正在為 Blackwell 做準備。
  • Oracle 是我們的重要合作夥伴,特別是 NVIDIA DGX Cloud
  • 我們還在合作加速一個對許多公司非常重要的事物,Oracle 資料庫。

合作夥伴 - Microsoft

  • Microsoft 正在加速,並且 Microsoft 也在為 Blackwell 做準備。
  • Microsoft 與 NVIDIA 有著廣泛的合作夥伴關係。
  • 我們在加速 CUDA,加速各種服務,當你明顯地進行聊天時,以及在 Microsoft Azure 中的 AI 服務,呃,很有可能 NVIDIA 正在其背後運行著。
  • 呃,在進行推理和 token 生成。
  • 呃,他們建造了最大的 NVIDIA InfiniBand 超級電腦,基本上是我們的數位孿生、或我們的實體孿生。
  • 呃,我們正在將 NVIDIA 生態系統帶到 Azure,將 NVIDIA DGX Cloud 引入 Azure,NVIDIA Omniverse 現在托管在 Azure 上,NVIDIA Healthcare 也在 Azure 上,所有這些都與 Microsoft Fabric深度整合並深度連接。
  • 整個產業都在為 Blackwell 做準備。
  • 這就是我接下來要展示給你的。

合作夥伴 - 緯創

  • 到目前為止你所看到的大部分 Blackwell 場景,都是 Blackwell 的完整高保真設計。
  • 我們公司的一切都有一個數位孿生 (digital twin)
  • 事實上,這個數位孿生的想法正迅速傳播。
  • 它幫助企業第一次就完美地建造非常複雜的東西。
  • 建立一個數位孿生來建造一台在數位孿生中建造的電腦,有什麼比這更激動人心的呢?
  • 讓我向你展示緯創正在做的事情
  • 來滿足對NVIDIA 加速運算的需求。
  • 緯創,我們的主要製造合作夥伴之一,正在使用客製化軟體,透過Omniverse SDK 和 API,為 NVIDIA DGXHGX 工廠建造數位孿生。
  • 對於他們最新的工廠。
  • 緯創從一個數位孿生開始,將他們的多 CAD 和流程模擬資料虛擬整合到一個 統一視圖 (unified view) 中。
  • 在這個物理精確的數位環境中測試和優化佈局,提高了工人效率 51%。
  • 在建造過程中,使用 Omniverse 數位孿生來驗證實體物理建造是否與數位計劃相符。
  • 及早識別任何不一致之處,幫助避免昂貴的變更訂單。
  • 成果令人印象深刻,使用數位孿生幫助緯創的工廠只花了一半時間上線。
  • 只需兩個半月而不是五個月。
  • 在營運過程中,Omniverse 數位孿生幫助緯創迅速測試新佈局,以適應新流程或改善現有空間的營運。
  • 並使用來自生產線上每台機器的即時 IoT 資料監控即時營運。
  • 最終使緯創能夠將端到端週期時間減少 50%,缺陷率減少 40%
  • 藉由 NVIDIA AI 和 Omniverse,NVIDIA 的全球生態系統合作夥伴正在建造一個加速 AI 啟用的數位化新時代。
  • 這就是我們的方式,這就是未來的方式,我們將首先數位化製造一切,然後再進行實體製造

3️⃣ NIMs


AlexNet - 第一次接觸 (2012)

  • 人們問我這是如何開始的,是什麼讓你們如此興奮,你們看到了什麼,使你們全力以赴投入這個不可思議的想法。
  • 就是這個。
  • 等一下。
  • 各位,這本來會是一個很棒的時刻。
  • 這就是不排練的後果。
  • 正如你所知,這是第一次接觸,2012年,AlexNet,你把一隻貓放進這台電腦,它就能辨識出這是「貓」。
  • 我們說,天哪,這將改變一切。
  • 你拿 100 萬個數字,三個 RGB 通道的一百萬個數字,這些數字對任何人來說都沒有意義。
  • 你把它放進這個軟體,它壓縮它在維度上進行壓縮,從一百萬維度之中進行縮減,一百萬維度。
  • 它將其轉化為三個字母
  • 一個向量
  • 一個數字
  • 它是通用的 (generalized),你可以有不同的貓。
  • 你可以看到貓的正面和背面。
  • 你看這個,你會說不可思議,你的意思是任何貓。
  • 是的,任何貓。
  • 它能識別所有這些貓。
  • 我們明白了它是如何做到的。
  • 系統地,結構性地,它是可擴展的
  • 你能讓它多大。
  • 你想讓它有多大。
  • 因此我們想像,這是一種全新的編寫軟體方式
  • 現在正如你所知,你可以輸入單字 c a t,輸出的是一隻貓,它反過來了。
  • 我是對的,難以置信。
  • 這怎麼可能。
  • 沒錯。
  • 這怎麼可能,你從三個字母生成了一百萬像素。
  • 而且它有意義。
  • 嗯,這就是奇蹟。
  • 現在我們就在這裡。
  • 僅僅 10 年後。
  • 10 年後。
  • 我們識別文字,識別圖像,識別影片和聲音,我們不僅識別它們,我們理解它們的意義,我們理解文字的意義,這就是為什麼它能和你聊天。
  • 它能為你總結。
  • 它理解文字,它不僅識別英語,它理解英語。
  • 它不僅識別像素,還理解像素,你甚至可以在兩種模式之間調節它。
  • 你可以有語言條件圖像,並生成各種有趣的東西。
  • 如果你能理解這些事情,你還能理解什麼你已經數位化的東西。
  • 我們之所以從文本開始,你知道的,圖像,是因為我們數位化了這些。
  • 但我們還數位化了什麼。
  • 原來我們數位化了很多東西,蛋白質,基因和腦電波,任何你能數位化的東西只要有結構我們可能就能學到一些模式,如果我們能從中學到模式,我們可能就能理解它的意義,如果我們能理解它的意義,我們也許也能生成它
  • 因此,生成 AI 革命已經到來。

Earth-2 - CorrDiff

  • 那麼,我們還能生成什麼,我們還能學到什麼呢?其中一件我們非常想學習的事情,就是我們非常想了解氣候,我們非常想了解極端天氣,我們非常想了解如何在區域尺度上,以足夠高的解析度預測未來天氣,以便我們可以在危害到來之前,讓人們遠離危險。
  • 極端天氣給全球造成了 1500 億美元的損失,當然實際上可能更多。
  • 而這些損失並不是均勻分布的。
  • 1500 億美元集中在世界的某些部分,當然也集中在世界的某些人身上,我們需要適應,我們需要知道即將到來的事情。
  • 因此,我們正在打造地球二號 (Earth-2),一個用於預測天氣的地球數位孿生,我們並且發明了一項非凡的技術,名為CorrDiff
  • 利用生成型 AI 預測極高解析度天氣的能力。
  • 讓我們來看看。
  • 隨著地球氣候的變化,AI 驅動的天氣預測正在使我們能夠更準確地預測和追踪嚴重颱風,如 2021 年在台灣及周邊地區造成廣泛破壞的超級颱風璨樹。
  • 現有的 AI 預測模型可以準確預測颱風路徑,但它們限於 25 公里解析度,可能錯過重要細節。
  • NVIDIA CorrDiff 是一種革命性的、新的生成型 AI 模型,訓練於高解析度雷達同化 Warf 天氣預報和 air 5 重新分析資料。
  • 使用CorrDiff,像璨樹這樣的極端事件可以從 25 公里提升至 2 公里解析度,速度提升 1000 倍,效能提升 3000 倍,遠超傳統天氣模型。
  • 透過結合 NVIDIA 天氣預測模型FourCastNet的速度和準確性,以及像CorrDiff這樣的生成型 AI 模型,我們可以探索數百甚至數千公里尺度的區域性天氣預報,以提供颱風最佳、最壞和最可能影響的清晰圖片。
  • 這豐富的資訊可以幫助最小化生命財產的損失。
  • 今天CorrDiff針對台灣進行了優化,但不久的將來,生成超取樣將作為地球二號推理服務的一部分,為全球許多地區提供服務。

氣象公司 (The Weather Company)

  • 氣象公司 (The Weather Company) 是全球氣象預測的值得信賴來源。
  • 我們正在合作加速他們的氣象模擬。
  • 首先基於原理的模擬,然而他們還將整合地球二號 (Earth-2) CorrDiff
  • 以便他們可以幫助企業和國家進行區域性高解析度的天氣預測。
  • 因此,如果你有想知道的氣象預測,想要進行的氣象預測,呃,請聯絡氣象公司。這是非常令人興奮的工作。

NVIDIA 醫療保健 (NVIDIA Healthcare)

  • NVIDIA 醫療保健 (NVIDIA Healthcare),這是我們 15 年前開始的一個項目,我們對此感到非常非常興奮,這是我們非常自豪的一個領域,無論是醫學影像、基因序列分析還是計算化學。
  • NVIDIA 很可能是其背後的運算力量。
  • 我們在這個領域做了很多工作。
  • 今天我們宣布,我們將要做一些真正非常酷的事情。
  • 想像所有這些被用來生成圖像和音頻的 AI 模型,但是不是圖像和音頻,因為它理解圖像和音頻,我們為基因、蛋白質和氨基酸進行的所有數位化,那數位化能力,現在已經透過機器學習。
  • 以便我們理解生命的語言
  • 理解生命語言的能力,當然我們看到了它的第一個證據,透過AlphaFold,這真是一件非凡的事情,經過幾十年的艱苦工作,世界只有數位化和重建,使用冷凍電子顯微鏡或晶體 X 射線結構分析,呃這些不同的技術艱苦地重建了蛋白質。
  • 在不到一年的時間內,AlphaFold重新建構了 2 億個蛋白質,基本上是每一個有過序列測定的生物的每一個蛋白質
  • 這是完全革命性的,好吧,這些模型非常難以使用,呃對人們來說非常難以構建,所以我們將要做的是我們將要為世界各地的研究者建造它們,它不會是唯一的。
  • 我們將建立許多其他模型,讓我向你展示我們將要用它做什麼。

NVIDIA BioNeMo NIM

  • 新藥的虛擬篩選是一個計算上難以解決的問題。
  • 現有技術僅能掃描數十億化合物,並需要在數千個標準計算節點上運行數天,以識別出新的藥物候選物
  • NVIDIA BioNeMo NIM 啟用了一種新的生成篩選典範 (paradigm),利用 NIMs 和 AlphaFold 進行蛋白質結構預測,使用 MoIMIM 進行分子生成,使用 DiffDock 進行分子對接,我們現在可以在幾分鐘內生成和篩選候選分子。
  • MoIMIM 可以連接到自定義應用程式來引導生成過程,迭代優化所需屬性。
  • 這些應用程式可以透過 BioNeMo 微服務定義,或從零開始建構。
  • 這裡一個基於物理的模擬優化分子與目標蛋白質結合的能力,同時並行優化其他有利的分子屬性。
  • MoIMIM 生成高品質、具藥物樣性的分子,這些分子能夠與目標結合,並且可合成,從而轉化為開發成功藥物的更高機率。
  • BioNeMo 正在用 NIMs 開啟藥物發現的新典範。
  • 藉由提供隨選微服務,可以結合、打造出強大的藥物發現工作流程,如de novo 蛋白質設計,或引導分子生成用於虛擬篩選。
  • BioNeMo 正在幫助研究人員和開發者,重新發明藥物設計的運算方式。

NIM - NVIDIA 推理微服務

  • NVIDIA MoIMIMCorrDiff 以及其他各種模型,包括電腦視覺模型、機器人模型,當然還有一些真正非常出色的開源語言模型。
  • 這些模型是突破性的。
  • 然而,公司們很難使用這些模型
  • 你將如何使用它。
  • 你將如何將其帶入你的公司並整合到你的工作流程中
  • 你將如何打包、安裝並執行它。
  • 記得我之前說過,推理是一個非凡的計算問題。
  • 你將如何對這些模型進行優化,並組合必要的運算架構 (computing stack) 以在你的公司執行這些超級電腦。
  • 因此我們有一個好主意。
  • 我們將發明一種新方式,讓你接收和運作軟體。
  • 這個軟體基本上在我們稱之為容器的數位箱子中提供,我們稱它為NVIDIA 推理微服務
  • 一個NIM
  • 讓我向你解釋它是什麼。
  • 一個NIM 是一個預訓練模型,非常聰明,並且被優化以在 NVIDIA 的安裝基礎上運行。
  • 其中的內容非常驚人。
  • 內含所有這些預訓練的最先進的開源模型。
  • 它們可以是開源的,可以是我們合作夥伴的,也可以是我們建立的,如NVIDIA Omni
  • 它與所有依賴關係一起打包,所以 CUDA 是正確的版本,cuDNN 是正確的版本,TensorRT LLM 分佈在多個 GPU 上,Triton 推理伺服器 全部完整打包。
  • 它經過優化,無論你擁有單個 GPU、多個 GPU 或多節點的 GPU。
  • 它為此進行了優化,並連接了簡單易用的 API。
  • 現在想想AI API 是什麼,AI API 是一個你只需對話的介面,所以這是未來的一個軟體,擁有非常簡單的 API。
  • 這個API 被稱為人類
  • 這些軟體包含了驚人的軟體,將被優化並打包,我們將其放在網站上,你可以下載它。
  • 你可以隨身攜帶,你可以在任何雲端運行它,也可以在自己的資料中心或工作站(如果適合的話)運行。
  • 你所需要做的就是造訪 ai.NVIDIA.com,我們稱它為 NVIDIA 推理微服務,但在公司內部我們都稱它為 NIMs。
  • 想像一下,未來某天,其中一個聊天機器人,這些聊天機器人將只在一個 NIM 中
  • 你將組裝許多聊天機器人,這將是未來軟體建立的方式。
  • 我們將如何在未來建立軟體
  • 你不太可能從頭開始編寫,或編寫大量的 Python 代碼或類似的東西。
  • 很可能你將組建一支 AI 團隊。
  • 可能會有一個你使用的超級 AI,它接受你給它的任務並將其分解為一個執行計劃
  • 其中一些執行計劃可能會交給另一個 NIM,該 NIM 可能會理解 SAP,SAP 的語言是 ABAP,它可能理解 ServiceNow
  • 它會從這些平台中取得 (retrieve) 一些信息。
  • 然後它可能將結果交給另一個 NIM,該 NIM 去執行一些計算,可能是一個組合優化算法,也可能只是一個基本的計算器。
  • 可能是 pandas,來進行一些數值分析。
  • 然後它回傳答案,並與其他人的結果結合,因為它被提出這是正確答案應該是什麼樣子,它知道應該產生什麼樣的正確答案並呈現給你。
  • 我們可以每天在某個時刻獲得一份報告,可能與訂單計劃或某種預測或某些客戶警報或某些錯誤資料庫有關。
  • 我們可以使用所有這些 NIMs 組裝它。
  • 由於這些 NIMs 已經打包並準備在你的系統上工作,只要你的資料中心或雲端中有 NVIDIA GPU,這些 NIMs 將作為一個團隊合作,完成驚人的事情。
  • 因此我們決定,這是一個很好的想法,我們將去實施它。
  • 因此 NVIDIA 在整個公司運行 NIMs,我們在各處建立聊天機器人,當然最重要的聊天機器人之一是芯片設計聊天機器人
  • 你可能不會感到驚訝,我們非常關心芯片製造。
  • 因此我們希望建立聊天機器人,AI co-pilots,與我們的工程師共同設計。

示範:NIM

  • 所以,這就是我們所做的方式。
  • 我們弄到了一隻 Llama,Llama 2,這是一個 70B 的模型,並且它被打包在一個 NIM 中。
  • 我們問它什麼是 CTL
  • 原來 CTL 是一個內部的程式,它具有一種內部專有的語言,但它認為CTL組合時序邏輯 (combinatorial timing logic),因此它描述了 CTL 的常規知識,但這對我們並不是很有用。
  • 因此,我們給它一些新的範例。
  • 你知道的,這就像是員工入職培訓,我們會說感謝你的回答,它完全錯誤,然後我們向他們展示這才是 CTL 的含義
  • 好的,這就是在 NVIDIA 公司裡頭的 CTL。
  • 正如你所見,CTL代表運算追蹤函式庫 (Compute Trace Library),這是有道理的。
  • 你知道,我們一直在追蹤計算週期,它寫了程式。
  • 這不是很驚人嗎?
  • 因此,我們的晶片設計師的生產力可以提高,這就是你可以用 NIM 做到的事情。
  • 首先你可以用它來自訂
  • 我們有一個稱為NeMo 微服務的服務。
  • 這個服務幫助你策劃資料,準備資料,這樣你就可以教育這個 AI,培訓它,然後你可以設置護欄,甚至可以評估答案,評估它對其他範例的表現。
  • 因此,這被稱為NeMo 微服務

4️⃣ NeMo 與 AI 代工廠 (AI Foundry)


AI 代工廠與三大支柱 ⭐️⭐️⭐️

  • 現在這裡正在興起的是這三個元素,三大支柱。
  • 第一個支柱當然是發明用於 AI 模型的技術,執行 AI 模型,並為你打包
  • 第二個是建立工具,讓你修改它,第一是擁有 AI 技術,第二是幫助你修改它,第三是為你提供微調的基礎設施,如果你願意,你可以在我們稱為 DGX Cloud 的基礎設施上部署它。
  • 或者你可以在本地部署。
  • 你可以隨意部署。
  • 一旦你開發了它,它就是你帶到任何地方的。
  • 因此我們實際上是一個AI 代工廠 (AI Foundry)
  • 我們將為你和整個 AI 行業做的,就像 tsmc 為我們製造晶片一樣。
  • 因此我們帶著我們的重大創意去 tsmc,他們製造,然後我們帶走。
  • 同樣的事情在這裡發生,AI 代工廠,和三大支柱:是 NIM、NeMo 微服務和 DGX Cloud

資料處理 | 知識處理 | NeMo 檢索器

  • 另一件事是你可以教 NIM 做的事,就是理解你的專有資訊。
  • 請記住我們公司內部,我們的絕大多數資料不在雲端,而是在我們公司內部
  • 它一直存在那裡。
  • 你知道一直在使用,並且基本上是 NVIDIA 的智慧。
  • 我們想要拿那些資料,學習其含義,就像我們學習幾乎任何其他事物的含義一樣。
  • 然後將那些知識重新索引到一種新型資料庫中,稱為向量資料庫因此你基本上將結構化資料或非結構化資料取出,學習其含義,編碼其含義,這樣它就成了一個 AI 資料庫,未來一旦你建立了它,你就可以與它對話
  • 讓我給你一個你可以做的例子。
  • 假設你建立了你得到了一大堆多模態資料 (multi modality data),一個很好的例子是 PDF。
  • 因此你拿出 PDF,你拿出所有的 PDF,所有你知道的對你的公司至關重要的專有資料,你可以編碼它,就像我們編碼了一隻貓的像素,並且它變成了單字「貓」。
  • 我們可以編碼你所有的 PDF,它變成了向量,現在儲存在你的向量資料庫中。
  • 它成為了你公司的專有資訊。
  • 一旦你擁有了那些專有資訊,你可以與之對話。
  • 它是一個聰明的資料庫。
  • 因此你只需要與資料對話。
  • 那有多愉快呢。
  • 你知道我們對於我們的軟體團隊,你知道他們只是與錯誤資料庫 (bugs database) 對話
  • 你知道昨晚有多少錯誤,我們有進展嗎,然後在你與這個錯誤資料庫對話完畢後你可能需要治療。
  • 因此,我們還有為你準備另一個聊天機器人。
  • 你可以做到。
  • 好吧,所以我們稱它為NeMo 檢索器,之所以這樣稱呼是因為它的工作最終是盡可能快速地檢索資訊。
  • 你只需要與它對話。
  • 嘿,幫我檢索這些資訊,它去帶回來給你。
  • 你是否意味著這樣,你說是的,完美。
  • 好的,因此我們稱它為NeMo 檢索器
  • NeMo 服務幫助你建立所有這些東西,我們有所有不同的 NIM。

數位人類的 NIM

  • 我們甚至有數位人類的 NIM。
  • 我是 Rachel。
  • 你的 AI 照護經理。
  • 好的,這是一段非常短的影片。
  • 但是有很多影片要給你看,我猜還有很多其他的展示要給你看。
  • 因此我不得不把這個剪短了。
  • 但這是 Diana,她是一個數位人類 NIM。
  • 你只需要和她對話,她在這種情況下連接到 Hippocratic AI 的大型語言模型以進行醫療保健。
  • 這真的很驚人。
  • 她對健康保健非常聰明。
  • 你知道。
  • 因此當你完成後,我的軟體工程副總裁 Dwight 和錯誤資料庫的聊天機器人對話後,你可以來這裡和 Diane 談談。
  • Diane 完全由 AI 動畫呈現,她是一個數位人類。

企業 IT 金礦

  • 有很多公司想要建立,他們坐擁金礦。
  • 企業 IT 行業坐擁一座金礦
  • 它是一座金礦,因為他們非常了解工作的方式。
  • 他們擁有多年來建立的所有驚人工具。
  • 他們擁有大量的資料。
  • 如果他們能將這座金礦轉化為 co-pilots。
  • 這些 co-pilots 可以幫助我們完成事情。
  • 幾乎每個擁有寶貴工具的 IT 領域,IT 平台,都坐擁一座金礦,他們希望建立自己的 co-pilots 和聊天機器人。
  • 因此我們宣布 NVIDIA AI 代工廠正在與一些世界上偉大的公司合作。
  • SAP 產生全球 87% 的商業交易,基本上全世界都在運行 SAP,我們運行 SAP。
  • NVIDIA 和 SAP 正在建造 SAP Jewel co-pilots,使用 NVIDIA NeMo 和 DGX 雲,
  • ServiceNow 他們運行全球 80-85% 的財富 500 強公司的人力和客戶服務業務。
  • 他們正在使用 NVIDIA AI 代工廠建立 ServiceNow 虛擬助理。
  • Cohesity 備份世界的資料,他們坐擁資料金礦。超過 10,000 家公司、幾百 exobytes 的資料。
  • NVIDIA AI 代工廠正在幫助他們建造他們的 Gaia 生成 AI agent。
  • snowflake 是一家在雲端存儲全球數位倉儲的公司,每天為 10,000 家企業客戶提供超過 30 億次查詢。
  • snowflake 正在與 NVIDIA AI 代工廠合作建立 co-pilots,使用 NVIDIA NeMo 和 NIMs。
  • NetApp 幾乎全世界一半的檔案都儲存在 NetApp 的內部。
  • NVIDIA AI 代工廠正在幫助他們建立聊天機器人和co-pilots,如向量資料庫和檢索器,使用 NVIDIA NeMo 和 NIMs。
  • 我們與 Dell 有一個很好的合作關係。
  • 每個正在建造這些聊天機器人和生成 AI 的人,當你準備執行它時,你將需要一個 AI 代工廠。
  • 沒有人比 Dell 更擅長為企業建立大規模的端到端系統。
  • 因此每個公司都需要建立 AI 代工廠,而事實證明 Michael 在這裡,他很高興接受你的訂單
  • 女士們,先生們,Michael Dell。

5️⃣ Omniverse 和 AI 機器人技術 (Robotics)


AI 機器人技術 (Robotics)

  • 好吧,讓我們來談談機器人技術 (Robotics) 的下一波浪潮。
  • AI 機器人技術的下一波浪潮。
  • 實體 AI。
  • 到目前為止,我們談論的所有 AI 都是在一台電腦上
  • 資料進入一台電腦,大部分世界的體驗,如果你願意,是以數位的文字形式呈現。
  • AI 透過閱讀大量語言來預測下一個單字,模仿你,透過研究所有的模式和所有其他先前的範例。
  • 當然它必須理解上下文等等。
  • 但一旦它理解了上下文,它本質上是在模仿你。
  • 我們將所有資料放入像 DGX 這樣的系統,將其壓縮成大型語言模型,數兆數兆的參數變成數十億數十億,數兆的 token 變成數十億的參數,這些數十億的參數成為你的 AI。
  • 好吧 為了我們進入下一波 AI,其中 AI 理解實體世界,我們將需要三台電腦
  • 第一台電腦仍然是相同的電腦,就是那台 AI 電腦,現在將觀看影片,也許它正在進行合成資料生成,也許有很多人類的範例,就像我們有 文字形式 的人類範例一樣,我們將擁有 動作形式 的人類範例,而 AI 將觀察我們,理解正在發生的事情,並嘗試為自己適應上下文。
  • 由於它可以透過這些基礎模型進行概括,也許這些機器人也可以在實體世界中相對通用地表現,所以我剛剛以非常簡單的名詞,描述了在大型語言模型中發生的事情,除了 機器人技術的 ChatGPT 時刻可能即將到來
  • 因此我們一直在為機器人技術建造端到端系統。
  • 我非常自豪於這項工作,我們有 AI 系統 DGX,我們有下層系統稱為 AGX,用於自動系統,世界上第一個機器人處理器。當我們第一次建造這個東西時人們在問你們在建什麼。
  • 它是 SoC,它是一顆晶片,設計成非常低功耗。
  • 但它設計用於高速感測器處理和 AI。
  • 因此如果你想在汽車中運行 Transformers,或者你想在任何移動的東西中運行 Transformers,我們為你提供了完美的電腦。
  • 它叫做 Jetson
  • 因此 DGX 用於訓練 AI,Jetson 是自動處理器,中間我們需要另一台電腦。
  • 而大型語言模型有你提供範例然後進行增強學習人類反饋的好處,機器人的增強學習人類反饋是什麼。
  • 好吧,它是 增強學習物理回饋 (reinforcement learning physical feedback)
  • 這就是你與機器人對齊的方式。
  • 這就是機器人知道,當它在學習這些動作能力和操作能力時,它將適當地適應物理定律。
  • 因此 我們需要一個模擬引擎,代表數位世界中的機器人
  • 因此 機器人有一個健身房去學習如何成為機器人
  • 我們稱這個虛擬世界為 Omniverse。
  • 執行 Omniverse 的電腦稱為 OVX
  • OVX 電腦本身託管於 Azure 雲端。
  • 好的,因此基本上我們建立了這三件事,這三個系統。
  • 在其頂部我們有各式各樣的演算法

機器人技術建築物

  • 現在我將向你展示一個 AI 和 Omniverse 如何協同工作的超級範例。
  • 我將要展示的範例有些瘋狂,但它非常接近明天的實現。
  • 這是一座 機器人技術建築物,這個機器人技術建築物被稱為 倉庫,倉庫內將有 一些自主系統
  • 這些自主系統中的一些將被稱為 人類,而另一些自主系統將被稱為 堆高機 (forklifts),這些自主系統將自然地互相交互。
  • 這座倉庫將會監控一切,以確保每個人都安全無憂。
  • 倉庫本質上是一個空中交通管制員,每當它觀察到某些事情發生時,它會重新指導交通,給機器人和人類新的路徑指示,他們將確切知道該怎麼做。
  • 你當然也可以與這座建築對話。
  • 比如你可以問倉庫,「嘿 SAP 中心,你今天感覺如何?」
  • 基本上我剛才描述的系統將擁有 Omniverse Cloud,它代管虛擬模擬,和 在 DGX Cloud 上運行的 AI,而 所有這些都在即時執行

重工業的未來 | 數位孿生

  • 讓我們來看一下。
  • 重工業的未來始於數位孿生。
  • 協助機器人、工作人員和基礎設施在複雜的工業空間中應對不可預測事件的 AI 代理人 (AI agents) 將首先在精密的數位孿生中建立並評估。
  • 這個 100,000 平方英尺倉庫的 Omniverse 數位孿生 正作為一個模擬環境運行,整合了數位工作者、運行 NVIDIA Isaac Perceptor 堆疊的 AMRs、使用 NVIDIA Metropolis 模擬在天花板安裝100 個攝影機來監看整個倉庫的中控活動地圖,以及使用 NVIDIA cuOpt 軟體進行的 AMR 路徑規劃,在這個物理精確的模擬環境中對 AI 代理進行循環測試,使我們能夠評估和完善系統適應現實世界不可預測性的方式。
  • 在這裡,一個意外發生在 AMR 計劃的路徑上,阻塞了它前往拾取托盤的路線。
  • NVIDIA Metropolis 更新並向 cuOpt 發送即時事故地圖,計算新的最佳路徑。
  • AMR 能夠看見角落,並提高其 任務效率
  • 透過生成式 AI 驅動的 Metropolis Vision 基礎模型,操作員甚至可以使用自然語言提問。
  • 視覺模型理解細微的活動,並能立即提供改善操作的洞察 (insights)。
  • 所有的感測資料都是在模擬中產生,並傳遞給即時 AI (real-time AI)。
  • 使用 NVIDIA Inference Microservices 或 NIMs 執行運算。
  • 當 AI 準備在實體孿生中部署時,真實的倉庫我們將 Metropolis 和 Isaac NIMs 連接到真實感測器,使得數位孿生和 AI 模型持續改進。
  • 非常驚人吧。
  • 因此請記住,未來的設施、倉庫、工廠、建築將是軟體定義的,所以軟體是如何運行的,你如何測試軟體,所以你測試軟體以建造倉庫,優化系統在數位孿生中,關於所有的機器人,你剛才看到的所有那些機器人都在運行自己的自主機器人堆疊,因此未來你整合軟體的方式,未來的 CI/CD,對於機器人系統是透過數位孿生。

Omniverse Cloud APIs

  • 我們讓 Omniverse 更容易被使用。
  • 我們將建立 Omniverse Cloud API四個簡單的 API一個通道,你可以將你的應用程式連接到它。
  • 因此,這將會在未來非常美好且簡單,Omniverse 將會是這樣的。
  • 有了這些 API,你將擁有這些神奇的數位孿生能力。
  • 我們還將 Omniverse 轉變成 AI,並將其與能夠使用 USD 聊天,即我們的語言,你知道,人類和 Omniverse 的語言,結果是 通用場景描述(universal scene description; USD)
  • 因此這種語言相當複雜,所以我們教會了我們的 Omniverse 這種語言。
  • 因此您可以用英語與它交談,它會直接生成 USD。
  • 它會用 USD 回應,但用英語與您對話,您也可以在這個世界中用語義方式查詢資訊。
  • 取代了世界在語言中語義編碼,現在它是在場景中語義編碼
  • 因此,您可以詢問某些對象、某些條件和某些場景,它可以為您找到該場景。
  • 它還可以與您共同創造,您可以在 3D 中設計一些東西,它可以在 3D 中模擬一些東西,或者您可以使用 AI 在 3D 中生成一些東西。
  • 讓我們來看看,這一切將如何運作。
  • 我們與 SIEMENS 有很棒的合作關係。
  • SIEMENS 是世界上最大的工業工程和營運平台。
  • 您現在已經看到了許多不同的公司,在工業領域,重工業是它的最後邊疆之一,現在我們終於擁有了進入這一領域並產生真正影響的必要技術。
  • SIEMENS 正在建造工業元宇宙 (industrial metaverse),今天我們宣布 SIEMENS 正在將其皇冠上的珠寶 Xcelerator 連接到 NVIDIA Omniverse。
  • 讓我們來看看。
  • SIEMENS 的技術每天都在變革,為每個人服務。
  • Teamcenter X 是我們領先的 產品生命週期管理軟體,來自 SIEMENS Xcelerator 平台,每天被我們的客戶用來開發和大規模實現產品。
  • 現在我們透過將 NVIDIA AI 和 Omniverse 技術整合到 Teamcenter X 中,將真實世界和數位世界拉得更近。
  • Omniverse API 使得資料互操作性和基於物理的渲染成為可能,應用於工業規模的設計和製造項目。
  • 我們的客戶 HD Hyundai,是可持續造船的市場領導者,常常包括超過 700 萬個獨立部件的氨和氫動力船。
  • 有了 Omniverse API,Teamcenter X 讓像 HD Hyundai 這樣的公司能夠統一並互動地可視化這些巨大的工程資料集。
  • 並整合生成式 AI 以生成 3D 物體或 HDRi 背景,以便在對應的環境中查看其項目。
  • 結果是一個超直觀的基於物理的數位孿生,消除了浪費和錯誤。
  • 帶來巨大的成本和時間節省。
  • 我們正在為協作建立這一切。
  • 不論是跨越更多的 SIEMENS Xcelerator 工具,如 SIEMENS NXSTAR-CCM+,還是跨團隊在同一場景中使用他們喜愛的設備一起工作。
  • 這只是開始,與 NVIDIA 的合作,我們將在整個 SIEMENS Xcelerator 系列中帶來加速運算、生成式 AI 和 Omniverse 整合。
  • 專業的配音演員,恰好是我的好友,Roland Busch,也恰好是 SIEMENS 的 CEO

Nissan

  • 一旦將 Omniverse 連接到您的工作流程和生態系統中,從設計開始,到工程、製造規劃,一直到數位孿生操作。
  • 一旦你把所有東西都連接在一起,你可以獲得的生產力是驚人的,真的非常棒。
  • 突然間每個人都在同一個事實基礎上操作
  • 你不需要交換資料、轉換資料、造成錯誤,每個人都在同一個事實基礎上工作。
  • 從設計部門到藝術部門、建築部門,一直到工程甚至是行銷部門。
  • 讓我們看看 Nissan 如何將 Omniverse 整合到他們的工作流程中,這全因為所有這些精彩的工具以及我們正在合作的開發人員。
  • 看看這個。

Omniverse Cloud 串流至 Vision Pro

  • 那不是動畫,那是 Omniverse今天我們宣布 Omniverse Cloud 將串流至 Vision Pro
  • 當你在虛擬門周圍行走時,這感覺非常奇特,當我從那輛車出來時,每個人都會這麼做,真的非常驚人。
  • Vision Pro 連接到 Omniverse 的入口 (portals),使你進入 Omniverse。
  • 因為所有這些 CAD 工具和所有不同的設計工具現在都已整合並連接到 Omniverse。
  • 你可以擁有這種工作流程,真的非常不可思議。

機器人技術

  • 讓我們來談談機器人技術,所有會移動的東西將來都將是機器人化的,這是毫無疑問的。
  • 它更安全也更方便,而且汽車產業將成為最大的產業之一。
  • 正如我所提到的,我們從上到下建立了機器人技術堆疊。
  • 包括自駕車的計算系統及其應用程式。
  • 在今年年底或明年初,我們將搭載於 Mercedes,隨後不久是JLR (Jaguar Land Rover)
  • 因此,這些自主機器人系統是軟體定義的,需要大量工作來完成,包括電腦視覺、人工智慧、控制和規劃,所有這些都是非常複雜的技術,需要多年來精煉。
  • 我們正在建造整個技術堆疊。
  • 然而,我們對整個汽車工業開放我們的技術堆疊,這就是我們的工作方式。
  • 在我們參與的每一個行業中,我們都嘗試建造盡可能多的部分,以便我們能夠理解它。但隨後我們會開放它,使每個人都能夠使用它
  • 無論您是否只想購買我們的電腦,這是世界上唯一一款完全功能的、安全的 ASIL-D 系統,能夠運行人工智慧,這款功能安全的 ASIL-D 品質電腦或是作業系統,或者當然是我們的資料中心,基本上在世界上每家 AV 公司都有。
  • 任何你喜歡的方式,我們都感到高興。
  • 今天我們宣布 BYD ——世界上最大的電動車公司正在採用我們的下一代技術,名為 Thor
  • Thor 是為 Transformer 引擎設計的。Thor,我們的下一代 AV 電腦將被 BYD 使用。
  • 您可能不知道這個事實,我們有超過一百萬的機器人開發者。
  • 我們創造了 Jetson 這款機器人電腦。
  • 我們為此感到非常自豪。
  • 它上面運行的軟體數量是瘋狂的。
  • 但我們之所以能夠做到這一點,是因為它 100% 兼容 CUDA。
  • 我們所做的一切,我們公司中的一切,都是為了服務於我們的開發者。
  • 透過我們能夠維護這個豐富的生態系統,並使其與你從我們這裡訪問的所有東西兼容,我們可以將所有這些不可思議的能力帶到我們稱之為 Jetson 的小型電腦上。
  • 一款機器人電腦。
  • 我們今天還宣布,這款極其先進的新 SDK,我們稱之為 Isaac Perceptor
  • Isaac Perceptor,今天的大多數機器人都是預先程式化的,它們可能沿著地面上的軌道行駛,可能是數位軌道、或它們會採用 AprilTags,但在未來,它們將具有感知能力。
  • 你之所以需要這樣做,是因為你可以輕鬆地程式化它,你可以指定從點 A 到點 B,並且它將找出一條路徑前往那裡。
  • 因此,僅透過程式化路徑點,整條路線都可以是自我適應的,整個環境都可以重新程式化,就像我一開始展示的倉庫那樣。
  • 你無法用預先程式化的 AGV 做到這一點。
  • 如果那些箱子掉下來,它們只會堵塞起來,它們只會在那裡等待。
  • 因此,現在有了Isaac Perceptor,我們擁有國際領先的視覺里程測量 3D 重建技術,除了 3D 重建,還有深度感知技術。
  • 這樣你就可以擁有兩種模式,來觀察世界中發生的事情。
  • Isaac Perceptor,今天最常用的機器人是製造業的操縱臂,它們也是預先程式化的。
  • 電腦視覺算法人工智慧算法控制和路徑規劃算法都是幾何意識的,非常計算密集。
  • 我們已經使這些CUDA 加速
  • 因此,我們擁有世界上第一個幾何意識的 CUDA 加速運動規劃器,你在它前面放置某物,它就會提出一個新計劃,並且我們的機器人會圍繞它進行精確操作,具有出色的姿態估計能力來識別 3D 物體。
  • 不僅是它在 2D 中的姿態,還有它在 3D 中的姿態。
  • 因此,它必須想像周圍的情況,以及最佳的抓握方式。
  • 因此,基礎姿態抓握基礎以及關節運動算法現在可用,我們稱之為Isaac Manipulator
  • 它們也只在 NVIDIA 的電腦上運行。
  • 我們正在開展一些下一代機器人的真正偉大的工作。

人形機器人技術

  • 下一代機器人技術可能會是人形機器人技術 (Humanoid Robotics)
  • 我們現在擁有必要的技術,正如我之前描述的。
  • 這是想像通用的人形機器人所必需的技術。
  • 在某種意義上,人形機器人可能更容易,因為我們有更多的模仿訓練資料可以提供給這些機器人。
  • 因為我們的構造方式非常相似。
  • 人形機器人在我們的世界中可能會更有用,因為我們建立的世界是讓我們能夠互動並且良好工作的。
  • 而我們設置工作站、製造業和物流的方式是為人類設計的,是為人們設計的,因此這些人形機器人部署起來可能會更高效。
  • 就像我們正在做的其他事情一樣,我們開始建立了整個堆疊,從上而下,一個基礎模型從觀看影片、人類、人類範例中學習,它可以是影片形式,也可以是虛擬現實形式,然後我們為它取了一個名字 Isaac 強化學習健身房 (Isaac Reinforcement Learning Gym),使人形機器人學會適應物理世界,然後是一台不可思議的電腦,這台電腦將安裝在機器人汽車中,這台電腦將安裝在稱為 Thor 的人類或機器人內部。
  • 它為 Transformer 引擎而設計。
  • 我們將其中幾個結合成了一段影片。
  • 這是你一定會喜歡的東西。
  • 請看。

展示:機器人技術

  • 單靠想像是不夠的。
  • 我們必須創造。
  • 探索真實。
  • 突破已有的成就。
  • 相當多的細節。
  • 我們創造得更聰明、更迅速。
  • 我們推動它失敗。
  • 這樣它才能學習。
  • 我們教導它,然後幫助它自學。
  • 我們擴展它的理解,讓它能以絕對的精準接受新挑戰並取得成功。

    Image not found.

  • 我們讓它感知、移動,甚至思考,這樣它就可以和我們一起共享世界。
  • 這是靈感引領我們前往的下一個邊界。
  • 這是 NVIDIA Project GR00T。
  • 一個通用的基礎模型,用於人形機器人學習,GR00T 模型接受多模態指令和過去的互動作為輸入,並產生機器人要執行的下一個動作。
  • 我們開發了 Isaac 實驗室,一個用於訓練 GR00T 的機器人學習應用程式。
  • Omniverse Isaac Sim 和我們擴展了名為 osmo 的新計算協調服務,該服務協調工作流程,橫跨DGX 系統進行訓練,以及OVX 系統進行模擬
  • 有了這些工具,我們可以在基於物理的模擬中訓練 GR00T,並將其直接轉移至現實世界。
  • GR00T模型將使機器人能夠從少量人類示範中學習,進而幫助完成日常任務,並僅藉由觀察我們來模仿人類動作。
  • 這一切都是得益於 NVIDIA 的技術,這些技術可以從影片中理解人類,訓練模型和模擬,最終直接部署到實體機器人上。
  • 將 GR00T 連接到一個大型語言模型。
  • 甚至允許它按照自然語言指令生成動作。
  • 嗨 GL1,能跟我擊個掌嗎?
  • 當然,讓我們擊掌吧。
  • 你能給我們表演一些酷炫的動作嗎?
  • 當然,看看這個。
  • 所有這些驚人的智慧都是由新的 Jetson Thor 機器人晶片驅動的,為GR00T設計,為未來打造。
  • 配備Isaac LabOSMOGR00T,我們為下一代 AI 驅動的機器人提供了一個個的建構模組。

總結


舞台上的機器人

  • 大小差不多。
  • NVIDIA 的靈魂,電腦圖形學、物理學、人工智慧的交集,在這一刻全部展現。
  • 這個項目的名字是 Project General Robotics 003
  • 我知道,非常棒。
  • 真的非常棒。
  • 我們似乎有一些特別的嘉賓。
  • 有嗎?
  • 嘿,各位。
  • 我了解你們是由 Jetson 驅動的。
  • 他們是由 Jetson 驅動的。
  • 小型 Jetson 機器人電腦在裡面。
  • 他們在 Isaac Sim 中學習走路。
  • 女士們先生們,這位是橘色,這位是著名的綠色
  • 他們是迪士尼的 BDX 機器人。
  • 驚人的迪士尼研究。
  • 來吧,大家一起總結。
  • 走吧。
  • 五件事。
  • 你們要去哪裡?
  • 我就坐在這裡。
  • 不要害怕。
  • 過來,綠色,快點。
  • 你在說什麼?
  • 現在不是吃東西的時候。
  • 現在不是。
  • 等一下我給你點心。
  • 讓我快速結束。
  • 來吧,綠色,快點。
  • 別浪費時間。
  • 五件事,五件事。

1 - 加速運算

  • 首先是新的工業革命
  • 每個資料中心都應該加速。
  • 價值一兆美元的已安裝資料中心。
  • 將在未來幾年內現代化。
  • 第二,由於我們帶來的運算能力。
  • 新的軟體開發方式已經出現。
  • 生成式 AI 將創造新的專用基礎設施,專門用於一件事,不是為多用戶資料中心,而是為 AI 生成器
  • 這些 AI 生成將創造出極具價值的軟體。
  • 一場新的工業革命。

2 - Blackwell

  • 第二,這一代的電腦,生成 AI 的百萬參數Blackwell,擁有瘋狂的運算量。
  • 第三,我正在嘗試集中注意力。
  • 做得好。

3 - NIMs

  • 第三,新的電腦創造了新類型的軟體,新類型的軟體應該以新的方式散佈。
  • 這樣它可以一方面成為雲端的端點,易於使用,但仍然允許你帶走它,因為那是你的智慧,你的智慧應該以一種允許你帶走它的方式打包。
  • 我們稱它們為NIM
  • 第三,這些 NIMs 將幫助你為未來建立新類型的應用。
  • 不是你從頭到尾完全自己寫的。
  • 但你將會整合它們。

4 - NeMo 和 AI Foundry

  • 就像團隊建立這些應用一樣,我們在NIM、AI 技術、工具NeMo以及我們的 AI Foundry 中的基礎設施DGX Cloud之間擁有出色的能力,幫助你建立專有應用、專有聊天機器人。

5 - Omniverse 和 Isaac Robotics

  • 最後,未來移動的一切都將是機器人,你不會是唯一的。
  • 這些機器人系統,無論是人形機器人、自動化移動機器人、自駕車、堆高機、操作機械臂,它們都需要一件事,巨大的體育場、倉庫、工廠將會是機器人管控的工廠,製造車間將是機器人建造汽車的地方。
  • 這些系統都需要一件事,它們需要一個平台,一個數位平台,一個數位孿生平台,我們稱之為Omniverse,機器人世界的作業系統。
  • 這就是我們今天討論的五件事。
  • NVIDIA 看起來像什麼。
  • 談到 GPU 時,NVIDIA 看起來像什麼。
  • 首先我看到的是一堆軟體堆疊之類的東西,其次我看到的是這個,這就是我們今天向您宣布的Blackwell
  • 這就是平台,驚人的處理器,NVLink 交換機,網絡系統,系統設計是一個奇蹟。
  • 這就是 Blackwell。
  • 這在我心中就是 GPU 的樣子
  • 聽著,橙色、綠色,我認為我們還有最後一個禮物給大家。
  • 你覺得呢,我們應該怎麼做?

閉幕短片

  • 好的。
  • 我們還有最後一個東西要給你們看。
  • 播放它。
  • 謝謝。
  • 謝謝,祝大家 GTC 愉快。
  • 謝謝大家的光臨。
  • 謝謝。

Reference


  1. In radio, multiple-input and multiple-output (MIMO) (/ˈmaɪmoʊ, ˈmiːmoʊ/) is a method for multiplying the capacity of a radio link using multiple transmission and receiving antennas to exploit multipath propagation. - MIMO - Wikipedia ↩︎

  2. CUDA Toolkit - Free Tools and Training | NVIDIA Developer ↩︎

  3. CUDA Zone - Library of Resources | NVIDIA Developer ↩︎

  4. AlexNet - Wikipedia ↩︎

  5. FLOPS - Wikipedia ↩︎

  6. The world’s first ever NVIDIA DGX H200 hand-delivered to OpenAI by the GPU king himself, Jensen Huang. by Farhan Hussain ↩︎

  7. Transformer (deep learning architecture) - Wikipedia ↩︎

  8. NVIDIA Warp Documentation ↩︎

  9. Revolutionary Cadence Reality Digital Twin Platform to Transform Data Center Design for the AI Era | Cadence ↩︎

  10. Microlithography - Wikipedia ↩︎

  11. cuLitho - Accelerate Computational Lithography | NVIDIA Developer ↩︎

  12. From EDA to SDA – The Emergence of Intelligent System Design Automation - Computational Fluid Dynamics - Cadence Blogs - Cadence Community ↩︎

  13. Cadence Unveils Millennium Platform—Industry’s First Accelerated Digital Twin Delivering Unprecedented Performance and Energy Efficiency | Cadence ↩︎

  14. InfiniBand originated in 1999 from the merger of two competing designs: Future I/O and Next Generation I/O (NGIO). NGIO was led by Intel, with a specification released in 1998, and joined by Sun Microsystems and Dell. Future I/O was backed by Compaq, IBM, and Hewlett-Packard. This led to the formation of the InfiniBand Trade Association (IBTA). - InfiniBand - Wikipedia ↩︎

  15. Selene is a supercomputer developed by Nvidia, capable of achieving 63.460 petaflops, ranking as the fifth fastest supercomputer in the world, when it entered the list. Selene is based on the Nvidia DGX system consisting of AMD CPUs, Nvidia A100 GPUs, and Mellanox HDDR networking. - Selene (supercomputer) - Wikipedia ↩︎

  16. Eos is built with 576 NVIDIA DGX H100 systems, NVIDIA Quantum-2 InfiniBand networking and software, providing a total of 18.4 exaflops of FP8 AI performance. - NVIDIA Eos Revealed: Peek Into Operations of a Top 10 Supercomputer | NVIDIA Blog ↩︎

  17. The Nvidia Hopper H100 GPU is implemented using the TSMC 4N process with 80 billion transistors. It consists of up to 144 streaming multiprocessors. In SXM5, the Nvidia Hopper H100 offers better performance than PCIe. The Nvidia Hopper H100 supports HBM3 and HBM2e memory up to 80 GB; the HBM3 memory system supports 3 TB/s, an increase of 50% over the Nvidia Ampere A100’s 2 TB/s. Across the architecture, the L2 cache capacity and bandwidth were increased. - Hopper (microarchitecture) - Wikipedia ↩︎

  18. NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS). - NVLink - Wikipedia ↩︎

  19. PCI Express (Peripheral Component Interconnect Express), officially abbreviated as PCIe or PCI-e, is a high-speed serial computer expansion bus standard, designed to replace the older PCI, PCI-X and AGP bus standards. It is the common motherboard interface for personal computers’ graphics cards, sound cards, hard disk drive host adapters, SSDs, Wi-Fi and Ethernet hardware connections. - PCI Express - Wikipedia ↩︎

  20. NVIDIA GB200 NVL72 Delivers Trillion-Parameter LLM Training and Real-Time Inference | NVIDIA Technical Blog ↩︎

  21. HGX AI Supercomputing Platform | NVIDIA ↩︎

  22. DGX Platform | NVIDIA ↩︎

Loading comments…