脈絡拆解: Google IO 2024 主題演講 - Google CEO Sundar Pichai

Published: 2024-05-16

Lastmod: 2025-07-16

脈絡拆解

by Ernest Chiang

tl;dr 重點摘要

Google 為了兼顧面對個人用戶 (B2C) 和企業用戶 (B2B) 兩種溝通，產品線的劃分相較於 Amazon, AWS 來的破碎、分散。不一定是壞事，但也未必是好事。產品與產品之間的同步會較有挑戰。
Google 模型 Gemini 和 Gemma 目標處理長文本情境、多模態輸入、跨檔案格式輸入資訊。但如何保持技術領先（面對開發者、夥伴與生態系）、多模態輸出（面對客戶需求）、如何控制成本（面對投資人），接下來將 Gemini 整合到上百個 Google 產品與功能裡頭，將是 Google 的當務之急。
在這 AI 浪潮與技術迭代鋪天蓋地之下，整場主題演講，最讓我印象深刻的是 DONALD GLOVER 的這段話：「每個人都會成為導演，每個人都應該成為導演。因為在這一切的核心就是講故事。我們越接近能夠講述彼此的故事，我們就越能理解彼此。」
是說，可以發揮 Gemini 的長上下文情境優勢讓 Google Translate 在合適上下文情境下，不要將「LLM」翻譯成「法學碩士」嗎？

內容大綱

完整筆記

開場影片

[歡呼和掌聲]。
WOMAN: Google 在人工智慧上的野心。
MAN: Google 推出 Gemini，產生式 AI。
這完全改變了我們的工作方式。
你知道，一年內發生了很多事情。有了新的開始。我們找到了新的方法來找到新的方法來找到新的想法。
和解決長久以來的問題的新方案。
抱歉你的襯衫。我們夢想著事物 – 永遠不會太老去搭建樹屋。
我們為事情做了訓練。
好吧！讓我們走吧走吧走吧！
並了解了這件事。我們找到了新的道路，邁出了下一步，並做出了大躍進。
Cannon ball！我們過的日子就像是幾週。幾個月內發生的事情比多年間發生的更多。
嘿，免費的雞蛋。
事情變得更大了，比以前大得多。而且這不僅僅是為了他，或是她。這是為了每個人。
你知道嗎？我們才剛開始。

1️⃣ 簡介

SUNDAR PICHAI: 大家好。早安。[歡呼和掌聲]。歡迎來到 Google I/O。很高興有你們在這裡。我們今天在 Shoreline ¹ 這裡有幾千名開發者。還有數百萬人透過網路在全球各地加入。感謝大家的參與。
對於那些從未見過 I/O 的人來說，這基本上是 Google 版的 The Eras Tour ²，但服裝更換次數較少。[笑聲]。

Gemini & AI Overviews

然而，在 Google，我們完全處於 Gemini 時代。在我們深入了解之前，我想反思一下我們所處的這個時刻。我們已經在 AI 上投資了超過十年，並在每一層堆疊 (every layer of the stack) 上創新: 研究、產品、基礎設施。我們今天會談論所有這些。不過，我們仍處於 AI 平台轉變的初期 ³。
我們看到前方有很多機會，對於創作者、開發者、初創公司、每個人都是如此。推動這些機會正是我們的 Gemini 時代的核心所在。所以讓我們開始吧。一年前在這個舞台上，我們首次分享了我們對 Gemini 的計劃，一個從一開始就被設計成本地多模態的前沿模型，可以在文字、圖像、影片、程式碼等方面進行推理。
這是將任何輸入轉化為任何輸出的重大步驟。一個新世代的 I/O。從那時起，我們推出了第一批 Gemini 模型，是我們迄今為止最強大的。它們在每個多模態基準上都展示了最先進的性能。而這僅僅是開始。兩個月後，我們推出了 Gemini 1.5 Pro，在長上下文方面取得了重大突破。
它可以在量產環境中執行 100 萬個 token，並且始終如一。比任何其他大規模基礎模型都多。我們希望每個人都能受益於 Gemini 的能力，因此我們迅速與大家分享這些進展。今天，超過 150 萬開發者在我們的工具中使用 Gemini 模型。
你們在用它來除錯程式碼，獲得新的見解，並建立下一代的 AI 應用程式。我們還在我們的產品中強力推出了 Gemini 的突破性功能。今天我們會展示一些示例，涵蓋搜尋、相片、工作空間 (Workspace) 、Android 等。今天，我們所有的 20 億用戶產品都在使用 Gemini。我們還推出了新的體驗，包括在行動裝置上，讓人們可以直接透過應用程式與 Gemini 互動。
現在可在 Android 和 iOS 上使用。並且透過 Gemini Advanced，可以存取我們最強大的模型。僅在三個月內就有超過 100 萬人註冊試用它，並且勢頭強勁。Gemini 在 Google Search中的一個最令人興奮的轉變發生了。在過去的一年中，我們在我們的搜尋產生體驗 (Search Generative Experience) 中回答了數十億次查詢。
人們正在用全新的方式搜尋。並提出新的問題類型，更長和更複雜的查詢，甚至用相片搜尋，並獲得網路上最好的結果。我們已經在實驗室之外測試這種體驗，我們很高興看到搜尋使用量的增加，並且用戶滿意度也有所提升。
我很高興地宣布，我們將在本週向所有美國用戶全面推出這種全新改版的體驗，即 AI Overviews。不久我們將推廣到更多國家。[歡呼和掌聲]。在搜尋中有這麼多創新發生。感謝 Gemini，我們可以打造更強大的搜尋體驗，包括在我們的產品中。

Google Photos - Ask Photos

讓我展示一個在 Google Photos 中的例子。我們在近九年前推出了 Google Photos。從那時起，人們一直用它來整理他們最重要的回憶。今天，每天上傳的相片和影片數量超過 60 億。人們喜歡用相片來搜尋他們的生活。
有了 Gemini，我們使這變得更加容易。假設你在一個停車站準備付款，但你無法回想起你的車牌號碼。以前，你可以用關鍵字搜尋相片，然後翻閱多年來的相片，找出正確的那張。現在，你只需問相片。它知道經常出現的車，能夠推斷哪輛是你的，並告訴你車牌號碼。
[歡呼和掌聲]。而 Ask Photos 可以幫助你更深入地搜尋你的回憶。例如，你可能會懷念你女兒 Lucia 的早期里程碑。你可以問相片，Lucia 什麼時候學會游泳的？然後你可以跟進更複雜的問題。展示 Lucia 的游泳進步情況。
在這裡，Gemini 不僅僅是簡單的搜尋，它能識別不同的情境，從在泳池裡游泳，到在海裡浮潛，再到她的游泳證書上的文字和日期。相片會將這些資訊打包成一個摘要，讓你可以真正回顧這些美好的回憶，再次重溫這些驚人的時刻。
我們將在今年夏天推出 Ask Photos，並會有更多功能即將推出。[歡呼和掌聲]。跨格式解鎖知識是我們從一開始就將 Gemini 設計為多模態的原因。這是一個模型，內建所有模式。因此，它不僅理解每種類型的輸入，還能找到它們之間的聯繫。多模態極大地擴展了我們可以提出的問題和得到的答案。
長上下文將這一點更進一步，使我們能夠引入更多資訊，數百頁的文本，數小時的音訊，一小時的影片或整個程式碼儲存庫。或者，如果你想，大約 96 份 Cheesecake Factory ⁴ 的菜單。[笑聲]。對於這麼多的菜單，你需要一個 100 萬 token 的上下文窗口 (context window)，現在可以使用 Gemini 1.5 Pro。
開發者以非常有趣的方式使用它。讓我們來看看。

Gemini 1.5 Pro 開發者回饋

我記得公告，100 萬 token 的上下文窗口，我的第一反應是他們不可能做到這一點。
我想測試它的技術技能，所以我上傳了一個折線圖。
這是東京和柏林的溫度，以及它們在一年 12 個月中的變化情況。
所以我進去後，扔進了一個我真的很掙扎的 Python 庫，然後問了一個簡單的問題。它答對了。它可以找到程式碼中的特定註釋，特定的請求和其他問題，然後提出與我正在做的事情相關的修復建議。
我立即嘗試它。所以我拿了四五篇研究論文，放在我的桌面上，當你加入這麼多文本時，你會看到你加入的 token 數量甚至不到容量的一半，這是一種令人震撼的體驗。
這有點像聖誕節，因為你看到你的 feed 頂端彈出一些東西，比如，哦，我建造了這個東西，或者哦，它在做這個，而我從未想到過。
我能拍攝我的物品影片並將其轉化為可搜尋的資料庫嗎？所以我跑到我的書架，拍攝影片，只是將相機沿著書架掃過，然後將影片餵給模型。它給了我書的標題和作者，即使這些書的書脊上沒有顯示作者，而且書架上還有一個松鼠形的核桃夾，遮住了標題的一部分。
你只能看到 “sightsee” 這個詞，它還是猜對了那本書。可以做的事情範圍幾乎是無限的。
所以那時對我來說就像一個點擊 (click)，這就是了。我覺得我手上有一種超能力。
這是詩。這太美了。
我太高興了！這將會很棒！這將幫助人們！
這就是語言模型未來的方向。個性化為你，不是因為你訓練它變得個性化，而是因為你可以給它如此廣泛的理解，讓它個性化為你。[掌聲]。

Gemini 1.5 Pro & Gemini Advanced

SUNDAR PICHAI: 在過去的幾個月裡，我們一直在推出具有長上下文的 Gemini 1.5 Pro。我們在翻譯、編碼和推理方面進行了一系列質量改進。你會在今天的模型中看到這些更新。我很高興地宣布，我們將把這個改進版本的 Gemini 1.5 Pro 推向全球所有開發者。
[歡呼和掌聲]。此外，今天具有 100 萬上下文的 Gemini 1.5 Pro 現已直接面向消費者在 Gemini Advanced ⁵ 中提供，並且可以在 35 種語言中使用。100 萬 token 開啟了全新的可能性。這令人興奮，但我認為我們可以進一步推動自己。
所以今天，我們將上下文窗口擴展到 200 萬 token。[歡呼和掌聲]。我們正在私人預覽中向開發者提供它。回顧一下，我們在短短幾個月內取得的進展令人驚嘆。這代表了我們朝著最終目標: 無限上下文邁出的下一步。
好的，到目前為止，我們已經談到了兩個技術進步: 多模態 (multimodality)和長上下文 (long context)。每一個單獨看都很強大。但結合在一起，它們解鎖了更深層的能力和更高的智慧。讓我們看看這如何在 Google Workspace 中實現。人們總是在 Gmail 中搜尋他們的電子郵件。
我們正在努力使這一過程更加強大，有了 Gemini，讓我們看看如何做到這一點。作為家長，你希望了解孩子學校的所有動態。好吧，也許不是所有的，但你希望保持資訊暢通。Gemini 可以幫助你跟上進度。現在我們可以請 Gemini 摘要所有最近來自學校的電子郵件。在後台，它會識別相關的電子郵件，甚至分析附件，如 PDF。然後你會得到一個關鍵點和行動專案摘要。非常有幫助。也許你這周在旅行，無法參加 PTA 會議。會議錄影有一個小時。如果是來自 Google Meet 的，你可以請 Gemini 給你重點摘要。[歡呼和掌聲]。有家長小組在尋找志願者，而你那天有空。所以當然，Gemini 可以草擬一個回覆。還有無數其他示例，說明這如何使生活更輕鬆。
Gemini 1.5 Pro 今天在 Workspace Labs 中可用。
Aparna 稍後會分享更多資訊。[掌聲]。我們剛剛看了一個文字輸出的示例。

NotebookLM - Audio Overviews

但使用多模態模型，我們可以做更多事情。為了向你展示 NotebookLM 中音訊輸出的早期演示，這裡有 Josh。
JOSH WOODWARD: 大家好！去年在 I/O 上，我們介紹了 NotebookLM ⁶，一個基於你提供的資訊進行研究和寫作的工具。自那以來，我們看到很多學生和老師在使用它。今天，Gemini 1.5 Pro 正在進入 NotebookLM，而且非常棒。讓我來展示一下。
所以這裡是 NotebookLM。你可以在左邊加載所有材料。在這個筆記本中，我一直和我年幼的兒子一起使用它，我加入了一些他的科學工作表，一些老師的幻燈片演示，甚至一本充滿圖表和圖示的開源教科書。使用 1.5 Pro，它立即建立了這個筆記本指南，提供有用的摘要，並可以產生學習指南、常見問題解答，甚至是測驗。但對於我的兒子 Jimmy，他最好的學習方式是聽東西。所以我們使用 Gemini 原型了一個新功能，稱為 Audio Overviews。NotebookLM 將使用左邊的所有材料作為輸入，並將其輸出成一個生動的科學討論，為他個性化客製。
讓我們來聽聽看。
讓我們來談談物理學。今天要做什麼？
嗯，我們從基本開始。力與運動。
好的。
當然，這意味著我們必須談談艾薩克·牛頓爵士和他的三大運動定律。
啊，是的，理解物體如何移動和相互作用的基礎。
JOSH WOODWARD: 哦，是的，這就是多模態的真正亮點。現在，它基於文本材料產生了這個音訊討論。而且驚人的是，我和我兒子可以參與進來。並引導它朝我們想要的方向前進。當我點擊“加入”時。
等等。我們有個問題。怎麼了，Josh？
JOSH WOODWARD: 是的，你能給我兒子 Jimmy 一個籃球的例子嗎？
嘿，Jimmy！這是一個很棒的主意！籃球其實是一個很好視覺化力與運動的方法。讓我們分解一下。
好的。所以首先，想像一下籃球只是坐在場地上。它沒有移動，對嗎？那是因為作用於它的所有力是平衡的。重力的向下拉力 –
JOSH WOODWARD: 很酷吧？[歡呼和掌聲]。我得說，我兒子第一次聽到這個時候，你應該看到他的大眼睛！因為他被吸引住了。他們在和他說話。
他透過籃球這個他最喜歡的運動學習科學。現在，令人興奮的是，Gemini 在底層使用了一些重力、艾薩克·牛頓爵士的概念，但其中沒有任何關於籃球的內容。它連接了點，創造了那個適合年齡的例子給他。
這就是 Gemini 的力量所在。你可以給它大量的任何格式的資訊，它可以以一種個性化和互動的方式進行轉化。交回給你，Sundar。[掌聲]。

AI Agents

SUNDAR PICHAI: 謝謝，Josh。這個演示展示了多模態的真正機會。
很快你就能混合和匹配 (mix and match) 輸入和輸出。這就是我們所說的為新一代提供 I/O 的意思。我能看到你們都在思考這些可能性。但如果我們可以走得更遠呢？這是我們在 AI agents 中看到的機會之一。讓我退一步解釋我的意思。
我把它們 (AI agents) 看作是顯示推理、計劃和記憶的智慧系統。能夠“思考”多個步驟，跨軟體和系統工作，都是為你完成某些事情，最重要的是，在你的監督下。我們仍處於早期階段，今天你會看到我們方法的片段，但讓我向你展示我們正在努力解決的用例。
讓我們談談購物。購鞋子是很有趣的，但當它們不合腳時退貨就沒那麼有趣了。想像一下，如果 Gemini 能為你完成所有步驟: 在你的收件箱中搜尋收據，從你的電子郵件中找到訂單號碼，填寫退貨表格，甚至安排取件。
這樣簡單多了吧？[掌聲]。讓我們看看另一個更複雜的例子。假設你剛搬到芝加哥。你可以想像 Gemini 和 Chrome 一起工作，幫助你準備做好一些事情: 為你組織、推理、綜合。例如，你會想探索城市並找到附近的服務，從乾洗店到遛狗服務。
你將需要在數十個網站上更新你的新地址。Gemini 可以跨這些任務工作，並在需要時提示你提供更多資訊，所以你始終掌控。這部分非常重要。在我們原型設計這些體驗時，我們正在努力考慮如何以私密、安全且適用於所有人的方式進行。
這些是簡單的用例，但它們讓你對我們希望透過構建能夠提前思考、推理和計劃的智慧系統解決的問題類型有了良好的了解。Gemini 的力量，結合多模態、長上下文和代理，讓我們更接近我們的最終目標: 使 AI 對每個人都有用。
我們認為這是我們對我們的使命取得最大進展的方式。組織來自世界每個輸入的資訊，可以透過任何輸出存取這些資訊，並將這個世界的資訊與你的世界的資訊相結合，以真正對你有用的方式。為了充分實現 AI 的好處，我們將繼續開創新局面。

2️⃣ Google DeepMind

Google DeepMind 正在努力實現這一目標。請歡迎 Sir Demis 首次登上 I/O 舞台。[掌聲]。
DEMIS HASSABIS ⁷: 謝謝，Sundar。很高興來到這裡。自從我還是個小孩，為英格蘭青少年隊下棋以來，我一直在思考智慧的本質。
我被電腦可以像人一樣思考的想法所吸引。這最終是我成為程序員並學習神經科學的原因。2010 年，我共同創立了 DeepMind，目標是有一天建立 AGI: 人工通用智慧 (Artificial general intelligence)，一個具有人類認知能力的系統。我一直相信，如果我們能夠負責任地構建這項技術，它的影響將非常深遠，並且可以以令人難以置信的方式造福人類。
去年，我們在這條道路上達到了一個里程碑，當時我們成立了 Google DeepMind，將公司內的 AI 人才組合成一個超級單位。自那以來，我們建立了可以做驚人範圍事情的 AI 系統，從將語言和視覺轉化為機器人行動，到導航複雜的虛擬環境，涉及奧林匹亞級數學問題，甚至發現了數千種新材料。
就在上週，我們宣布了我們的下一代 AlphaFold ⁸ 模型。它可以預測幾乎所有生命分子的結構和相互作用，包括蛋白質如何與 DNA 和 RNA 鏈相互作用。這將加速從疾病理解到藥物發現的重要生物學和醫學研究。

Gemini 1.5 Flash

所有這些都是透過 AI 時代的最佳基礎設施實現的，包括我們高度優化的電晶體處理單元。我們努力的核心是我們的 Gemini 模型。它從根本上建立起來，從一開始就是多模態的，因為這是我們與周圍世界互動和理解的方式。我們為不同的用例構建了各種模型。
我們已經看到了 Gemini 1.5 Pro 的強大功能，但我們也知道從用戶反饋中，一些應用需要更低的延遲和更低的服務成本。所以今天我們推出 Gemini 1.5 Flash。[歡呼和掌聲]。Flash 是一個相對於 Pro 更輕量級的模型。它旨在快速且經濟高效地提供大規模服務，同時仍具有多模態推理能力和突破性的長上下文。
Flash 優化了低延遲和效率最重要的任務。從今天開始，你可以在 Google AI Studio ⁹ 和 Vertex AI ¹⁰ 中使用 1.5 Flash 和 1.5 Pro，最多可達 100 萬 token。開發者可以註冊試用 200 萬 token。我們非常興奮地看到你們將用它創造什麼。稍後你會聽到 Josh 更多關於 Flash 的資訊。
我們對 Gemini 模型家族迄今取得的進展感到非常興奮。但我們始終致力於進一步推動最先進技術。我們隨時都有許多不同的模型在訓練中。我們使用我們非常大且強大的模型來幫助訓練我們的生產就緒模型。
結合用戶反饋，這一尖端研究將幫助我們為數十億人構建驚人的新產品。例如，去年十二月，我們分享了人們將如何與多模態 AI 互動的未來景象，以及這將如何推動一系列變革性體驗。

Project Astra

今天，我們有一些令人興奮的新進展要分享，關於我們稱之為 Project Astra ¹¹ 的 AI 助理的未來。[歡呼和掌聲]。長期以來，我們一直希望構建一個在日常生活中真正有用的通用 AI 代理。我們使這一願景成為現實的工作可以追溯到許多年。
這就是為什麼我們從一開始就使 Gemini 成為多模態。這樣的代理必須像我們一樣理解和回應我們複雜和動態的世界。它需要接收和記住所見內容，以便理解上下文並採取行動。它需要是主動的、可教的和個性化的，這樣你就可以自然地與它交談，沒有延遲。
雖然我們在開發能夠理解多模態資訊的 AI 系統方面取得了很大進展，但將響應時間縮短到對話水平是一個艱難的工程挑戰。基於我們的 Gemini 模型，我們開發了可以更快處理資訊的代理，透過不斷編碼影片幀，將影片和語音輸入結合到事件時間線中，並快取這些以便高效回調。
我們還增強了它們的聲音，有更廣泛的語調範圍。這些代理更好地理解你所處的上下文，並能快速響應對話，使互動的節奏和質量感覺更自然。這是我們的原型影片，你會看到它有兩個部分。
每一部分都是一次拍攝，實時捕捉的。
好的。讓我們進行一些測試。告訴我當你看到某些會發出聲音的東西時。
我看到一個揚聲器，它會發出聲音。
那是揚聲器的哪一部分？
那是高音單元。它產生高頻聲音。
給我一個關於這些東西的創意押韻。
創意蠟筆色彩愉快。他們肯定會創造色彩豐富的作品。
那段程式碼的那部分做了什麼？
此程式碼定義了加密和解密函數。它似乎使用 AES-CBC 加密根據密鑰和初始化向量 (IV) 編碼和解碼數據。
沒錯。
你認為我在哪個社區？
這似乎是倫敦國王十字區。以其火車站和交通連接聞名。
你記得我在哪裡看到我的眼鏡嗎？
是的，我記得。你的眼鏡在紅蘋果旁邊的桌子上。[掌聲]
我在這裡加上什麼可以使這個系統更快？
在伺服器和資料庫之間加入快取可以提高速度。
這讓你想起什麼？
薛丁格的貓。
好的。給這個二重奏取個樂隊名。
金色條紋。
不錯。謝謝，Gemini。[掌聲]
DEMIS HASSABIS: 我想你會同意，看到 AI 在空間理解、影片處理和記憶方面取得的進展令人驚嘆。很容易想像一個未來，你可以透過手機或新的令人興奮的形式，如眼鏡，隨時擁有一個專家助手。
今年晚些時候，我們將把這些代理功能引入 Google 產品，如 Gemini app。對於今天在場的你們，可以在 AI Sandbox 區域試用這種體驗的現場演示版本。[歡呼和掌聲]。接下來，讓我們看看我們的創新如何幫助人們實現新的創意想法。
今天，我們在產生式媒體工具方面進行了一系列更新，涵蓋圖像、音樂和影片的新模型。過去一年中，我們一直在提升質量，提高安全性和增加存取。為了講述這個故事，這裡有 Doug。[掌聲]。

Generative Media - Image

DOUG ECK: 謝謝，Demis。
在過去的幾個月裡，我們一直在從頭開始構建一個新的圖像產生模型，具有更強的評估，廣泛的紅隊測試，和使用 SynthID 的最先進水印。今天，我非常興奮地介紹 Imagen 3。這是我們迄今為止最強大的圖像產生模型。
Imagen 3 更具真實感。你可以數它的鼻子上的鬍鬚。細節更豐富，如這張照片中不可思議的陽光，視覺瑕疵或失真的圖像更少。它理解人們寫的提示。你越有創意和詳細，它就越好。
而且 Imagen 3 記住了包含“野花”或“藍色小鳥”等小細節在這個更長的提示中。此外，這是我們迄今為止在渲染文字方面最好的模型，這對圖像產生模型來說是一個挑戰。在並排比較中，獨立評估者更喜歡 Imagen 3 而不是其他流行的圖像產生模型。
總而言之，Imagen 3 是我們迄今為止質量最高的圖像產生模型。你今天可以註冊試用 Imagen 3，在我們的 AI 工具套件中 labs.google ¹² 的 ImageFX，它很快將向開發者和企業客戶提供在 Vertex AI 中使用。

Generative Media - Music

另一個充滿創意可能性的領域是產生式音樂。我在這個領域工作了 20 多年，這是我職業生涯中最激動人心的一年。
我們正在探索與藝術家合作，透過 AI 擴展他們的創造力。與 YouTube 一起，我們正在建立 Music AI Sandbox，一套專業的音樂 AI 工具，可以從頭建立新的樂器部分，在曲目之間轉移風格等。為了幫助我們設計和測試它們，我們一直與令人難以置信的音樂家、詞曲作者和製作人密切合作。
有些人甚至創作了全新的歌曲，這在沒有這些工具的情況下是不可能的。讓我們聽聽一些我們合作過的藝術家。
我會把這個直接放回 Music AI 工具中。同樣的 Boom, boom, bam, boom, boom。海地遇見巴西會發生什麼？兄弟，我不知道會產生什麼。
這讓我興奮。Da da See see see。作為嘻哈製作人，我們挖掘唱片。播放這些黑膠唱片，在沒有聲音的部分，我們把它拉出來，取樣，然後圍繞它創作整首歌曲。所以現在我們在無限唱片箱中挖掘。它是無窮無盡的。AI 對我來說真正有用的是，它可以填補我循環中較稀疏的部分。好吧。
讓我們試試邦戈鼓。我們將加入中提琴。我們將加入節奏掌聲，看看會發生什麼。哦，最終，它讓它聽起來更加人性化。所以這完全是 Google 的循環。這些是 Gloops。
這就像有一個奇怪的朋友，說，試試這個，試試那個。然後你說，哦，好。是的。這很棒。（不清楚的聲音）
這些工具能夠加速我腦中的想法，讓它們出來。你能夠以光速移動你的創意。這太棒了。
就是這個。[掌聲]。
DEMIS HASSABIS: 我認為這真的展示了當我們與藝術家社區合作時，音樂的未來是什麼樣子。你現在可以在他們的 YouTube 頻道上找到這些著名藝術家和詞曲作者的新歌。

Generative Media - Video

還有一個我非常興奮的領域要與你分享。我們的團隊在產生式影片方面取得了一些令人難以置信的進展。今天，我很高興地宣布我們最新的、最強大的產生式影片模型，稱為 Veo。[歡呼和掌聲]。Veo 從文本、圖像和影片提示中建立高質量的 1080P 影片。它可以捕捉你指示中的細節，以不同的視覺和電影風格。
你可以提示一些像空中拍攝的景觀或縮時拍攝的內容，並使用額外的提示進一步編輯你的影片。你可以在我們的新實驗工具 VideoFX 中使用 Veo。我們正在探索像分鏡和產生更長場景的功能。Veo 給你前所未有的創意控制。產生靜態圖像的技術已經走了很長的路。
但產生影片是一個完全不同的挑戰。不僅重要的是要理解物體或主題在空間中的位置，它還需要在時間上保持一致性，就像這段影片中的車一樣。Veo 建立在我們多年來開創性的產生影片模型工作基礎上，包括 GQN、Phenaki、Walt、VideoPoet、Lumiere 等。
我們結合了這些架構和技術的最佳部分，以提高一致性、質量和輸出解析度。為了看看 Veo 的能力，我們把它交給了一位了不起的電影製作人。讓我們來看看。
DONALD GLOVER: 嗯，幾年前我就對 AI 產生了興趣。我們與 Google 的一些人聯繫上了，他們也在開發自己的東西。
所以我們都在 Gilga Farms 見面，製作一部短片。
KORY MATHEWSON: 核心技術是 Google DeepMind 的產生影片模型，已經訓練將輸入文本轉換為輸出影片。[笑聲]
DONALD GLOVER: 看起來很好。
KORY MATHEWSON: 我們能夠實現以前不可能的想法。我們可以比以前快 10 倍或 100 倍的速度可視化事情。
MATTHIEU KIM LORRAIN: 當你拍攝時，你不能像你希望的那樣反覆迭代。所以我們聽到的反饋是，它允許更多的選擇性、更多的迭代、更多的即興創作。
DONALD GLOVER: 但這很酷的地方在於，你可以更快地犯錯誤。這就是你在一天結束時真正想要的，至少在藝術中，就是快速犯錯誤。
KORY MATHEWSON: 所以，利用 Gemini 的多模態能力來優化模型的訓練過程，VEO 更能捕捉提示中的細微差別。
這包括電影技術和視覺效果，給你完全的創意控制。
DONALD GLOVER: 每個人都會成為導演，每個人都應該成為導演。因為在這一切的核心就是講故事。我們越接近能夠講述彼此的故事，我們就越能理解彼此。
KORY MATHEWSON: 這些模型真的是讓我們更具創造力，並與彼此分享這種創造力。[歡呼和掌聲]。
DEMIS HASSABIS: 在接下來的幾週內，這些功能中的一些將透過 VideoFX 向選定的創作者提供，並且等待名單現已開放。
當然，產生影片的這些進展不僅僅是你今天看到的美麗視覺效果。透過教未來的 AI 模型如何創造性地解決問題，或者實際上模擬我們世界的物理，我們可以構建更有用的系統，幫助人們以新的方式交流，從而推動 AI 的前沿。
當我們 15 年前開始這段 AI 旅程時，我們知道有一天它會改變一切。現在這個時刻已經到來。我們繼續被我們看到的進展所驚訝，並受到未來進步的啟發，走在通往 AGI 的道路上。謝謝，回到你那裡，Sundar。[掌聲]。

Search

Investment

Ernest Notes: 這段看起來是想要做先進技術的火力展示，火力種類數量很多、覆蓋領域很廣。繼前幾週 Google 剛發布季報內容是面對投資者，這次主題演講機會 Google 使用面對消費者與企業採購決策者的溝通語言，增加客戶對 Google 的信任與技術領先者的感受。但從投資人角度來看，也可能被解讀成過度投資、過早投資，且沒有充分解釋為什麼要這樣做，少了情境的鋪陳就直接火力展示，這部份前幾週已經在股價反應，所以這次主題演講對股價沒有太大影響。例如 Sundar 提到網路基礎建設 200 萬英里是下一個領先雲供應商的十倍，但沒有解釋為什麼需要作這樣的基礎建設部屬，與客戶需求、與營收之間的關係。Sundar 提到液體冷卻技術領先業界十年，但沒有解釋領先十年的同時，創造了什麼優勢、與客戶需求、與營收之間的關係。

Ernest Notes: 之前整理歷年的 AWS 年度開發者大會 re:Invent 得花上五天、四場、七小時的主題演講時間來作充分敘事與溝通。

SUNDAR PICHAI: 謝謝，Demis。
Google DeepMind 發生了大量的創新，這一年來我們取得了驚人的進步。訓練最先進的模型需要大量的運算能力。過去六年中，行業對 ML 運算的需求增長了 100 萬倍。而且每年都在以十倍的速度增長 ¹³。
Google 為此而生。25 年來，我們一直在投資世界級的技術基礎設施，從支持搜尋的尖端硬體，到推動我們 AI 進步的客製電晶體處理單元。Gemini 完全在我們的第四和第五代 TPU 上訓練和提供服務。
其他領先的 AI 公司，如 Anthropic 也在 TPU 上訓練他們的模型。今天，我們很高興地宣布第六代 TPU，稱為 Trillium。[歡呼和掌聲]。Trillium 在每個晶片上的運算性能提高了 4.7 倍，相較於上一代。因此是我們迄今為止最有效率和性能最好的 TPU。
我們將在 2024 年底向我們的雲客戶提供 Trillium。除了 TPU，我們還自豪地提供 CPU 和 GPU，以支持任何工作負載。這包括我們上個月宣布的新 Axion 處理器，我們的首個具有行業領先性能和能源效率的客製基於 ARM 的 CPU。
我們也很自豪地成為首批提供 Nvidia 尖端 Blackwell GPU 的雲提供商之一，這些 GPU 將在 2025 年初上市。[掌聲]。我們很幸運與 Nvidia 有著長期的合作夥伴關係，並很高興將 Blackwell 的功能帶給我們的客戶。

Ernest Notes: 關於更多 Nvidia Blackwell 的資訊，歡迎閱讀我的另一篇主題演講脈絡拆解筆記: 脈絡拆解: NVIDIA GTC 2024 主題演講 - NVIDIA 執行長黃仁勳

晶片是我們集成端到端系統的基礎部分，從性能優化的硬體和開放軟體到靈活的消費模式。這一切都在我們的 AI 超級計算機 (AI Hypercomputer) 中匯聚成一個突破性的超級計算機架構。企業和開發者正在利用它來解決更複雜的挑戰，相較於僅購買原始硬體和晶片，效率提高了兩倍多。
我們的 AI 超級計算機 (AI Hypercomputer)進步部分是由於我們在資料中心的液體冷卻方法。我們已經做這個將近十年了，早在成為業界的先進技術之前。今天，我們總部署的液體冷卻系統容量接近 1 Giga Watt，並且還在增長。
這是任何其他車隊容量的近 70 倍。[掌聲]。其背後是我們全球基礎設施連接的網路的巨大規模。我們的網路遍布超過 200 萬英里的地面和海底光纖: 超過下一領先的雲提供商的 10 倍。
我們將繼續進行必要的投資，以推動 AI 創新並提供最先進的能力。我們最重要的投資和創新之一是在我們的創始產品搜尋中。25 年前，我們建立搜尋，幫助人們理解在線上湧動的資訊波浪。

Strengths of Google Search

隨著每個平台的轉變，我們提供了突破性進展，得以更好地回答你的問題。在行動裝置上，我們對問題和答案解鎖了新的類型，使用更好的上下文情境、位置感知和即時資訊。隨著自然語言理解和計算機視覺的進步，我們啟用了用聲音、哼唱來搜尋你喜愛的新歌，或用你在散步時看到的花的圖像來搜尋等等新方式。
現在，你甚至可以圈選那些你可能想買的酷新鞋進行搜尋。隨便買，你可以隨時退貨 ¹⁴！當然，搜尋在 Gemini 時代將達到一個全新的高度。結合我們的基礎設施優勢、最新的 AI 能力、我們對資訊質量的高標準，和我們幾十年來將你連接到豐富的網路經驗。
結果是一個為你做工作的產品。Google Search 是人類好奇心規模上的產生 AI。這是我們搜尋的最激動人心的篇章。為了告訴你更多，這裡是 Liz。[掌聲]。
LIZ REID ¹⁵: 謝謝，Sundar！隨著每一個平台的轉變，我們不僅適應了，還擴展了 Google Search的可能性。
現在，隨著產生 AI，搜尋將為你做更多超出你想像的事情。所以無論你在想什麼，需要完成什麼，只需提問。Google 將為你做搜尋。你今天看到的所有進步都是透過一個新的 Gemini 模型實現的，這個模型是為 Google Search客製的。
這真正使它與眾不同的是我們的三個獨特優勢。
首先，我們的即時資訊，擁有超過一萬億條關於人、地點和事物的事實。
第二，我們無與倫比的排名和質量系統 ¹⁶，幾十年來一直被信賴，為你提供最好的網路。
第三，Gemini 的力量，這在搜尋中解鎖了新的代理能力 (agentive capabilities)。
透過將這三個因素結合在一起，我們能夠再次大大擴展 Google Search的可能性。這是 Gemini 時代的搜尋。讓我們深入了解。

AI Overviews

你今天聽說了 AI Overviews ¹⁷，人們發現它們非常有幫助。使用 AI Overviews，Google 為你做工作。你可以提出問題，如這裡所見，你可以立即得到答案。
完整的有不同觀點和深入探討的鏈接。正如 Sundar 所分享的，AI Overviews 今天開始在美國全面推出，並很快推廣到更多國家。到今年年底，AI Overviews 將出現在超過 10 億人的 Google Search中。但這僅僅是第一步。
我們正在使 AI Overviews 在處理你最複雜的問題時更加有用，那些實際上更像是十個問題合一的問題！你可以提出你的整個問題，包含所有子問題，並在幾秒鐘內得到一個 AI Overview ¹⁷。為了使這成為可能，我們正在引入 Google Search中的多步推理 (multi-step reasoning)。
因此，Google 可以為你做研究。例如，假設你一直在嘗試進入瑜伽和普拉提。找到合適的工作室需要大量的研究。有很多因素需要考慮！很快你就可以請搜尋: 找出波士頓最好的瑜伽或普拉提工作室。並顯示他們的介紹優惠，從 Beacon Hill 步行時間。
如你所見，Google 為你工作，找到最相關的資訊，並將它們整合到你的 AI Overview中。你得到一些有很高評價的工作室及其介紹優惠。你可以看到每個工作室的距離，比如這個距離只有十分鐘的步行距離！在下面，你可以看到他們的位置，直觀地呈現出來。
你僅僅透過一次搜尋就得到了這些資訊！在底層，我們的客製 Gemini 模型充當你的 AI 代理，使用我們稱之為多步推理的方法。它將你的更大問題分解成所有部分，並弄清楚需要解決哪些問題以及以什麼順序解決。
由於我們的即時資訊和排名專業知識，它使用最高質量的資訊進行推理。所以，既然你在問地點，它會利用 Google 的現實世界資訊索引，涵蓋超過 2.5 億個地點，並即時更新。包括他們的評價、評論、營業時間等。
以前需要你花費幾分鐘甚至幾小時的研究，現在 Google 可以在幾秒鐘內為你完成。接下來，讓我向你展示另一種 Google Search中多步推理可以使你的生活更輕鬆的方式。以計劃為例。夢想旅行和餐飲計劃可能很有趣，但實際上弄清楚所有細節的工作就沒那麼有趣了。
有了搜尋中的 Gemini，Google 將與你一起進行計劃。計劃對 AI 來說非常困難。這是一種類型的問題，需要高級的推理和邏輯。畢竟，如果你在計劃餐飲，你可能不會想要早餐、午餐和晚餐都吃奶酪通心粉。好吧，我的孩子們可能會。
但假設你想要更多的多樣性。現在，你可以請搜尋: 為一群人建立一個三天的餐飲計劃，易於準備。你會得到一個來自整個網際網路範圍的各種食譜計劃。這個過夜燕麥的食譜看起來特別有趣。你可以輕鬆查看網站，了解如何準備它們。
如果你想多吃些蔬菜，你可以簡單地請搜尋換成素食菜餚。這樣搜尋會客製你的餐飲計劃。你可以點擊這裡產生你的餐飲計劃或獲得食材列表。展望未來，你可以想像請 Google 將所有東西加入到你偏好的購物車中。
然後，我們真的在烹飪了！這些計劃功能意味著搜尋將能夠幫助計劃從餐飲和旅行到聚會、約會、鍛煉計劃等一切。所以你可以享受計劃的所有樂趣而沒有任何麻煩。你已經看到 Google Search 如何幫助解決越來越複雜的問題和計劃。但當你不知道確切要問什麼並且需要一些腦力激盪幫助時呢？當你來搜尋尋找想法時，你將得到的不僅僅是 AI 產生的答案。
你會得到一整頁由 AI 組織的內容，為你和你的問題量身客製。假設你要去達拉斯慶祝你的週年紀念日，正在尋找完美的餐廳。你在這裡得到的東西將 AI 從盒子中釋放出來，並將其帶到整個頁面上。我們的 Gemini 模型為你揭示最有趣的角度，並將這些結果組織成這些有用的集群。
就像，你可能從未考慮過有現場音樂的餐廳。或具有歷史魅力的餐廳！我們的模型甚至使用上下文因素，如時間。所以既然達拉斯很暖和，你可以得到屋頂露台作為一個想法。它將一切整合到一個動態的全頁體驗中。
當你尋找靈感時，你將開始看到這個新的 AI 組織的搜尋結果頁面，首先是餐飲和食譜，然後來到電影、音樂、書籍、酒店、購物等。[掌聲]。今天，你已經看到了如何將任何問題帶到搜尋，Google 將搜尋的工作交給了你。但你的問題不限於文字框中的詞，有時甚至一張照片也無法講述整個故事。
早些時候，Demis 向你展示了我們在影片理解方面的最新進展。我很高興地分享，將來你可以在 Google Search中使用影片進行提問。讓我介紹 Rose，向你展示這一 live demo。[掌聲]。

Google Search Demo

ROSE YAO: 謝謝你，Liz！我一直想要一台唱片機，我最近在一個庭院拍賣中買到了這台唱片機和一些黑膠唱片。
但是，嗯，當我去播放時，這個東西一直滑落。我不知道如何修理它，也不知道從哪裡開始！以前，我會拼湊許多搜尋來試圖弄清楚，比如，這台唱片機是什麼牌子的？型號是什麼？這東西實際上叫什麼？但現在我可以使用影片來提問。讓我們試試看。
讓我們進行實時演示。我將拍攝一段影片然後問 Google，為什麼這個不會固定到位？幾乎瞬間，Google 給了我一個 AI Overview。我得到一些這可能發生的原因，和一些我可以採取的排除故障的步驟。所以首先，這個叫做唱臂 (tone arm)。非常有幫助。
看來它可能不平衡，這裡有一些非常有幫助的步驟。我喜歡這一點，因為我是新手。我可以查看這個來自 Audio Technica 的有用鏈接，了解更多資訊。所以這相當快速！[掌聲]。讓我向你解釋剛剛發生了什麼。
由於我們最先進的語音模型、我們的深度視覺理解和我們的客製 Gemini 模型的組合，搜尋能夠理解我大聲問的問題並逐幀解析影片。每幀都被餵入之前你今天聽到的 Gemini 的長上下文窗口。然後搜尋可以準確定位我的唱片機的型號。
並理解幀之間的運動，識別唱臂正在漂移。搜尋擴展並梳理網路，從文章、論壇、影片等找到相關見解 (insights)。並將所有這些整合到我的 AI Overview中。結果是我的耳朵裡頭充滿音樂！交回給妳，Liz。[掌聲]。

LIZ REID: 今天你看到的一切只是我們在 Gemini 時代重新想像 Google Search的一瞥。我們將 Google 最好的部分帶入其中。所有使數十億人轉向 Google Search的原因，幾十年來一直依賴我們。我們將 Gemini 的代理能力帶入其中。
所以 Google 將為你做搜尋、研究、計劃、腦力激盪等更多。你只需提出問題。你將開始在未來幾週內看到這些功能在搜尋中推出。選擇加入 Search Labs ¹⁸ ，成為第一批試用它們的人。
現在讓我們看看今年所有這些在 Google Search中的整合。
為什麼槓桿不會完全移動？[掌聲]。

3️⃣ Google Workspace

APARNA PAPPU ¹⁹: 自去年五月以來，我們一直在努力使 Gemini for Workspace 更有幫助，為全球企業和消費者服務。自推出以來，已有數以萬計的客戶使用幫助我寫作、幫助我可視化和幫助我組織。現在，我們非常興奮地宣布新的 Gemini 驅動的側邊欄 (side panel) 將在下個月普遍可用。
[歡呼和掌聲]。我們的一位客戶是加利福尼亞州的一個當地知名品牌，Sports Basement。他們使用 Gemini for Workspace 幫助提高了他們客戶服務團隊的生產力超過 30%。客戶喜愛 Gemini 在會議中自動語言檢測和即時字幕擴展到 68 種語言。
[掌聲]。我們對 Gemini 1.5 Pro 為工作空間 (Workspace) 和 AI 高級客戶解鎖的新功能感到非常興奮。讓我先展示一下 Gmail 移動端即將推出的三個新功能。這是我的 Gmail 帳戶。好的。上面有我丈夫發來的一封電子郵件。請幫我解決屋頂維修問題。
現在，我們一直在嘗試找一個承包商來修理我們的屋頂，因為工作旅行，我顯然沒有處理好。看起來有一個電子郵件線程，裡面有很多我還沒讀的電子郵件。幸運的是，我可以簡單地點擊上面的摘要選項，跳過閱讀這個冗長的來回對話。
現在，Gemini 會彈出這個有用的移動卡片作為覆蓋層。在這裡我可以閱讀所有重要資訊的摘要。所以我看到我們有一個來自 Green Roofing 的 Jeff 的報價，他準備開始工作。我知道我們還有其他報價，但我不記得細節了。
以前，我需要在 Gmail 中進行多次搜尋，然後記住並比較不同電子郵件中的資訊。現在，我可以直接在移動卡片中輸入我的問題，比如，按價格和可用性比較我的屋頂維修報價。這個新的問答功能讓我可以輕鬆獲得收件箱中的任何問題的快速答案。
例如，我的鞋子什麼時候到達，或尼克斯比賽的門什麼時候開門，而無需先搜尋 Gmail，打開電子郵件並查找附件中的具體資訊。無論如何，回到我的屋頂。看起來 Gemini 已經找到了來自兩個其他承包商的詳細資訊，分別在完全不同的電子郵件線程中，我有這個非常井井有條的摘要，可以快速比較。
看來 Jeff 的報價正好在中間，他可以立即開始工作，所以選擇 Green Roofing。我會打開 Jeff 發來的最後一封電子郵件並確認專案。看那裡。我看到來自 Gemini 的一些建議回复。現在，這個進化的智慧回复真的很棒的一點是它是上下文相關的。Gemini 理解了那個線程中的來回對話，知道 Jeff 準備開始工作。
所以為我提供了一些基於該上下文的自定義選項。所以，我看到我有拒絕服務，建議一個新時間。我會選擇繼續並確認時間。我可以透過長按查看完整回覆的預覽。這看起來合理，所以我點擊發送。這些新功能將從本月開始向實驗室用戶推出。
[掌聲]。好的。所以工作空間 (Workspace) 應用程式如 Gmail、Drive、Docs、Calendar 的一個真正有趣的地方在於它們如何協同工作，在我們的日常生活中，資訊經常從一個應用程式流向另一個應用程式。比如，從 Gmail 加入日曆條目。或者從電子表格追蹤器中建立提醒。
但如果 Gemini 能使這些過程完全無縫化呢？甚至為你完全自動化它們。讓我用一個現實生活中的例子向你展示我的意思。我姐姐是一名自僱攝影師，她的收件箱裡充滿了預約、收據、客戶對照片的反饋等等。
現在，如果你是自由職業者或小型企業，你真的想專注於你的工作，而不是在記帳和後勤上。所以讓我們看看她的收件箱。很多未讀的電子郵件。讓我們點擊第一封。有一個 PDF 附件。來自酒店，有一張收據。
我看到側邊欄中的一個建議。幫我組織和追蹤我的收據。讓我們點擊這個提示。側邊欄現在會顯示更多關於這意味著什麼的細節，正如你所見，這裡有兩個步驟。步驟一，建立一個 Drive 文件夾，並將這張收據和找到的其他 37 張放入該文件夾中。
有道理。步驟二，將該文件夾中這些收據中的相關資訊提取到一個新的電子表格中。這聽起來很有用。為什麼不呢？我還有選擇編輯這些操作或只是點擊確定。所以讓我們點擊確定。Gemini 現在將完成上述兩步，
這是更好的一點。Gemini 提供選項，自動化這個過程，使這特定的工作流程應用於所有未來的電子郵件，保持你的 Drive 文件夾和費用表格最新，而不需要你的任何努力。[掌聲]。現在，我們知道建立複雜的電子表格對大多數人來說可能是令人生畏的。但有了這種自動化，Gemini 會做所有的繁重工作，從該文件夾中的所有文件中提取所有正確的資訊並產生表格。
所以讓我們來看看。好的。它組織得非常好，甚至有一個費用類型的分類。現在，我們有了這個表格。事情變得更有趣了。我們可以問 Gemini 問題。比如，顯示我的花費情況。
Gemini 不僅分析表格中的數據，還建立了一個漂亮的視覺效果，幫助我看到按類別的完整細分。你可以想像這如何擴展到你的收件箱中的各種用例，如旅行費用、購物、裝修專案等等。所有這些在 Gmail 中的資訊都可以派上用場，幫助你更好地工作、計劃和玩耍。現在，這個特定的功能…[掌聲]。我知道！
這個特定的功能可以在 Drive 中組織你的附件，產生表格並透過問答進行數據分析，將在九月向實驗室用戶推出。這只是我們在工作空間 (Workspace) 中工作的許多自動化之一。Gemini 時代的工作空間 (Workspace) 將繼續解鎖完成事情的新方法。我們正在構建高級代理體驗，包括自定義你如何使用 Gemini。當我們展望 2025 年及以後，我們正在探索與 AI 合作的全新方式。
現在，有了 Gemini，你有了一個 AI 驅動的助手，隨時在你身邊。但如果你能擴展與 AI 互動的方式呢？例如，當我們與其他人合作時，我們在評論和文檔中提到他們，或者發送電子郵件。我們有群聊與他們，等等。這不僅僅是我們如何與彼此合作，我們每個人在團隊中都有特定的角色。
當團隊一起工作時，我們會建立一套集體經驗和上下文，互相學習。我們在需要幫助時可以借鑒的技能集合。所以我們如何將 AI 引入這個混合並建立在這個共享專業知識之上呢？這裡有一種方式。我們正在原型設計一個虛擬的 Gemini 驅動的隊友。

AI Teammate

這個隊友有一個身份和一個工作空間 (Workspace) 帳戶，以及一個特定的角色和目標。讓我請 Tony 上來向你展示我的意思。嗨，Tony！
TONY VINCENT: 嗨，Aparna！大家好。好的。讓我首先向你展示我們如何設置這個虛擬隊友。正如你所見，隊友有自己的帳戶。
我們可以給它起個名字。我們會做些有趣的事情，比如叫 Chip。Chip 被賦予了一個特定和描述，如何對團隊有幫助，你可以在這裡看到，還有一些任務是監控和追蹤專案，我們列出了一些，組織資訊並提供上下文，還有一些其他事情。
現在我們已經配置了我們的虛擬隊友，讓我們看看 Chip 在行動中。為此，我會切換到 Google 聊天。首先，在計劃像 I/O 這樣的活動時，我們有大量的聊天群組，目的各不相同。對我來說幸運的是，chip 在所有這些群組中。
為了快速跟上進度，我可能會問一個問題，比如，有人知道我們的 I/O 分鏡 (storyboards) 是否獲得批准嗎？因為我們指示 Chip 追蹤這個專案，Chip 搜索所有對話，並知道要回應一個答案。這裡有答案。簡單，但非常有幫助。現在，隨著團隊將 Chip 加入到更多群聊、更多文件、更多電子郵件線程中，Chip 會建立我們工作在一起的集體記憶。
讓我們看一個例子。為了展示這一點，我會切換到另一個群組。比如 Project Sapphire，我們在這裡討論即將推出的產品發布，像往常一樣，許多部分仍在進行中，所以我可以問，我們是否按計劃推出？Chip 不僅搜索它有存取權限的所有內容，還綜合找到的內容，並回應最新的答案。
這裡有一個清晰的時間線，一個漂亮的摘要，注意到即使在這第一條消息中，Chip 也標出了團隊應該注意的一個潛在問題。因為我們在一個群組空間中，每個人都可以跟隨，任何人都可以隨時加入，如你所見，有人剛剛加入了。
要求 Chip 幫助建立一個文檔來解決這個問題。這樣的任務可能需要我數小時，數十小時。Chip 可以在幾分鐘內完成所有工作，當文檔準備好時立即發送過來。這種實際幫助來自於我們如何根據團隊需求客製 Chip，以及這個 AI 無縫整合到我們已經在工作的地方。回到你那裡，Aparna。
APARNA PAPPU: 謝謝，Tony！我可以想像企業可以配置不同類型的虛擬隊友，以幫助他們完成需要做的事情。現在，我們有很多工作要做，來弄清楚如何將這些代理體驗如虛擬隊友引入工作空間 (Workspace) ，包括允許第三方建立他們自己的 Chip 版本。
我們對這個發展方向感到興奮，所以請繼續關注。隨著 Gemini 及其功能不斷發展，我們正在努力將這種力量直接引入工作空間 (Workspace) ，讓我們的所有用戶在家裡和工作中更具生產力和創造力。現在，交給 Sissie 告訴你更多關於 Gemini app 的資訊。[掌聲]。

4️⃣ Gemini App

SISSIE HSIAO ²⁰: 我們對 Gemini app 的願景是成為最有幫助的、個人的 AI 助手，透過讓你直接存取 Google 的最新 AI 模型。
Gemini 可以幫助你學習、創造、編程，和你能想像的任何事情。過去一年裡，Gemini 已經將 Google 的 AI 放在數百萬人手中，設計的體驗適合你的手機和網路。我們還推出了 Gemini Advanced，我們的高級訂閱 (premium subscription) 服務，可以存取 Google 的最新 AI 創新。
今天，我們將向你展示 Gemini 如何提供我們最智慧的 AI 體驗。讓我們從 Gemini app 開始，它正在重新定義我們與 AI 的互動方式。它是原生多模態的，所以你可以使用文本、語音或手機相機來自然地表達自己。今夏，你可以使用語音與 Gemini 進行深入對話。
我們稱這種新體驗為「Live」。使用 Google 的最新語音模型，Gemini 可以更好地理解你並自然地回答你。你甚至可以在 Gemini 回應時打斷，並且它會適應你的語音模式。而這僅僅是開始。我們很高興將 Project Astra 的語音遊戲和影片理解能力帶到 Gemini app 中。
當你即時開啟時，你可以打開相機，這樣 Gemini 就能看到你所看到的並即時回應你的環境。現在，我使用 Gemini 的方式和你使用 Gemini 的方式不同。所以我們推出了一個新功能，讓你可以根據自己的需求自定義它。並建立任何主題的個人專家。我們稱這些為「Gems」。[掌聲]。
它們非常簡單設置。只需點擊建立 gem，寫下你的指示一次，然後隨時需要時回來。例如，這裡有一個我建立的 gem，作為個人寫作教練。它專門針對具有神秘轉折的短篇故事，甚至基於我 Google 雲端硬碟中的故事草稿。
我稱它為懸疑結局策展人。現在，當你有特定的方式想與 Gemini 互動時，gems 是一個很好的時間節省工具。gems 將在接下來的幾個月內推出，我們的可信測試者已經發現了很多創造性的方法來使用它們。
它們可以作為你的瑜伽摯友，你的個人副廚，一個腦力過人的微積分導師，你的程式碼同儕審查員，等等。接下來，我將向你展示 Gemini 如何更接近成為一個真正的 AI 助手，透過計劃和為你行動。我們都知道聊天機器人可以給你提供下一次假期的想法。

Miami Tour

但計劃一次偉大的旅行還有很多事情要做。這需要考慮時空邏輯的推理，以及優先排序和做決策的智慧。這些推理 (reasoning) 和智慧 (intelligence) 都匯聚在新的 Gemini Advanced 旅行計劃體驗中。現在，一切都從一個提示開始。好吧。開始了。
我們要去邁阿密。我兒子喜歡藝術，我丈夫喜歡海鮮，我們的航班和酒店資訊已經在我的 Gmail 收件箱中。這個提示中有很多事情要考慮。每個人都有自己的事情想做。為了理清這些變量，Gemini 先從搜尋中收集各種資訊，以及地圖和 Gmail 這樣的有用擴展。

Ernest Notes: 雖然這個故事是前往邁阿密，但我留意到畫面中的 Ceviche 這道菜色，在加州灣區可以前往例如 LUNA Mexican Kitchen 可以品嚐 <3

它使用這些數據建立一個可能的旅行選項的動態圖 (dynamic graph)，考慮到我的所有優先事項和限制。最終結果是一個個人化的假期計劃，呈現在 Gemini 的新動態用戶界面中。根據我的航班資訊，Gemini 知道我需要一個兩天半的行程。你可以看到 Gemini 如何使用空間數據做決策。
我們的航班在下午晚些時候到達，所以 Gemini 略過了當天的大活動，找到了一家靠近我們酒店的高評價海鮮餐廳。現在，星期天，我們有一個緊湊的一天。我喜歡這些建議，但我的家人喜歡睡懶覺。所以我點擊更改開始時間，就這樣，Gemini 調整了我剩下的行程。
它將我們的步行遊移到了第二天，並加入了靠近街頭藝術博物館的午餐選項，以充分利用我們的星期天下午。這看起來很棒！這將需要我數小時的工作，檢查多個來源，弄清楚時間表，而 Gemini 在短時間內完成了這些。這個新的旅行計劃體驗將在今年夏天推出給 Gemini Advanced，用來幫助你計劃自己的勞動節週末。[掌聲]。

Gemini Advanced

好吧。我們把最好的留到了最後。你早些時候聽 Sundar 說今天開始，Gemini Advanced訂閱者可以存取 Gemini 1.5 Pro，擁有 100 萬個 token。這是世界上上下文窗口最長的聊天機器人。[歡呼和掌聲]。這在 AI 中解鎖了令人難以置信的新潛力，所以你可以處理以前難以想像的複雜問題。
你可以上傳最多 1500 頁的 PDF，或多個文件以獲得專案的見解。不久，你可以上傳多達 30,000 行程式碼，甚至一小時長的影片。Gemini Advanced是唯一允許你處理這麼多資訊的聊天機器人。現在，想像一下這對學生有多有用。
假設你花了幾個月的時間在你的論文上，你真的需要一個新視角。你可以上傳你的整個論文，你的來源、筆記、研究，並且不久後也能上傳訪談、音訊錄音和影片。這樣 Gemini 就有了所有這些上下文，可以給你提供可行的建議。它可以剖析你的要點，找出改進之處，甚至模擬你的教授角色扮演。
讓你對你的工作充滿信心。看看 Gemini Advanced如何處理你的電子表格，新的數據分析功能即將在幾周內推出。也許你有一個副業，銷售手工製品。但你是一個比會計更好的藝術家，很難理解哪些產品值得你花時間。
只需上傳所有你的電子表格，讓 Gemini 可視化你的收入並幫助你理解你的利潤。Gemini 開始計算你的回報，並將其分析整理成一個圖表，讓你輕鬆理解哪些產品真的賺錢。現在，在背後，Gemini 寫了自定義的 Python 程式碼來計算這些數字。
當然，你的文件不會被用來訓練我們的模型。哦，還有一件事。今年晚些時候，我們將把長上下文窗口擴展到 200 萬個 token (2M tokens)。[歡呼和掌聲]。我們非常期待你自己試用所有這些。Gemini 正在以突破性的速度不斷發展和改進。
我們正在使 Gemini 更加多模態、更加代理和更加智慧，具有處理世界上任何聊天機器人最多資訊的能力。正如你早些時候聽到的，我們也在將 Gemini Advanced擴展到超過 35 種支持語言，從今天開始提供.。[掌聲]。
但當然，使 Gemini 如此引人注目的原因是你可以透過一個簡單的提示來做你想做的任何事情。讓我們來看看。
輸入提示。好吧。這不會很難。產生一張貓彈吉他的圖片？這樣可以嗎？我在做 AI 嗎？是的。
只要你打字，它就會做。最後時刻的禮物製作想法？計劃一個鍛煉計劃來增大小腿肌肉。幫我想想我的回憶錄的標題。關於雷諾阿有什麼聰明的話可以說？再產生一張貓彈吉他的圖片。如果一個女孩說我像點心，我該怎麼回答？是的，就是這樣。
你在做 AI。讓這封電子郵件聽起來更專業再發送。取消與朋友共進晚餐的好藉口是什麼？我們實際上正坐在這裡。沒有錯誤的提示方式。是的，你在做 AI。沒有錯誤的提示方式。它做你打字的任何事情。
只需在提示欄中提示你的提示。或者只產生一張貓彈吉他的圖片。你知道它還可以做其他事情吧？[掌聲]。

5️⃣ Android

Circle to Search

SAMEER SAMAT ²¹: 大家好。很高興回到 Google I/O。今天，你已經看到了 AI 如何在 Gemini、搜尋、工作空間 (Workspace) 等方面改變我們的產品。
我們將所有這些創新帶到你的 Android 手機上。而且我們走得更遠，讓 Android 成為體驗 Google AI 的最佳場所。這個新的 AI 時代是讓智慧手機真正智慧的深刻機會。我們的手機在短時間內走了很長一段路，但如果你想想看，用戶體驗已經多年沒有根本改變了。
這是一次千載難逢的時刻，重新定義手機可以做什麼。所以我們著手進行一個多年的旅程，以 AI 為核心重新想像 Android。這從今年你將看到的三個突破開始。
首先，我們將 AI 驅動的搜尋 (AI-powered search)放在你的指尖，創造全新的方式來獲取你需要的答案。
第二，Gemini 正在成為你在 Android 上的新 AI 助手，隨時為你提供幫助。
第三，我們正在利用設備上的 AI (on-device AI) 解鎖新的體驗，以你的速度工作，同時保持你的敏感數據隱私。
讓我們從 AI 驅動的搜尋開始。今年早些時候，我們在三星 Unpacked 上邁出了重要的第一步，推出了 Circle to Search。
它將搜尋的最佳功能直接引入用戶體驗。所以你可以深入了解你在手機上看到的任何內容，而無需切換應用程式。時尚愛好者正在找到完美的鞋子，家庭廚師正在發現新的食材，隨著我們最新的更新，翻譯屏幕上的任何內容從未如此簡單，如另一種語言的社交帖子。
還有更多 Circle to Search 可以幫助的方式。我們從學生那裡聽到的是他們更多地直接在手機和平板上做功課。所以，我們想: Circle to Search 能成為你完美的學習夥伴嗎？假設我兒子需要幫助解決一個棘手的物理單詞問題，比如這個。
我的第一個想法是，天哪，已經很久沒有想過運動學了。如果他在這個問題上卡住了，而不是讓我當場回答，他可以圈選他卡住的確切部分並獲得逐步說明。就在他已經在做作業的地方。當然，最終速度等於初始速度加上加速度乘以經過時間。
是的。我剛才正想說。認真地說，我喜歡它展示如何解決問題，而不僅僅是答案。這個新功能今天可用！今年晚些時候，Circle to Search 將能處理更複雜的問題，包括符號公式、圖表等。
Circle to Search 只在 Android 上。它今天已經在超過 1 億台設備上可用，我們計劃到今年年底將這一數字翻倍。[歡呼和掌聲]。
你已經從 Sissie 那裡聽到了關於即將到來的 Gemini app 的令人難以置信的更新。在 Android 上，Gemini 不僅僅如此。它正在成為 Android 體驗的基礎部分。
這裡是 Dave，向你分享更多資訊。[掌聲]。

Demo: Gemini on Android

DAVE BURKE ²²: 大家好。幾個月前，我們在 Android 上推出了 Gemini。像 Circle to Search 一樣，Gemini 在系統層面工作。所以我不需要去一個單獨的應用程式，我可以將 Gemini 帶到我正在做的事情上。現在，我們使 Gemini 具有上下文感知能力，所以它可以預測你正在嘗試做什麼，並在此刻提供更有幫助的解決方案。
換句話說，成為一個更有幫助的助手。所以讓我向你展示這是如何工作的。我有我的閃亮新 Pixel 8a 在這裡幫助我。[掌聲]。我的朋友 Pete 正在問我這個週末是否想玩 pickleball。我知道如何打網球，有點。我得說這是為了演示。
但我對這個 pickleball 還是新手，所以我回應並試圖搞笑，說這像網球但有泡菜嗎？這實際上會更好笑如果有一個 meme，所以讓我帶上 Gemini 幫助，說建立一張網球和泡菜的圖片。現在，你會注意到的新一點是 Gemini 窗口懸浮在應用程式上方，所以我保持在流程中。好的。
所以我產生了一些相當不錯的圖片。很好的是我可以直接拖放其中任何一張到下面的消息中。很酷，讓我發送那個。[掌聲]。好的。Pete 正在打字，他發送了一個關於如何打 pickleball 的影片。好的。謝謝，Pete。讓我點擊那個。
這啟動了 YouTube，但我只有一兩個關於這個遊戲的燃眉之急的問題。我可以帶上 Gemini 幫助，因為它有上下文感知，Gemini 知道我在看影片，所以它主動顯示了一個「問這個影片 (Ask this video)」的提示。所以讓我點擊那個。現在，我可以對影片問具體問題。
例如，什麼是雙跳規則？因為這是我聽說過但不太理解的遊戲規則。順便說一下，這使用了 YouTube 字幕等信號，這意味著你可以在數十億個影片上使用它。給它一點時間，好了。我得到了一個簡潔的答案。
球必須在每邊場地的發球後各彈一次。好的。讓我回到消息，Pete 跟進了，說，你是工程師，所以這是 pickleball 的官方規則書。謝謝，Pete。Pete 非常有幫助，順便說一下。好的。讓我們點擊那個。
這啟動了一個 PDF，這是一個 84 頁的 PDF。我不知道 Pete 認為我有多少時間。無論如何，作為工程師，你們都知道，我們喜歡聰明地工作，而不是辛苦工作，所以與其翻遍整個文件，我可以帶上 Gemini 幫助。再一次，Gemini 預測到我的需要，並提供了一個問這個 PDF 的選項。
所以如果我點擊那個，Gemini 現在吸收所有規則成為 pickleball 專家，這意味著我可以問非常深奧的問題，比如，旋轉發球是否允許？讓我們點擊那個，因為我聽說那條規則可能會改變。現在，因為我是 Gemini 高級用戶，這適用於任何 PDF，充分利用長上下文窗口，這有很多用途。
例如，假設你在一個家電用戶手冊中尋找快速答案。你看到了。事實證明，不，旋轉發球不允許。所以 Gemini 不僅給我一個清晰的答案，還告訴我在 PDF 中的確切位置，了解更多。太棒了。好的。
這是我們增強 Gemini 使其在當下更具上下文感知和幫助的幾種方式。你在這裡看到的是 Gemini 將在系統層面解鎖新體驗的第一批方式，這些僅在 Android 上可用。你將在未來幾個月內看到這些和更多內容來到數億台設備。
將 Google AI 直接內建到操作系統中提升了整個智慧手機體驗。Android 是首個內置設備上基礎模型的移動操作系統。這讓我們可以將資料中心的 Gemini 好處帶到你的口袋中。所以體驗更快，同時保護你的隱私。
從今年晚些時候的 Pixel 開始，我們將擴展我們最新模型的可能性，稱為 Gemini Nano 的多模態。這意味著你的手機可以以你理解的方式理解世界。所以不僅透過文本輸入，還透過視覺、聲音和語言。讓我給你一個例子。
22 億人有視力或低視力問題。幾年前，我們開發了 TalkBack，一個幫助人們透過觸摸和語音反饋導航手機的輔助功能。幫助處理圖像特別重要。事實上，我的同事 Karo 使用 TalkBack，每天通常會遇到 90 張未標記的圖像。
幸好，TalkBack 讓它們變得可存取，現在我們將其提升到新的水平，使用 Gemini Nano 的多模態功能。所以當有人發送 Karo 一張照片時，她會得到更豐富和清晰的描述發生了什麼。或者，假設 Karo 正在網上購物尋找一套衣服。
現在她可以得到風格和剪裁的清晰描述，以找到完美的款式。在設備上運行 Gemini Nano 有助於最小化延遲，模型甚至在沒有網路連接時也能工作。這些對 TalkBack 的改進將在今年晚些時候推出。讓我給你看另一個設備上 AI 解鎖的例子。
去年，人們因欺詐損失了超過一萬億美元。隨著騙局在文本、電話甚至影片中不斷演變，Android 可以幫助你防範壞人，無論他們如何嘗試接觸你。假設我在演示中被一個未知來電粗魯打斷。[電話鈴聲]。
你好！
你好。我是 Save More 銀行安全部門的。請問是 Dave 嗎？
DAVE BURKE: 是的，我是 Dave。我現在有點忙。
我們發現了你帳戶上有一些可疑活動。看起來有人試圖進行未授權的消費。
DAVE BURKE: 哦，是嗎？什麼樣的消費？
我不能透過電話給你具體細節，但為了保護你的帳戶，我會幫你將錢轉移到我們為你設立的安全帳戶。[笑聲]。
DAVE BURKE: 看這個，我的手機警告我這個電話可能是詐騙！[掌聲]。
Gemini Nano 在檢測到可疑活動的瞬間警告我，比如銀行要求我轉移錢款以確保安全。一切都在我的手機上發生，所以音訊處理完全私密地保留在我的設備上。我們目前正在測試這個功能，並將在夏末分享更多更新。
我們真的只是很粗淺地讓大家感覺一下在設備上 AI 解鎖的快速、隱私體驗。今年晚些時候，Gemini 將能夠更深入理解你屏幕上的內容，而無需任何資訊離開你的手機，這得益於設備上的模型。所以，記得之前的 pickleball 例子嗎？Gemini 在 Android 上將能夠自動理解對話並提供相關建議，比如在哪裡找到附近的 pickleball 俱樂部。
這是一個強大的概念，將在你的手機上跨越許多應用程式工作。事實上，今天下午在開發者主題演講中，你將聽到我們如何用我們最新的 AI 模型和工具如 Gemini Nano 和 Android Studio 中的 Gemini 來賦能我們的開發者社區。
另外，請關注明天即將推出的 Android 15 更新，我們迫不及待想與你分享。正如我們在開頭所說，我們正在以 Gemini 為核心重新想像 Android。從你最喜愛的應用程式到操作系統本身，我們將 AI 的力量帶到智慧手機體驗的每一個方面。現在，讓我將話筒交給 Josh 分享我們的最新開發者新聞。

6️⃣ Developer Updates

Gemini & AI Studio

謝謝你。[掌聲]。
JOSH WOODWARD ²³: 看到 Gemini Nano 直接在 Android 上做這些事情真是太棒了。這一直是我們的計劃，建立一個本地多模態的 Gemini，有多種尺寸供大家選擇，讓你們所有人作為開發者選擇最適合你們的。
今天上午，你已經聽到了很多關於我們的 Gemini 1.5 系列的資訊，我想談談你今天可以存取的兩個模型。1.5 Pro，它正在進行一系列質量改進，馬上就會推出，和全新的 1.5 Flash。這兩個模型在全球 200 多個國家和地區都可用。[歡呼和掌聲]。
你可以去 AI Studio 或者 Vertex AI，如果你是 Google 雲端客戶，可以試用它們。現在，這兩個模型也都是本地多模態的。這意味著你可以交錯文本、圖像、音訊、影片作為輸入，並打包那個巨大的 100 萬個 token 的上下文窗口。如果你今天去 ai.google.dev，可以註冊試用 1.5 Pro 的 200 萬個 token 上下文窗口。
我們還增加了許多新的開發者功能，首先是影片幀提取。這將在 Gemini API 中，並行函數呼叫，所以你可以一次返回多個函數呼叫，我最喜歡的是上下文快取，所以你可以一次將所有文件發送到模型，而不必重複發送。
這應該使長上下文更有用，更實惠。下個月釋出。[掌聲]。現在，我們正在使用 Google 的基礎設施來提供這些模型，所以像你們所有的開發者可以獲得很好的價格。1.5 Pro 是每百萬個 token 7 美元，我很高興地分享，對於 128K 以內的提示，將減少 50%，為 3.50 美元。
1.5 Flash 將從 35 美分開始，每百萬個 token。[歡呼和掌聲]。現在，你可能想知道哪個模型最適合你的使用案例？這是我的看法。我們使用 1.5 Pro 來處理複雜的任務，這些任務你真的需要最高質量的回應，並且可以接受回應時間稍長一點。
我們使用 1.5 Flash 來處理快速任務，這些任務模型的速度是最重要的。作為開發者，你可以今天試用它們，看看哪個最適合你。現在，我將向你展示它在 AI Studio 中的工作方式，這是構建 Gemini 的最快方法。我們會拉起來，你可以看到這是 AI studio。
它是免費使用的。你不需要配置任何東西來開始。只需前往 AIstudio.google.com 登入你的 Google 帳戶，然後選擇右邊最適合你的模型。所以我們一直在使用 1.5 Flash 來實際了解一些我們實驗室產品的客戶反饋。
Flash 使這成為可能，因為它的低延遲。所以我們在這裡所做的是將來自我們客戶論壇的不同反饋放入 Flash，載入提示，然後運行。現在，在後台，它會透過 93,000 個 token 的資訊，你可以在這裡看到開始流回。
這真的很有幫助，因為它為我們提取了主題。它給了我們所有可以開始查看的正確地方。我們可以看到這是來自一些我們展示過的 NotebookLM 的好處。現在，這的好處是你可以在 AI Studio 中將這些原型製作，在十秒鐘內，然後在左上角一鍵獲得 API 金鑰，或者在右上角點擊獲取程式碼，你就有了所有的模型配置，安全設置，準備好，直接進入你的 IDE。
隨著時間的推移，如果你發現你需要更多企業級功能，你可以在 Vertex AI 中使用相同的 Gemini 1.5 模型和相同的配置。這樣，你可以隨著企業需求的增長，在 Google 雲端中擴展。這就是我們全新的 Gemini 1.5 Pro 和新的 1.5 Flash，它們今天在全球都可用，稍後在開發者主題演講中，你將聽到更多關於它們的資訊。[掌聲]。

Gemma

現在，讓我們轉換話題，談談 Gemma，我們的開放模型家族，這對推動 AI 創新和責任至關重要。Gemma 基於與 Gemini 相同的研究和技術。
它提供頂級性能，並且有輕量級的 7b 和 2b 尺寸。自三個月前推出以來，它已在所有主要模型中心下載了數百萬次。開發者和研究人員一直在使用它，自定義基礎 Gemma 模型，並使用我們的一些預訓練變體，如 RecurrentGemma 和 CodeGemma，今天最新的成員，PaliGemma，我們的第一個視覺語言模型，現在可用。
[掌聲]。它針對圖像字幕、視覺問答和其他圖像標記任務進行了優化，去試試吧。我還很高興地宣布，我們即將推出 Gemma 2。這是 Gemma 的下一代，將於六月推出。我們聽到開發者的一個主要請求是更大的 Gemma 模型，但仍然適合大家使用的尺寸。
所以在幾周內，我們將向 Gemma 2 加入一個新的 270 億參數模型，這是它的優點。這個尺寸由 Nvidia 優化，以運行在下一代 GPU 上，並能在 Vertex AI 的單個 TPU 主機上高效運行。這種質量到尺寸的比例令人驚訝，因為它將超過比它大兩倍的模型性能。
我們迫不及待想看看你們會用它做什麼。[掌聲]。最後，我想分享這個來自印度的鼓舞人心的故事，開發者們一直在使用 Gemma 及其獨特的 token 化來建立 Navrasa，一組指令調優模型，擴展對 15 種印度語言的存取。
這建立在我們努力使資訊在世界上 7,000 多種語言中可存取的基礎上。看看這個。
AASHI: 語言是一個有趣的問題，實際上，考慮到印度有巨大的語言多樣性，每五公里就會改變。
HARSH: 當技術是為特定文化開發時，它將無法解決和理解像印度這樣的國家的細微差別。
Gemma 的一個特點是一個非常強大的 tokenizer，能夠讓模型使用成千上萬的單詞、符號和字母表和語言系統中的字符。這個大詞彙量對於適應 Gemma 推動 Navrasa 這樣的專案至關重要。
RAMSRI: Navrasa 是一個針對印度語言訓練的模型。它是一個基於 Google 的 Gemma 的微調模型。我們建立 Navrasa 使大型語言模型具有文化根基，人們可以用母語交談，並用母語得到回應。我們最大的夢想是建立一個包含印度各地所有人的模型。
GAURAV: 我們需要一種技術來利用 AI，使每個人都能使用，沒有人被排除在外。
HARSH: 今天，你說的語言可以成為你用來解決現實世界問題的工具和技術。這是我們希望帶到印度每個角落和全世界的產生 AI 的力量。
[掌聲]。[歡呼和掌聲]。

7️⃣ Responsible AI

JAMES MANYIKA ²⁴: 聽到今天宣布的所有內容，很明顯 AI 已經在幫助人們，從他們的日常任務到他們最雄心勃勃、生產力和創造力的努力。我們的 AI 創新，如多模態、長上下文和代理，是這項技術能做什麼的前沿，將其幫助人們的能力提升到一個全新水平。
然而，隨著任何新興技術的發展，隨著 AI 的進步及其用途的演變，仍然存在風險和新的問題。在應對這些複雜問題時，我們遵循我們的 AI 原則，並從用戶、合作伙伴和我們自己的研究中學習。對我們來說，負責任地構建 AI 意味著既要應對風險，又要最大化對人類和社會的好處。
讓我首先介紹我們為應對風險所做的工作。在這裡，我想重點介紹我們如何改進我們的模型並保護它們免於濫用。除了 Demis 早些時候分享的內容外，我們還透過一種行業標準做法稱為紅隊測試來改進我們的模型，在這種做法中，我們測試自己的模型並嘗試破解它們以識別其弱點。
在這項工作之上，我們正在開發一種前沿技術，稱為 AI 協助的紅隊測試。這汲取了 Google DeepMind 的遊戲突破，如 AlphaGo，我們訓練 AI 代理相互競爭並提高和擴展其紅隊測試能力的範圍。我們正在開發具有這些能力的 AI 模型，以幫助解決對抗性提示和限制有問題的輸出。
我們還透過來自兩個重要群體的反饋改進我們的模型: 數千名擁有多學科背景的內部安全專家，以及來自學術界到民間社會的各種獨立專家。這兩個群體幫助我們識別新興風險，從網路安全威脅到化學生物等領域的潛在危險能力。
將人類洞察力與我們的安全測試方法結合起來，將有助於使我們的模型和產品更準確、可靠和安全。這一點尤其重要，因為技術進步，如更好的語調，使與 AI 的交互感覺和聽起來更像人類。我們在這個領域進行了大量研究，包括潛在的危害和濫用。
我們還在開發新工具，以幫助防止我們模型的濫用。例如，Imagen 3 和 Veo 建立了更現實的圖像和影片，我們還必須考慮它們可能如何被濫用來傳播錯誤資訊。為此，去年我們推出了 SynthID，一種向我們的 AI 產生圖像和音訊加入不可見水印的工具，以便更容易識別。
今天，我們正在將 SynthID 擴展到兩種新模態: 文本和影片。這些發布建立在我們努力部署最先進的水印能力在多個模態上的基礎上。展望未來，我們將繼續整合如水印等進步和其他新興技術，以確保我們最新一代的 Gemini、Imagine、Lyria 和 Veo 模型的安全。
我們還致力於與生態系統合作，與你們所有人合作，幫助其他人建立在我們正在取得的進步之上。在未來幾個月，我們將開源 SynthID 文本水印。這將在我們更新的負責任產生 AI 工具包中提供，我們建立這些工具包是為了使開發者更容易負責任地構建 AI。
我們還與 Adobe、Microsoft、初創公司和許多其他公司合作，支持 C2PA，建立和實施一個標準，以提高數字媒體的透明度。現在，讓我們轉向我們負責任 AI 方法的第二個同樣重要的部分: 我們如何構建 AI 以造福人類和社會。
今天，我們的 AI 進步正在幫助解決現實世界中的問題，如加速 190 個國家的 180 萬科學家的工作，他們使用 AlphaFold 研究被忽視的疾病等問題。幫助預測 80 多個國家的洪水。並幫助像聯合國這樣的組織使用資料共同體追蹤世界的 17 個可持續發展目標的進展。
現在，產生 AI 正在解鎖我們使世界資訊和知識對學習普遍可存取和有用的新方法。數十億人已經在使用 Google 產品學習每一天，產生 AI 正在開啟新的可能性，讓我們能夠提出這樣的問題: 如果每個人無論身在何處都能擁有自己的個人 AI 導師，討論任何話題呢？或者，每個教育者都能擁有自己的課堂助手呢？今天標誌著 Google 學習和教育的新篇章。我很高興介紹 LearnLM，我們的新模型家族，基於 Gemini，並針對學習進行微調。LearnLM 根植於教育研究，使學習體驗更加個性化和有吸引力。它將來到你每天使用的產品中。如搜尋、Android、Gemini 和 YouTube。事實上，當它在 Android 上幫助 Sameer 解決兒子的家庭作業時，你已經在今天的舞台上看到了 LearnLM。
現在，讓我們看看它在 Gemini app 中的工作原理。早些時候，Sissie 介紹了 Gems，Gemini 的自定義版本，可以作為任何主題的個人輔助專家。我們正在開發一些預製的 Gems，它們將在 Gemini app 和網頁體驗中提供，包括一個名為學習教練的 Gem。使用學習教練，你可以獲得逐步的學習指導，以及有助於理解而不僅僅是給出答案的練習和記憶技巧。
假設你是一名大學生，在為即將到來的生物學考試學習。如果你需要記住光合作用公式的技巧，學習教練可以幫助你。學習教練以及其他預製的 gems 將在接下來的幾個月內在 Gemini 中推出。你可以想像像 Gemini Live 這樣的功能將為學習解鎖什麼。
另一個例子是一個新的 YouTube 功能，它使用 LearnLM 使教育影片更具互動性，允許你提出澄清問題，獲得有用的解釋，或者參加測驗。這甚至適用於那些長篇講座或研討會，這得益於 Gemini 模型的長上下文能力。
這個 YouTube 功能已經開始向選定的 Android 用戶推出。隨著我們努力將 LearnLM 擴展到我們自己的產品之外，我們正在與哥倫比亞師範學院、亞利桑那州立大學和可汗學院等機構和專家合作，測試和改進我們模型的新學習功能。
我們還與 MIT RAISE 合作開發了一門在線課程，幫助教育者更好地理解和使用產生 AI。我們還直接與教育者合作，使用 Learn LM 構建更有用的產生 AI 工具。例如，在 Google Classroom 中，我們利用你今天聽到的進步，開發新的方法來簡化和改進課程計劃，並使教師能夠根據學生的個別需求客製課程和內容。
站在這裡，讓我想起了我自己本科時期。那時，AI 被認為是投機性的，與任何現實世界的用途相去甚遠。今天，我們可以看到已經有多少是真實的，已經有多少在幫助人們，從他們的日常任務到他們最雄心勃勃、生產力和創造力的努力，還有多少仍然有待實現。這就是激勵我們的。
我對未來感到興奮，以及我們將與你們所有人一起建立的東西。回到你身邊，Sundar。[掌聲]。

Closing

SUNDAR PICHAI: 謝謝，James。所有這些都展示了我們在採取大膽和負責任的方法使 AI 對每個人有幫助方面所取得的重要進展。在我們結束之前，我感覺有人可能在計算今天提到 AI 的次數。
[笑聲]。既然今天的一個大主題是讓 Google 為你工作，我們已經幫你計算了，所以你不必計算。[歡呼和掌聲]。這可能是說 AI 次數最多的一次。我很想再多說幾次。但我不會。無論如何，這個計數不僅僅是一個笑話。
它反映了一些更深層次的東西。我們長期以來一直以 AI 為先導的方式。我們數十年的研究領導開創了許多現代突破，推動了 AI 的進步，對我們和對行業都是如此。除此之外，我們擁有為 AI 時代打造的世界領先的基礎設施，在搜尋中進行的前沿創新，現在由 Gemini 提供支持，我們的產品在非凡的規模上提供幫助，包括十五款擁有超過五億用戶的產品，以及使每個人，包括合作伙伴、客戶、創作者和所有人，去發明未來。這些進步只有透過我們令人難以置信的開發者社區才有可能。你們透過每天構建的體驗將其變為現實。所以，對於這裡在 Shoreline 的每個人以及全球數百萬的觀眾來說，這是對未來可能性的敬意，並共同創造它們。謝謝你們。
[歡呼和掌聲]。
這讓你想起了什麼？
貓。
哇。
哇！
好的！
當所有這些工具結合在一起時，它是一個強大的組合。
這太棒了。
這太棒了。這是一整套不同種類的可能性。
嗨。
我是 Gemini。
你認為我在哪個街區？
這似乎是倫敦的國王十字區。
我們一起創造了一個新時代。

Reference

Shoreline Amphitheatre - Wikipedia ↩︎
時代巡迴演唱會（英語：The Eras Tour）是美國創作歌手泰勒絲舉辦的第六次巡迴演唱會, 泰勒絲將其稱之為貫穿她全部音樂「時代」的旅程以致敬她出道以來發行的全部錄音室專輯。時代巡迴演唱會 - 維基百科，自由的百科全書 ↩︎
脈絡拆解: AWS re:Invent 2020 Andy Jassy Keynote ↩︎
The Cheesecake Factory - Wikipedia ↩︎
Gemini Advanced - get access to Google’s most capable AI model ↩︎
NotebookLM: How to try Google’s experimental AI-first notebook ↩︎
Demis Hassabis, CEO of DeepMind Technologies. Demis Hassabis - Wikipedia ↩︎
脈絡拆解: NVIDIA GTC 2024 主題演講 - NVIDIA 執行長黃仁勳 ↩︎
Google AI Studio | Google AI for Developers | Google for Developers ↩︎
Vertex AI with Gemini 1.5 Pro and Gemini 1.5 Flash | Google Cloud ↩︎
Project Astra - Google DeepMind ↩︎
LABS.GOOGLE ↩︎
脈絡拆解: NVIDIA GTC 2024 主題演講 - NVIDIA 執行長黃仁勳 ↩︎
為什麼 Google Search 這個產品可以決定「可以隨時退貨」這件事？ ↩︎
VP, Head of Google Search.
Elizabeth Reid | LinkedIn
Google promotes Liz Reid to head of Search
Liz Reid is the new head of Google Search - The Verge ↩︎
分數機制, Ernest PKM Workflow ↩︎
有時有 s、有時沒有 s？ AI Overviews？ AI Overview？好奇 Google 內部跨部門怎麼推動 Gemini 到各個產品線中，並做到保持對外溝通的素材同步。 ↩︎ ↩︎
Try experiments in Search Labs - Android - Google Search Help ↩︎
VP & GM, Google Workspace at Google ↩︎
Sissie Hsiao, VP & GM, Google Assistant at Google
Sissie is a Vice President at Google and General Manager for Google Assistant’s business unit. She is an innovator at heart, and her areas of expertise include transforming products and businesses with cutting edge application of technology and machine learning. Prior to leading the Assistant team, Sissie was responsible for building and scaling Google’s global advertising business in Apps, Video, and Display, leading a portfolio of advertiser and publisher facing products across R&D and go-to-market. Prior to Google, Sissie was a Lead Program Manager at Microsoft, launching multiple versions of Microsoft Office PowerPoint. She has a BS in Electrical Engineering and Computer Science from University of California, Berkeley, and is a passionate lifelong gamer.
Sissie Hsiao ↩︎
Sameer Samat, President, Android Ecosystem at Google. ↩︎
Dave Burke, Vice President of Engineering, Android Platform ↩︎
Josh Woodward, Senior Director, Product Management, Google Labs ↩︎
James Manyika, SVP, Research, Technology & Society, Google. - James Manyika - Wikipedia ↩︎