還以為 ChatGPT 會一直穩坐第一?這周卻來了個反轉。
Google Gemini 憑借最近爆火的 Nano Banana 圖像編輯,一舉登頂 App Store 免費榜,把 ChatGPT 擠到第二。

▲ Gemini 位于 App Store 免費榜所有類別第一,圖片來源:https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025
這意味著,Google 終于迎來了屬于自己的「爆款 AI 時刻」。
而且,Gemini 只是冰山一角。Google 手里還有一整套 AI 工具,從寫作、畫圖,到學習筆記、視頻生成,應有盡有。今天就帶你開箱 Google 的「AI 全家桶」。
省流版:
Gemini,定位和 ChatGPT 一樣的通用助手:包含了 nano banana(近期熱門生圖模型)、Canvas 畫布、Veo3 視頻生成、Storybook 故事板、以及 Deep Research 等功能,目前提供 Gemini 2.5 Pro 和 Flash 兩個模型。體驗地址:gemini.google.com
NotebookLM,能深入研究的知識庫:最多可上傳 300 個文件,能將文檔總結為音頻、視頻、思維導圖等六種類型,是學習和研究的最佳利器。體驗地址:notebooklm.google
Flow,高質量的視頻生成:支持豎屏 9:16、1080p 高清,價格更低,免費用戶每月送 100 積分。體驗地址:flow.google
AI Mode,搜索也有了推理和思考能力:在 Google 搜索輸入框就能直接開啟,獲取比 AI Summary/Overview(總結)更嚴謹和翔實的結果;目前支持英文等五種語言(但目前不包含中文)。體驗地址:google.com/ai
Gemini CLI:一個萬能的本地助手:不只是開發工具,還能下視頻、轉 GIF、壓縮文件。體驗地址:github.com/google-gemini/gemini-cli
AI Studio 和 Labs Google:其他有意思的小工具,生成一段音樂,簡單學習一門新的語言,體驗最新、最全的 Google 大語言模型……體驗地址:ai.dev 和 labs.google
Gemini:不只會聊天,更是全能工作臺
近期爆火的 nano banana,最主要的官方渠道除了網頁版,就是 Gemini App。

▲ Gemini 首頁,有常駐提醒推廣 nano banana 圖像編輯模型
但如果你只拿 Gemini 來 P 圖,那就太浪費了。它和 ChatGPT 一樣,補齊了跨對話的「記憶」功能,并能與 Google 生態無縫銜接。

▲ Gemini 的「記憶」功能
對我而言,這個關鍵更新,加上教育郵箱贈送的 Pro 會員,足以讓我將大部分日常對話轉移過來。
Google 最近更新了 Gemini 免費和付費用戶具體的使用限制。免費用戶使用 Gemini 2.5 Pro 和 Deep Research 的次數有限,但是 nano banana 的單價非常便宜,所以免費用戶也有慷慨的 100 張生成機會。

▲ 圖片來源:https://support.google.com/gemini/answer/16275805
Gemini 2.5 Pro 最大的優點是,每個回答都會有像 DeepSeek 一樣清晰的推理過程,但是速度要快上不少。這在 ChatGPT 更新到 GPT-5 之后,采用全新的路由控制,自動選擇模型,優勢更為明顯。
因為 ChatGPT 有時候判斷不了,我到底希望他使用什么模型來回復;而我的表達,也不是每一次都能清晰地,讓模型知道我的意圖。

不過,更會聊天的代價是更不會干活,和 LMArena 顯示的排行榜一樣,文本能力第一,但是網頁的開發能力不及 GPT 和 Claude。好在這些天,Google 也是狂給 Gemini 打補丁,在軟件交互上,用戶體驗越來越好。

▲Gemini 和 ChatGPT 完成同一個開發任務,你喜歡哪個
例如,在網頁開發方面,Gemini Canvas 現已支持直接點選應用中的某個元素,用自然語言即可進行修改。
Canvas 畫布和 ChatGPT 的畫布預覽是一樣的功能,都是非常直觀地,把我們的創意,變成應用程序、游戲、信息圖表等內容。

▲ Gemini 畫布新增功能,選擇并詢問。現在只需點擊元素并描述所需更改,即可直觀地編輯您的網頁應用的任何部分。圖片來源:https://x.com/GeminiApp/status/1965475292526551105
其次,Gemini 終于支持上傳音頻文件。這意味著,會議錄音、采訪視頻等包含豐富上下文的材料,可以直接交給 Gemini 處理,省去了手動整理和編寫復雜提示詞的麻煩。

▲ ChatGPT 一直回復無法使用工具
最新消息,根據 flowith 創始人 Derek Nee 和 Gemini 3 工程師團隊的交流,他發 X 透露,Gemini 3.0 Flash 的能力將會超過 2.5 Pro。

▲ 圖片來源:https://x.com/DerekNee/status/1965811795559653506
和 ChatGPT 使用的條件類似,Gemini 對谷歌賬號的歸屬地可能有額外的限制。
體驗地址:gemini.google.com
NotebookLM:你的最佳個人知識庫
收藏了一堆英文長文、書摘,結果總是「下次再看」?NotebookLM 就是專門拯救這些吃灰資料的。
你只要把幾篇文章、報告甚至書摘丟進去,它就能:
自動幫你提煉要點,生成一份條理清晰的學習筆記;
如果你喜歡可視化,還能直接畫成思維導圖,讓你一眼看懂文章框架;
想進一步學習?它還能基于這些資料出小測驗,逼你復習鞏固。
舉個例子,我之前用它來整理過論文,NotebookLM 最多支持上傳 300 個文件,支持的文件類型也很豐富,PDF、txt、Markdown、和音視頻文件,它都能識別。

▲ 我將 297 篇同一研究領域的論文上傳,NotebookLM 能完全基于這些文件,生成多種形式的內容總結。

▲ 文字報告、播客預覽、視頻介紹、思維導圖、閃卡和小測驗六種形式
播客和文字報告,是 NotebookLM 里面最早提供的選項,現在它們也得到了優化。
文字報告可以選擇,直接生成為博客、說明文檔、指南等類型,甚至 NotebookLM 會根據知識庫里面的資料,提供動態建議;例如,上傳論文可能會建議創建白皮書,而新聞類文章可能會生成解釋性內容;自定義的提示現在也被允許。

▲ NotebookLM 生成的博客文章
而音頻播客現在更是支持 80 多種語言,播客類型也從概述到深入,進一步擴展到辯論和批判性思考等多種類型。
新增的視頻、Quiz 測驗和 Flashcard 閃卡,是我非常喜歡的功能,無論是幫助我消化這些知識,還是做進一步的內容傳播,NotebookLM 都非常有用。
但論文的研究終究是比較小眾的場景,我們只是借著論文來介紹 NotebookLM 的功能。對于學生和研究者來說,這絕對是 Google AI 里最值得安利的工具之一。
在更普遍的應用場景中,它能勝任任何類型的知識庫構建。像是 NotebookLM 官方給出的使用案例,上傳了多家公司一季度的財報,我們可以透過思維導圖,一次性清晰的了解財報的具體內容。

還有 NotebookLM 與 OpenStax(免費教科書提供平臺) 合作,將它們受歡迎的內容,轉化成交互式筆記本,包括生物學、化學、心理學、以及管理學等主題筆記本。
在這個心理學知識庫中,每一章節都配有小測驗和記憶卡片,幫助我們鞏固所學知識點。

▲ 語言是可以選擇中文,知識庫鏈接:https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb
小測驗和閃卡的主題、難度都是可自定義的。而且,無論是閃卡還是測驗,只需點擊解釋,就能深入探索當前的話題;NotebookLM 會生成詳細的概述,幫助我們理解閃卡定義,或解釋為什么答錯某道題,并附有引用指向原始資料。
體驗地址:notebooklm.google
Flow 電影級 AI 視頻生成
AI 視頻熱度雖高,但能用它做什么?始終是許多人心中的疑問。我們介紹過多個 AI 視頻生成模型,不少讀者也曾留言:這種 AI 視頻,究竟是給誰看的?

▲ 在 Gemini 里面,直接使用 Veo 3 視頻生成,Veo 3 目前僅支持首幀,首尾幀需要 Veo 2。
Google 的更新或許給出了部分答案:支持豎屏(9:16)和 1080p 高清。這無疑是為抖音、YouTube Shorts、Reels 等短視頻社交媒體平臺量身定做。

▲ Veo 3 近期更新,Veo 3 Fast 從 0.4 美元每秒降價到 0.15 美元每秒,以及支持 9:16、1080p 等。圖片來源:https://x.com/GoogleAIStudio/status/1965436154762920074
如今 AI 視頻已成為一種新的內容消費品,與其被動觀看,不如親自上手一試。

▲ 提示詞:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical 9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.

除了 Sora、可靈、海螺這些比較熱門的視頻生成模型,Google 的 Veo 3 一直在大模型競技場,文生視頻類別下,名列前茅。
前些時間爆火的第一視角穿越、ASMR 切水果,金屬、兔子蹦床的夜視監控等視頻,都是使用 Veo 3 生成的。

▲ 提示詞:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.
不過,提示詞的優劣,是決定視頻質量的關鍵瓶頸。例如上面這個視頻,我們就是直接借鑒了 Google 的官方案例。
他們解釋,好的提示詞,包括三個部分,首先是「50mm 相機、特寫鏡頭」指定了相機;接著中間一大段用來提示對象和具體的視頻內容;最后一句話是進一步明確燈光和紋理。
Flow 對網絡要求比較嚴格,一般在 Gemini 網頁或者 App 內使用同樣足夠。
體驗地址:flow.google
AI Mode 支持除英文外更多語言
搜索是最大的流量入口,因此 AI 瀏覽器成了大模型廠商的必爭之地,盡管這條路并不好走。
Arc 項目宣布停止后,重啟的 Dia 瀏覽器也在前幾天,被 Atlassian 以 6.1 億美元收購。路不好走的原因倒不是因為沒有利益,而是太多巨頭想要吞下這塊香餑餑了。
微軟在上個月宣布自己的 Edge 升級為 AI 瀏覽器,Copilot 無縫接入到瀏覽器的每個角落,預訂餐廳和機票、跨越標簽頁的整理總結等等。OpenAI 在之前推出 ChatGPT agent 時,也被爆料要做自己的 AI 瀏覽器。
Google 當然也不會停下腳步,和我們平時用 Google 搜索時看到的 AI Overview 不一樣,AI Mode 更像是一份深度研究報告,它會利用 Gemini 2.5 的高級推理和多模態能力,來處理我們的查詢輸入。

例如當我問他 iPhone Air 的 esim 卡到底是怎么回事時,它會自動根據網頁內容進行整理,給出更準確的答案。

▲ 點擊上方 All,則可以切換回普通的 Google 搜索
不過 AI Mode 有一個缺點,是目前它還不支持中文。但前幾天,Google 已經宣布支持日語、韓語、以及葡萄牙語等五種語言。他們提到構建一個全球化的 AI 搜索不僅僅是翻譯,所支持的語言,應該具有本地相關性和實用性。
體驗地址:google.com/ai
Gemini CLI 下載視頻,轉文件格式,統統交給它
Claude Code 斷供完全沒關系,Gemini CLI 是真的好用。
之前我們說用這種終端工具來修改文件名,其實是最「弱」的用法了。我最近 X 視頻、YouTube 等視頻下載;視頻轉 GIF 以及各種格式轉換;圖片壓縮、視頻壓縮,全部交給 Gemini CLI。

Gemini CLI 的安裝流程相當清晰,即便遇到環境配置問題,如今的 AI 也能提供可靠的解決方案。
前期的麻煩點主要集中在安裝 Node.js 上,對 Windows 用戶來說,終端使用沒有 macOS 和 Linux 友好,所以是需要一點耐心的。
Node.js 安裝完成之后,按照 GitHub 上指引,運行 npm/npx 命令就可以安裝 Gemini CLI 了。
在終端里面輸入 gemini,會提示我們進行驗證,一般登錄 Google 驗證就可以,不需要去額外創建 Gemini API 之類的操作。免費用戶每分鐘有 60 次請求,每天 1000 次請求,應付日常的簡單工作流是足夠的。
終端里面有一些非常基礎的命令,因為我們打開終端的時候,默認的文件夾是可能是整個電腦的文件,如果直接輸入 gemini,它檢索文件會比較麻煩。
正確的操作是,一些基礎命令輸入 ls:會列出當前目錄下的所有文件和文件夾;cd xxx:進入某個文件夾;mkdir xxx:創建一個文件夾。

▲ 例如第一步我們打開終端,輸入 ls,可以看到當前目錄下所有的文件和文件夾;接著我們選擇一個文件用來處理,此次需要 Gemini 的項目文件夾。輸入 cd Downloads,可以看到 % 前面有當前目錄 Downloads 的名字。接下來,我們創建一個文件夾,mkdir testing,然后再進入這個目錄,cd testing。當然也可以直接選擇一個文件夾,鼠標右鍵,在終端中打開。輸入 gemini,它就正式接管了我們的終端,我們接下來就能用自然語言,處理許多復雜的任務了。

▲ 拿下載一個 X 的視頻舉例,首先它會搜索,找到一個 yt-dlp 的工具,可以用來下載視頻;接著,它會自動檢查我的電腦,是否有安裝這個工具。檢測到有安裝之后,視頻就開始下載了。
這是調用了 yt-dlp 工具,而在終端環境里面,還有非常多高效的工具,例如 FFmpeg,它是一款處理多媒體內容的強大工具。

▲ 輸入指令后,Gemini CLI 會直接說它需要 yt-dlp 和 ffmpeg 這兩個工具;然后會自動調整分辨率和幀率,以符合我提出的最終文件大小,最后它會刪除過程中的臨時文件。
我們繼續用 X 視頻舉例子,這次直接要求他把這個鏈接的視頻下載為一個 GIF 文件,并且確保 GIF 文件的大小在 5-10 MB 之間。
除了從網絡上下載文件,Gemini-CLI 也可以直接處理本地文件,例如我有一張圖片的大小,不符合平臺上傳規范,我告訴它文件名,然后要求它壓縮,過程中完全不需要去找任何的在線工具。

▲ 可以用模糊語言指定圖片位置,順利定位到圖片,它會使用 ffmpeg 工具來進行壓縮。不過最后它把我的原文件刪掉了,當我告訴他要求找回時,它會修改自己的 gemini.md 配置文件——這相當于它的「記憶」,它會記住這次教訓,確保未來不再犯同樣錯誤。
命令行工具的種類豐富,幾乎大部分的文件都能處理,甚至有時候遇到一些壓縮包不能解壓,直接讓 Gemini CLI 來處理,而不需要額外去下載對應的解壓工具。
再結合 MCP(大模型上下文協議,連接不同數據的萬能接口),Gemini CLI 能做的遠遠不止是編程開發。
體驗地址:https://github.com/google-gemini/gemini-cli
AI Studio 和 Labs Google:谷歌前沿 AI 試驗場
Google Labs 匯集了許多尚未正式發布的 AI 黑科技產品,像 AI Mode、NotebookLM 目前都還是實驗室產品,不過他們名聲比較大。我們也選擇了幾個有意思的小項目,雖然背后的模型都是同一個 Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的軟件形態。
首先就是 Whisk,這個主打不需要提示詞,上傳照片盡情玩耍的圖片生成工具,現在還新增了 animate 動畫的功能,直接將生成的圖片轉成一段視頻。

▲ 地址:https://labs.google/fx/tools/whisk
還有學習一門語言的 Little Language Lessons,它特別的地方,是讓我們快速在 Gemini 構建的一系列小實驗里面,學習一門新的語言,直接在現實場景中應用,還能學習各種俚語表達。
我拿粵語試了一下,至少不是多鄰國里面,來來回回的腸粉和豉汁排骨了。

▲ 地址:https://labs.google/lll/
Google 實驗室還有非常多的項目,體驗地址:labs.google
講了通用大模型 Gemini 2.5 Pro、圖像編輯 nano banana、視頻生成 Veo 3,怎么可以沒有 Imagen 4。
Imagen 4 官方渠道目前是只能透過 Gemini API 和 AI Studio 兩種方式體驗,即便 Google Labs 里面有專門生圖的工具,ImageFX,但是使用的模型依舊是 Imagen 3。
AI Studio 能做的,就是體驗到 Google 最新最全的各種模型。而且,在 AI Studio 里面的對話,提供了「分支」功能,我們可以保留現有對話的前提下,開啟另一個新的話題。

▲ 地址:ai.studio / ai.dev
前段時間,馬斯克還在 X 上和奧特曼互撕,直接開罵,Apple 和奧特曼有私下交易,不然他的 Grok 怎么登頂不了排行榜第一,憑什么一直都是 ChatGPT。
這一番開箱下來,似乎能看到一點 Gemini「憑什么」的端倪。Google AI 幾乎是用一套完整的工作流,無縫融入我們的學習、工作和創作之中。從整理資料到激發創意,再到解放雙手,這套全家桶的核心,是希望實實在在地提升每個人的生產力。