2026年最全免費AI API清單:9個平台零成本調用

作者:神器每日推送
日期:2026年4月10日 上午6:34
來源:WeChat 原文

整理版優先睇

速讀 5 個重點 高亮

9個免費AI API平台實測整理:智譜GLM-4.7-FlashNVIDIA Step-3.5-Flash高頻調用首選,附配置代碼同避坑指南

整理版摘要

呢篇文章係作者親測9個免費AI API平台,包括NVIDIA Build、智譜AI、Google AI Studio、GitHub Models、硅基流動、OpenRouter、Groq、阿里雲百鍊同Cloudflare Workers AI。目的係幫開發者以零成本調用模型,驗證想法再決定使唔使畀錢。作者整理咗每個平台嘅推薦模型、免費額度、API格式同配置代碼,全部實測可用。

整體結論係:如果只揀1-2個日常高頻使用,智譜AI嘅GLM-4.7-FlashNVIDIA BuildStep-3.5-Flash係首選。原因係佢哋只限併發唔限頻率,定時任務同自動化腳本唔會被限速,而且國內平台訪問穩定。其他平台各有優勢:Groq用LPU芯片速度達60 tok/s;OpenRouter嘅Qwen 3.6 Plus有100萬上下文;GitHub Models唔使綁卡就用得GPT-4o-mini。

作者特別提醒三個坑Google AI Studio配額按Project唔按Key,開多個賬號冇用;免費平台數據未必安全,正式業務數據要用付費版;搞清楚RPM/TPM/TPD限制,被限流先知超咗邊個。最後總結:免費係低成本試錯嘅方法,唔係無限白嫖,70%日常用免費,30%重活用付費,Token費用就可以省一大半。

  • 結論:智譜GLM-4.7-FlashNVIDIA Step-3.5-Flash係高頻調用首選,因為只限併發唔限頻率,定時任務唔會限速。
  • 方法:所有平台都提供OpenAI兼容API,改base_url同api_key即可接入,配置代碼可直接複製使用。
  • 差異NVIDIA Build有189個端點多模態最廣;Groq速度60 tok/s;OpenRouter有100萬上下文;GitHub Models唔使綁卡。
  • 啟發:免費模型足夠驗證想法,但正式業務數據要留意隱私條款,唔好直接放敏感資料。
  • 可行動點:日常輕量用智譜,需要快速回應用Groq,需要長上下文用OpenRouter,要GPT-4o用GitHub Models。
整理重點

首選推薦:智譜AI同NVIDIA Build

作者實測後,認為最適合高頻調用嘅平台係智譜AI同NVIDIA Build。智譜GLM-4.7-Flash有200K上下文窗口,而且限制係併發30,唔係RPM,所以定時任務每分鐘發200次請求都唔會被限速。

智譜GLM-4.7-Flash:200K上下文

只限併發30,唔限頻率

NVIDIA BuildStep-3.5-Flash速度最快(50 tok/s),用OpenClaw調用agent嘅時候最穩定可靠。而且NVIDIA有189個免費端點,多模態覆蓋最廣。

Step-3.5-Flash:50 tok/s,最快最穩定

189個免費端點,多模態最廣

智譜AI API配置範例 python
import openai
openai.base_url = "https://open.bigmodel.cn/api/paas/v4"
openai.api_key = "your-api-key"
response = openai.chat.completions.create(
 model="glm-4.7-flash",
 messages=[{"role": "user", "content": "Hello"}]
)
  • 智譜GLM-4.7-Flash:200K上下文,只限併發30,適合大量短請求任務。
  • NVIDIA Step-3.5-Flash:50 tok/s,OpenClaw agent首選,多模態端點189個。
整理重點

其他平台總覽:速度、上下文、多模態

除了首選,其他平台各有獨特優勢,適合不同場景。

  1. 1 Google AI StudioGemini 2.5 Flash/Pro免費,能力屬第一梯隊,但配額按Project不按Key,數據可能用於訓練。
  2. 2 GitHub ModelsGitHub賬號即可,唔使綁卡,可用GPT-4o-mini,每日150次夠調試完整功能。
  3. 3 硅基流動DeepSeek-V3免費,國內服務器延遲低,1000 RPM,適合快速響應項目。
  4. 4 OpenRouter:獨家免費Qwen 3.6 Plus,100萬上下文,處理超長文檔冇對手。
  5. 5 GroqLPU芯片速度60 tok/s,幾乎零等待,適合實時交互。
  6. 6 阿里雲百鍊:新用戶100萬Token永久有效,唔過期,啱初學者。
  7. 7 Cloudflare Workers AI:每天10000 Neurons,多模態覆蓋,適合Cloudflare生態開發者。

Groq速度60 tok/s,比其他平台快2-3倍

OpenRouter Qwen 3.6 Plus:100萬上下文,全紅樓夢放得入

GitHub Models:唔綁信用卡,直接可用GPT-4o-mini

硅基流動:1000 RPM,延遲低

阿里雲百鍊:100萬Token永久有效

整理重點

避坑指南同實用建議

作者分享三個常見陷阱,等你唔好中招。

  • Google AI Studio配額按Project唔按Key,開10個賬號唔會疊加額度,只會增加被封風險。
  • 免費平台未必安全,冇明確隱私聲明嘅第三方平台唔好接生產流量,正式業務數據要用付費版。
  • 搞清楚RPMTPMTPD限制,被限流先睇自己超咗邊個維度。

配額按Project唔按Key

免費唔等於安全

最後,作者提醒:免費嘅終點係低成本試錯,唔係一分錢唔使。將錢花在刀刃上,先係Token自由嘅實際操作方式。

圖片

9個平台,全部實測過可以調用。每個標咗推薦模型、免費額度、API格式同配置代碼,攞到就可以即刻用。唔想睇廢話嘅直接跳去對應章節。

1. NVIDIA Build — 189個免費端點,一個Key通食

推薦模型:step-3.5-flash(50 tok/s,最快)、GLM-4.7(編程工具調用)、Qwen3.5-122B(推理+多模態)

免費額度:免費模型唔限次數,付費模型每月1000 Credits

API格式:OpenAI兼容,改個base_url就得

註冊:build.nvidia.com,郵箱註冊,國內86手機號直接收驗證碼


export NVIDIA_API_KEY="nvapi-xxxxx"
export NVIDIA_BASE_URL="https://integrate.api.nvidia.com/v1"

from openai import OpenAI
client = OpenAI(base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-xxxxx")
resp = client.chat.completions.create(
    model="stepfun-ai/step-3.5-flash",
    messages=[{"role":"user""content":"用Python寫一個快速排序"}]
)
print(resp.choices[0].message.content)

唔止得文本模型。OCR圖片識別、語音對話、文生圖、實時語音轉文字——全部喺同一個平台。多模態覆蓋度係目前免費平台裏面最廣嘅。

坑:高峯時段排隊好嚴重,GLM-5同Qwen3.5大參數模型可能要等1-2分鐘。日常輕量任務用MiniMax-M2.5同GLM-4.7,體感30-40 tok/s,基本上夠用。夜晚跑定時任務體驗最好。

實測,如果只係輕量用prompt輸出內容,按照以下模型列表配置都用得。

圖片

如果喺openclaw調用agent使用,step-3.5-flash用起嚟最穩定可靠。

圖片

詳細教程可以參考呢篇:往期NVIDIA Build教程

NVIDIA殺瘋咗!最強國產模型GLM-4.7/Minimax M2免費無限用(保姆級教程)

阿里Z-Image免費生圖教程:每日2000張圖白嫖指南

2. 智譜AI — 免費模型最穩定,200K上下文

免費模型:

類型
模型
上下文
最大輸出
文本
GLM-4-Flash-250414
128K
16K
視覺
GLM-4.6V-Flash
128K
32K
文本

GLM-4.7-Flash

200k
128k

限制:併發30。留意——冇RPM頻率限制,只有併發限制。呢代表咩?如果你跑批量任務(例如每分鐘發100次請求但每次處理得好快),完全唔會被限速。定時任務、自動化腳本嘅最佳拍檔。

圖片

API配置:


base_url = "https://open.bigmodel.cn/api/paas/v4"
model = "glm-4.7-flash"
# OpenAI兼容格式,直接換base_url和api_key

註冊:bigmodel.cn,國內平台,唔使任何額外工具

免費模型完整列表同文檔:

https://docs.bigmodel.cn/cn/guide/start/model-overview

唔誇張咁講,CogVideoX-Flash免費生成4K 60fps影片呢一點,喺所有免費平台裏面獨一無二。

圖片

實測,openclaw首選glm-4.7-flash,反應唔錯,可以白嫖嘅都係好嘢。

3. Google AI Studio — Gemini免費層

免費模型:Gemini 2.5 Flash / Pro

配額機制:按Project分配,唔係按Key。開5個Key、10個Key,額度唔會疊加。呢個係好多人踩嘅第一個陷阱。

適合:實驗同原型開發。Gemini 2.5 Pro嘅能力喺閉源模型裏面屬於第一梯隊,免費用到真係好抵。

坑:數據可能會用嚟訓練模型,官方Privacy Policy寫得好清楚。開發同測試冇問題,正式業務數據就唔好擺入去。

4. GitHub Models — 唔綁信用卡,GPT-4o免費任用

門檻:有GitHub賬號就得。唔使綁信用卡,唔使用任何網絡工具。

免費模型:GPT-4o-mini、Llama系列、Phi系列

限制:15 RPM(每分鐘15次),150 RPD(每日150次)

接入方式:Models API端點,OpenAI兼容格式

一日150次係咩概念?夠你調試一個完整嘅功能模塊。偶爾需要調用GPT系列模型嘅時候,唔使翻牆、唔使綁卡,直接用。

圖片

5. 硅基流動 — DeepSeek-V3免費,國內延遲低

免費模型:DeepSeek-V3、Qwen3系列

API:OpenAI兼容,國內服務器

限制:免費模型1000 RPM

DeepSeek-V3嘅推理能力喺開源模型裏面排第一梯隊。加上國內服務器延遲低,適合對反應速度有要求嘅項目。1000 RPM嘅配額亦夠曬大部分中小項目用。

6. OpenRouter — Qwen 3.6 Plus免費,100萬上下文

獨家免費:Qwen 3.6 Plus,100萬token上下文窗口

100萬token上下文係咩概念?成部《紅樓夢》放曬入去都仲有位。如果你需要處理超長文檔、批量分析大型代碼庫,呢個上下文窗口喺免費模型裏面冇對手。

API:OpenAI兼容,一個端點切換所有模型。統一聚合咗多個平台模型,按需要切換好方便。

OpenRouter彈窗限制?唔係bug,係你冇關咗呢個開關

7. Groq — LPU芯片極速推理

速度:60 tok/s,係大多數平台嘅2-3倍

免費模型:Llama 4 Scout、Mixtral 8x7B等開源模型

限制:1000次/日

Groq自研咗LPU(Language Processing Unit)芯片,專門為LLM推理優化。60 tok/s嘅速度代表咩?AI對話幾乎冇等待感,實時交互場景(例如聊天機械人、語音助手)體驗會好好多。

8. 阿里雲百鍊 — 新用戶100萬Token永久有效

免費模型:Qwen3.5系列

新用戶福利:100萬Token,永久有效,唔會過期

註冊:阿里雲賬號,國內平台

100萬Token永久有效——留意「永久」兩個字。唔係試用30日嗰種,係真係唔過期。對於啱啱開始學AI開發嘅人嚟講,100萬Token夠跑曬成個學習週期。

9. Cloudflare Workers AI — 每日10000 Neurons

覆蓋:LLM、圖像生成、語音識別、翻譯,多模態全覆蓋

配額:每日10000 Neurons(計算單位,唔係Token)

適合:已經用緊Cloudflare生態嘅開發者。Workers函數同AI模型無縫集成,部署一條龍。


邊個最實用?唔係最強嗰個

講咗9個平台,如果只揀1-2個日常高頻使用嘅——

智譜AI嘅GLM-4.7-Flash,step-3.5-flash

原因好直接:

唔限頻率,只限併發30。即係話用OpenClaw呢類工具高頻調用完全唔受影響。大部分平台一係限制每日次數,一係限制每分鐘請求數,智譜只係管同時有幾個請求喺度跑。對於一個定時任務場景,你每分鐘發200次請求但每次50ms就返回,智譜唔會攔你。換咗第個平台,一早已經觸發RPM限制。

200K上下文窗口。免費模型裏面最大嘅。

國內平台,訪問穩定,唔使搞網絡。

從實際使用反饋嚟睇,GLM-4.7-Flash喺OpenClaw裏面嘅調用表現:高頻調用唔限制,反應穩定,就係最實用嘅免費模型。

step-3.5-flash都係首選之一,50 tok/s,最快,關鍵係佢用起嚟非常穩定可靠。

需要模型多樣性:NVIDIA Build,189個端點任你揀。

需要速度:Groq,60 tok/s獨一檔。

需要超長上下文:OpenRouter嘅Qwen 3.6 Plus,100萬token。

需要GPT-4o:GitHub Models,唔綁信用卡就用得。

三個陷阱事先講

配額按Project唔按Key。 Google AI Studio呢個機制最易誤解。註冊10個賬號唔會畀你10倍額度,只會畀你10個被封嘅風險。

免費≠安全。 冇明確私隱聲明嘅第三方平台,唔好接生產流量。開發同測試冇問題,跑正式業務數據就老老實實用付費版。

搞清楚RPM/TPM/TPD。 RPM係每分鐘請求數,TPM係每分鐘Token數,TPD係每日Token數。唔同平台嘅限制維度唔一樣,被限流先睇嚇自己超咗邊個。

圖片

文檔喺邊

所有平台嘅免費模型列表同API文檔:

平台
模型列表 / 文檔
NVIDIA Build
build.nvidia.com/models
智譜AI
docs.bigmodel.cn/cn/guide/start/model-overview
Google AI Studio
aistudio.google.com
GitHub Models
github.com/marketplace/models
硅基流動
siliconflow.cn
OpenRouter
openrouter.ai/models
Groq
console.groq.com
阿里雲百鍊
bailian.console.aliyun.com
Cloudflare
developers.cloudflare.com/workers-ai

免費嘅終點唔係白嫖,係低成本試錯。先用零成本驗證個想法到底值唔值得投入,驗證通過咗再上付費模型。免費嘅70%日常任務 + 付費嘅30%重工夫,一個月落嚟Token費用慳一大半。

圖片

呢個就係Token自由嘅實際操作方式——唔係一毫子都唔使,係將錢使喺刀鋒上。

圖片

9個平台,全部實測可調用。每個標註推薦模型、免費額度、API格式和配置代碼,拿到就能跑。不看廢話的直接跳到對應章節。

1. NVIDIA Build — 189個免費端點,一個Key通吃

推薦模型:step-3.5-flash(50 tok/s,最快)、GLM-4.7(編程工具調用)、Qwen3.5-122B(推理+多模態)

免費額度:免費模型不限次數,付費模型每月1000 Credits

API格式:OpenAI兼容,改個base_url就行

註冊:build.nvidia.com,郵箱註冊,國內86手機號直接收驗證碼


export NVIDIA_API_KEY="nvapi-xxxxx"
export NVIDIA_BASE_URL="https://integrate.api.nvidia.com/v1"

from openai import OpenAI
client = OpenAI(base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-xxxxx")
resp = client.chat.completions.create(
    model="stepfun-ai/step-3.5-flash",
    messages=[{"role":"user""content":"用Python寫一個快速排序"}]
)
print(resp.choices[0].message.content)

不只有文本模型。OCR圖片識別、語音對話、文生圖、實時語音轉文字——全在一個平台上。多模態覆蓋度是目前免費平台裏最廣的。

坑:高峯期排隊嚴重,GLM-5和Qwen3.5大參數模型可能等1-2分鐘。日常輕量任務用MiniMax-M2.5和GLM-4.7,體感30-40 tok/s,基本夠用。晚上跑定時任務體驗最好。

實測,如果只是輕量使用prompt輸出內容,按照以下模型列表配置都可以用。

圖片

如果在openclaw調用agent使用,step-3.5-flash用起來最穩定可靠。

圖片

詳細教程可以參考這篇:往期NVIDIA Build教程

NVIDIA殺瘋了!最強國產模型GLM-4.7/Minimax M2免費無限用(保姆級教程)

阿里Z-Image免費生圖教程:每天2000張圖白嫖指南

2. 智譜AI — 免費模型最穩,200K上下文

免費模型:

類型
模型
上下文
最大輸出
文本
GLM-4-Flash-250414
128K
16K
視覺
GLM-4.6V-Flash
128K
32K
文本

GLM-4.7-Flash

200k
128k

限制:併發30。注意——沒有RPM頻率限制,只有併發限制。這意味着什麼?如果你跑批量任務(比如每分鐘發100次請求但每次處理很快),完全不會被限速。定時任務、自動化腳本的最佳搭檔。

圖片

API配置:


base_url = "https://open.bigmodel.cn/api/paas/v4"
model = "glm-4.7-flash"
# OpenAI兼容格式,直接換base_url和api_key

註冊:bigmodel.cn,國內平台,無需任何額外工具

免費模型完整列表和文檔:

https://docs.bigmodel.cn/cn/guide/start/model-overview

不誇張地說,CogVideoX-Flash免費生成4K 60fps視頻這一點,在所有免費平台裏獨一份。

圖片

實測,openclaw首選glm-4.7-flash,響應還不錯,能白嫖都是不錯的。

3. Google AI Studio — Gemini免費層

免費模型:Gemini 2.5 Flash / Pro

配額機制:按Project分配,不按Key。開5個Key、10個Key,額度不會疊加。這是很多人踩的第一個坑。

適合:實驗和原型開發。Gemini 2.5 Pro的能力在閉源模型裏屬於第一梯隊,免費能用確實香。

坑:數據可能被用於模型訓練,官方Privacy Policy寫得清楚。開發和測試沒問題,正式業務數據別往裏放。

4. GitHub Models — 不綁信用卡,GPT-4o免費用

門檻:GitHub賬號即可。不綁信用卡,不用任何網絡工具。

免費模型:GPT-4o-mini、Llama系列、Phi系列

限制:15 RPM(每分鐘15次),150 RPD(每天150次)

接入方式:Models API端點,OpenAI兼容格式

一天150次是什麼概念?夠你調試一個完整的功能模塊了。偶爾需要調用GPT系列模型的時候,不用翻牆、不用綁卡,直接用。

圖片

5. 硅基流動 — DeepSeek-V3免費,國內延遲低

免費模型:DeepSeek-V3、Qwen3系列

API:OpenAI兼容,國內服務器

限制:免費模型1000 RPM

DeepSeek-V3的推理能力在開源模型裏排第一梯隊。加上國內服務器延遲低,適合對響應速度有要求的項目。1000 RPM的配額也足夠大部分中小項目使用。

6. OpenRouter — Qwen 3.6 Plus免費,100萬上下文

獨家免費:Qwen 3.6 Plus,100萬token上下文窗口

100萬token上下文是什麼概念?一整本《紅樓夢》放進去還有餘量。如果你需要處理超長文檔、批量分析大型代碼庫,這個上下文窗口在免費模型裏沒有對手。

API:OpenAI兼容,一個端點切換所有模型。統一聚合了多個平台模型,按需切換很方便。

OpenRouter彈窗限制?不是bug,是你沒關這個開關

7. Groq — LPU芯片極速推理

速度:60 tok/s,是大多數平台的2-3倍

免費模型:Llama 4 Scout、Mixtral 8x7B等開源模型

限制:1000次/天

Groq自研了LPU(Language Processing Unit)芯片,專門為LLM推理優化。60 tok/s的速度意味着什麼?AI對話幾乎沒有等待感,實時交互場景(比如聊天機器人、語音助手)體驗會好很多。

8. 阿里雲百鍊 — 新用戶100萬Token永久有效

免費模型:Qwen3.5系列

新用戶福利:100萬Token,永久有效,不過期

註冊:阿里雲賬號,國內平台

100萬Token永久有效——注意"永久"兩個字。不是試用30天那種,是真的不過期。對於剛開始學AI開發的人來說,100萬Token足夠跑完整個學習週期了。

9. Cloudflare Workers AI — 每天10000 Neurons

覆蓋:LLM、圖像生成、語音識別、翻譯,多模態全覆蓋

配額:每天10000 Neurons(計算單位,不是Token)

適合:已經在用Cloudflare生態的開發者。Workers函數和AI模型無縫集成,部署一條龍。


哪個最實用?不是最強的那個

說了9個平台,如果只選1-2日常高頻使用的——

智譜AI的GLM-4.7-Flash,step-3.5-flash

原因很直接:

不限頻率,只限併發30。這意味着用OpenClaw這類工具高頻調用完全不受影響。大部分平台要麼限制每天次數,要麼限制每分鐘請求數,智譜只管同時有多少個請求在跑。對於一個定時任務場景,你每分鐘發200次請求但每次50ms就返回,智譜不會攔你。換成別的平台,早就觸發RPM限制了。

200K上下文窗口。免費模型裏最大的。

國內平台,訪問穩定,不用折騰網絡。

從實際使用反饋來看,GLM-4.7-Flash在OpenClaw裏的調用表現:高頻調用不限制,響應穩定,就是最實用的免費模型。

step-3.5-flash也是首選之一,50 tok/s,最快,關鍵是它用起來非常穩定可靠。

需要模型多樣性:NVIDIA Build,189個端點隨你選。

需要速度:Groq,60 tok/s獨一檔。

需要超長上下文:OpenRouter的Qwen 3.6 Plus,100萬token。

需要GPT-4o:GitHub Models,不綁信用卡就能用。

三個坑提前說

配額按Project不按Key。 Google AI Studio這個機制最容易誤解。註冊10個賬號不會給你10倍額度,只會給你10個被封的風險。

免費≠安全。 沒有明確隱私聲明的第三方平台,別接生產流量。開發和測試沒問題,跑正式業務數據還是老老實實用付費版。

搞清楚RPM/TPM/TPD。 RPM是每分鐘請求數,TPM是每分鐘Token數,TPD是每天Token數。不同平台的限制維度不一樣,被限流先看自己超了哪個。

圖片

文檔在哪

所有平台的免費模型列表和API文檔:

平台
模型列表 / 文檔
NVIDIA Build
build.nvidia.com/models
智譜AI
docs.bigmodel.cn/cn/guide/start/model-overview
Google AI Studio
aistudio.google.com
GitHub Models
github.com/marketplace/models
硅基流動
siliconflow.cn
OpenRouter
openrouter.ai/models
Groq
console.groq.com
阿里雲百鍊
bailian.console.aliyun.com
Cloudflare
developers.cloudflare.com/workers-ai

免費的終點不是白嫖,是低成本試錯。先用零成本驗證想法到底值不值得投入,驗證通過了再上付費模型。免費的70%日常任務 + 付費的30%重活,一個月下來Token費用省一大半。

圖片

這就是Token自由的實際操作方式——不是一分錢不花,是把錢花在刀刃上。