2026年最全免費AI API清單：9個平台零成本調用

作者：神器每日推送

日期：2026年4月10日上午6:34

來源：WeChat 原文

✦整理版優先睇

速讀 5 個重點高亮

9個免費AI API平台實測整理：智譜GLM-4.7-Flash同NVIDIA Step-3.5-Flash高頻調用首選，附配置代碼同避坑指南

整理版摘要

呢篇文章係作者親測9個免費AI API平台，包括NVIDIA Build、智譜AI、Google AI Studio、GitHub Models、硅基流動、OpenRouter、Groq、阿里雲百鍊同Cloudflare Workers AI。目的係幫開發者以零成本調用模型，驗證想法再決定使唔使畀錢。作者整理咗每個平台嘅推薦模型、免費額度、API格式同配置代碼，全部實測可用。

整體結論係：如果只揀1-2個日常高頻使用，智譜AI嘅GLM-4.7-Flash同NVIDIA Build嘅Step-3.5-Flash係首選。原因係佢哋只限併發唔限頻率，定時任務同自動化腳本唔會被限速，而且國內平台訪問穩定。其他平台各有優勢：Groq用LPU芯片速度達60 tok/s；OpenRouter嘅Qwen 3.6 Plus有100萬上下文；GitHub Models唔使綁卡就用得GPT-4o-mini。

作者特別提醒三個坑：Google AI Studio配額按Project唔按Key，開多個賬號冇用；免費平台數據未必安全，正式業務數據要用付費版；搞清楚RPM/TPM/TPD限制，被限流先知超咗邊個。最後總結：免費係低成本試錯嘅方法，唔係無限白嫖，70%日常用免費，30%重活用付費，Token費用就可以省一大半。

結論：智譜GLM-4.7-Flash同NVIDIA Step-3.5-Flash係高頻調用首選，因為只限併發唔限頻率，定時任務唔會限速。
方法：所有平台都提供OpenAI兼容API，改base_url同api_key即可接入，配置代碼可直接複製使用。
差異：NVIDIA Build有189個端點多模態最廣；Groq速度60 tok/s；OpenRouter有100萬上下文；GitHub Models唔使綁卡。
啟發：免費模型足夠驗證想法，但正式業務數據要留意隱私條款，唔好直接放敏感資料。
可行動點：日常輕量用智譜，需要快速回應用Groq，需要長上下文用OpenRouter，要GPT-4o用GitHub Models。

整理重點

首選推薦：智譜AI同NVIDIA Build

作者實測後，認為最適合高頻調用嘅平台係智譜AI同NVIDIA Build。智譜GLM-4.7-Flash有200K上下文窗口，而且限制係併發30，唔係RPM，所以定時任務每分鐘發200次請求都唔會被限速。

智譜GLM-4.7-Flash：200K上下文

只限併發30，唔限頻率

NVIDIA Build嘅Step-3.5-Flash速度最快（50 tok/s），用OpenClaw調用agent嘅時候最穩定可靠。而且NVIDIA有189個免費端點，多模態覆蓋最廣。

Step-3.5-Flash：50 tok/s，最快最穩定

189個免費端點，多模態最廣

智譜AI API配置範例 python

import openai
openai.base_url = "https://open.bigmodel.cn/api/paas/v4"
openai.api_key = "your-api-key"
response = openai.chat.completions.create(
 model="glm-4.7-flash",
 messages=[{"role": "user", "content": "Hello"}]
)

智譜GLM-4.7-Flash：200K上下文，只限併發30，適合大量短請求任務。
NVIDIA Step-3.5-Flash：50 tok/s，OpenClaw agent首選，多模態端點189個。

整理重點

其他平台總覽：速度、上下文、多模態

除了首選，其他平台各有獨特優勢，適合不同場景。

1 Google AI Studio：Gemini 2.5 Flash/Pro免費，能力屬第一梯隊，但配額按Project不按Key，數據可能用於訓練。
2 GitHub Models：GitHub賬號即可，唔使綁卡，可用GPT-4o-mini，每日150次夠調試完整功能。
3 硅基流動：DeepSeek-V3免費，國內服務器延遲低，1000 RPM，適合快速響應項目。
4 OpenRouter：獨家免費Qwen 3.6 Plus，100萬上下文，處理超長文檔冇對手。
5 Groq：LPU芯片速度60 tok/s，幾乎零等待，適合實時交互。
6 阿里雲百鍊：新用戶100萬Token永久有效，唔過期，啱初學者。
7 Cloudflare Workers AI：每天10000 Neurons，多模態覆蓋，適合Cloudflare生態開發者。

Groq速度60 tok/s，比其他平台快2-3倍

OpenRouter Qwen 3.6 Plus：100萬上下文，全紅樓夢放得入

GitHub Models：唔綁信用卡，直接可用GPT-4o-mini

硅基流動：1000 RPM，延遲低

阿里雲百鍊：100萬Token永久有效

整理重點

避坑指南同實用建議

作者分享三個常見陷阱，等你唔好中招。

Google AI Studio配額按Project唔按Key，開10個賬號唔會疊加額度，只會增加被封風險。
免費平台未必安全，冇明確隱私聲明嘅第三方平台唔好接生產流量，正式業務數據要用付費版。
搞清楚RPM、TPM、TPD限制，被限流先睇自己超咗邊個維度。

配額按Project唔按Key

免費唔等於安全

最後，作者提醒：免費嘅終點係低成本試錯，唔係一分錢唔使。將錢花在刀刃上，先係Token自由嘅實際操作方式。

9個平台，全部實測過可以調用。每個標咗推薦模型、免費額度、API格式同配置代碼，攞到就可以即刻用。唔想睇廢話嘅直接跳去對應章節。

1. NVIDIA Build — 189個免費端點，一個Key通食

推薦模型：step-3.5-flash（50 tok/s，最快）、GLM-4.7（編程工具調用）、Qwen3.5-122B（推理+多模態）

免費額度：免費模型唔限次數，付費模型每月1000 Credits

API格式：OpenAI兼容，改個base_url就得

註冊：build.nvidia.com，郵箱註冊，國內86手機號直接收驗證碼


export NVIDIA_API_KEY="nvapi-xxxxx"
export NVIDIA_BASE_URL="https://integrate.api.nvidia.com/v1"


from openai import OpenAI
client = OpenAI(base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-xxxxx")
resp = client.chat.completions.create(
    model="stepfun-ai/step-3.5-flash",
    messages=[{"role":"user", "content":"用Python寫一個快速排序"}]
)
print(resp.choices[0].message.content)

唔止得文本模型。OCR圖片識別、語音對話、文生圖、實時語音轉文字——全部喺同一個平台。多模態覆蓋度係目前免費平台裏面最廣嘅。

坑：高峯時段排隊好嚴重，GLM-5同Qwen3.5大參數模型可能要等1-2分鐘。日常輕量任務用MiniMax-M2.5同GLM-4.7，體感30-40 tok/s，基本上夠用。夜晚跑定時任務體驗最好。

實測，如果只係輕量用prompt輸出內容，按照以下模型列表配置都用得。

如果喺openclaw調用agent使用，step-3.5-flash用起嚟最穩定可靠。

詳細教程可以參考呢篇：往期NVIDIA Build教程

NVIDIA殺瘋咗！最強國產模型GLM-4.7/Minimax M2免費無限用（保姆級教程）

阿里Z-Image免費生圖教程：每日2000張圖白嫖指南

2. 智譜AI — 免費模型最穩定，200K上下文

免費模型：

類型	模型	上下文	最大輸出
文本	GLM-4-Flash-250414	128K	16K
視覺	GLM-4.6V-Flash	128K	32K
文本	GLM-4.7-Flash	200k	128k

限制：併發30。留意——冇RPM頻率限制，只有併發限制。呢代表咩？如果你跑批量任務（例如每分鐘發100次請求但每次處理得好快），完全唔會被限速。定時任務、自動化腳本嘅最佳拍檔。

API配置：


base_url = "https://open.bigmodel.cn/api/paas/v4"
model = "glm-4.7-flash"
# OpenAI兼容格式，直接換base_url和api_key

註冊：bigmodel.cn，國內平台，唔使任何額外工具

免費模型完整列表同文檔：

https://docs.bigmodel.cn/cn/guide/start/model-overview

唔誇張咁講，CogVideoX-Flash免費生成4K 60fps影片呢一點，喺所有免費平台裏面獨一無二。

實測，openclaw首選glm-4.7-flash，反應唔錯，可以白嫖嘅都係好嘢。

3. Google AI Studio — Gemini免費層

免費模型：Gemini 2.5 Flash / Pro

配額機制：按Project分配，唔係按Key。開5個Key、10個Key，額度唔會疊加。呢個係好多人踩嘅第一個陷阱。

適合：實驗同原型開發。Gemini 2.5 Pro嘅能力喺閉源模型裏面屬於第一梯隊，免費用到真係好抵。

坑：數據可能會用嚟訓練模型，官方Privacy Policy寫得好清楚。開發同測試冇問題，正式業務數據就唔好擺入去。

4. GitHub Models — 唔綁信用卡，GPT-4o免費任用

門檻：有GitHub賬號就得。唔使綁信用卡，唔使用任何網絡工具。

免費模型：GPT-4o-mini、Llama系列、Phi系列

限制：15 RPM（每分鐘15次），150 RPD（每日150次）

接入方式：Models API端點，OpenAI兼容格式

一日150次係咩概念？夠你調試一個完整嘅功能模塊。偶爾需要調用GPT系列模型嘅時候，唔使翻牆、唔使綁卡，直接用。

5. 硅基流動 — DeepSeek-V3免費，國內延遲低

免費模型：DeepSeek-V3、Qwen3系列

API：OpenAI兼容，國內服務器

限制：免費模型1000 RPM

DeepSeek-V3嘅推理能力喺開源模型裏面排第一梯隊。加上國內服務器延遲低，適合對反應速度有要求嘅項目。1000 RPM嘅配額亦夠曬大部分中小項目用。

6. OpenRouter — Qwen 3.6 Plus免費，100萬上下文

獨家免費：Qwen 3.6 Plus，100萬token上下文窗口

100萬token上下文係咩概念？成部《紅樓夢》放曬入去都仲有位。如果你需要處理超長文檔、批量分析大型代碼庫，呢個上下文窗口喺免費模型裏面冇對手。

API：OpenAI兼容，一個端點切換所有模型。統一聚合咗多個平台模型，按需要切換好方便。

OpenRouter彈窗限制？唔係bug，係你冇關咗呢個開關

7. Groq — LPU芯片極速推理

速度：60 tok/s，係大多數平台嘅2-3倍

免費模型：Llama 4 Scout、Mixtral 8x7B等開源模型

限制：1000次/日

Groq自研咗LPU（Language Processing Unit）芯片，專門為LLM推理優化。60 tok/s嘅速度代表咩？AI對話幾乎冇等待感，實時交互場景（例如聊天機械人、語音助手）體驗會好好多。

8. 阿里雲百鍊 — 新用戶100萬Token永久有效

免費模型：Qwen3.5系列

新用戶福利：100萬Token，永久有效，唔會過期

註冊：阿里雲賬號，國內平台

100萬Token永久有效——留意「永久」兩個字。唔係試用30日嗰種，係真係唔過期。對於啱啱開始學AI開發嘅人嚟講，100萬Token夠跑曬成個學習週期。

9. Cloudflare Workers AI — 每日10000 Neurons

覆蓋：LLM、圖像生成、語音識別、翻譯，多模態全覆蓋

配額：每日10000 Neurons（計算單位，唔係Token）

適合：已經用緊Cloudflare生態嘅開發者。Workers函數同AI模型無縫集成，部署一條龍。

邊個最實用？唔係最強嗰個

講咗9個平台，如果只揀1-2個日常高頻使用嘅——

智譜AI嘅GLM-4.7-Flash，step-3.5-flash

原因好直接：

唔限頻率，只限併發30。即係話用OpenClaw呢類工具高頻調用完全唔受影響。大部分平台一係限制每日次數，一係限制每分鐘請求數，智譜只係管同時有幾個請求喺度跑。對於一個定時任務場景，你每分鐘發200次請求但每次50ms就返回，智譜唔會攔你。換咗第個平台，一早已經觸發RPM限制。

200K上下文窗口。免費模型裏面最大嘅。

國內平台，訪問穩定，唔使搞網絡。

從實際使用反饋嚟睇，GLM-4.7-Flash喺OpenClaw裏面嘅調用表現：高頻調用唔限制，反應穩定，就係最實用嘅免費模型。

step-3.5-flash都係首選之一，50 tok/s，最快，關鍵係佢用起嚟非常穩定可靠。

需要模型多樣性：NVIDIA Build，189個端點任你揀。

需要速度：Groq，60 tok/s獨一檔。

需要超長上下文：OpenRouter嘅Qwen 3.6 Plus，100萬token。

需要GPT-4o：GitHub Models，唔綁信用卡就用得。

三個陷阱事先講

配額按Project唔按Key。 Google AI Studio呢個機制最易誤解。註冊10個賬號唔會畀你10倍額度，只會畀你10個被封嘅風險。

免費≠安全。 冇明確私隱聲明嘅第三方平台，唔好接生產流量。開發同測試冇問題，跑正式業務數據就老老實實用付費版。

搞清楚RPM/TPM/TPD。 RPM係每分鐘請求數，TPM係每分鐘Token數，TPD係每日Token數。唔同平台嘅限制維度唔一樣，被限流先睇嚇自己超咗邊個。

文檔喺邊

所有平台嘅免費模型列表同API文檔：

平台	模型列表 / 文檔
NVIDIA Build	build.nvidia.com/models
智譜AI	docs.bigmodel.cn/cn/guide/start/model-overview
Google AI Studio	aistudio.google.com
GitHub Models	github.com/marketplace/models
硅基流動	siliconflow.cn
OpenRouter	openrouter.ai/models
Groq	console.groq.com
阿里雲百鍊	bailian.console.aliyun.com
Cloudflare	developers.cloudflare.com/workers-ai

免費嘅終點唔係白嫖，係低成本試錯。先用零成本驗證個想法到底值唔值得投入，驗證通過咗再上付費模型。免費嘅70%日常任務 + 付費嘅30%重工夫，一個月落嚟Token費用慳一大半。

呢個就係Token自由嘅實際操作方式——唔係一毫子都唔使，係將錢使喺刀鋒上。

9個平台，全部實測可調用。每個標註推薦模型、免費額度、API格式和配置代碼，拿到就能跑。不看廢話的直接跳到對應章節。

1. NVIDIA Build — 189個免費端點，一個Key通吃

推薦模型：step-3.5-flash（50 tok/s，最快）、GLM-4.7（編程工具調用）、Qwen3.5-122B（推理+多模態）

免費額度：免費模型不限次數，付費模型每月1000 Credits

API格式：OpenAI兼容，改個base_url就行

註冊：build.nvidia.com，郵箱註冊，國內86手機號直接收驗證碼


export NVIDIA_API_KEY="nvapi-xxxxx"
export NVIDIA_BASE_URL="https://integrate.api.nvidia.com/v1"


from openai import OpenAI
client = OpenAI(base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-xxxxx")
resp = client.chat.completions.create(
    model="stepfun-ai/step-3.5-flash",
    messages=[{"role":"user", "content":"用Python寫一個快速排序"}]
)
print(resp.choices[0].message.content)

不只有文本模型。OCR圖片識別、語音對話、文生圖、實時語音轉文字——全在一個平台上。多模態覆蓋度是目前免費平台裏最廣的。

坑：高峯期排隊嚴重，GLM-5和Qwen3.5大參數模型可能等1-2分鐘。日常輕量任務用MiniMax-M2.5和GLM-4.7，體感30-40 tok/s，基本夠用。晚上跑定時任務體驗最好。

實測，如果只是輕量使用prompt輸出內容，按照以下模型列表配置都可以用。

如果在openclaw調用agent使用，step-3.5-flash用起來最穩定可靠。

詳細教程可以參考這篇：往期NVIDIA Build教程

NVIDIA殺瘋了！最強國產模型GLM-4.7/Minimax M2免費無限用（保姆級教程）

阿里Z-Image免費生圖教程：每天2000張圖白嫖指南

2. 智譜AI — 免費模型最穩，200K上下文

免費模型：

類型	模型	上下文	最大輸出
文本	GLM-4-Flash-250414	128K	16K
視覺	GLM-4.6V-Flash	128K	32K
文本	GLM-4.7-Flash	200k	128k

限制：併發30。注意——沒有RPM頻率限制，只有併發限制。這意味着什麼？如果你跑批量任務（比如每分鐘發100次請求但每次處理很快），完全不會被限速。定時任務、自動化腳本的最佳搭檔。

API配置：


base_url = "https://open.bigmodel.cn/api/paas/v4"
model = "glm-4.7-flash"
# OpenAI兼容格式，直接換base_url和api_key

註冊：bigmodel.cn，國內平台，無需任何額外工具

免費模型完整列表和文檔：

https://docs.bigmodel.cn/cn/guide/start/model-overview

不誇張地說，CogVideoX-Flash免費生成4K 60fps視頻這一點，在所有免費平台裏獨一份。

實測，openclaw首選glm-4.7-flash，響應還不錯，能白嫖都是不錯的。

3. Google AI Studio — Gemini免費層

免費模型：Gemini 2.5 Flash / Pro

配額機制：按Project分配，不按Key。開5個Key、10個Key，額度不會疊加。這是很多人踩的第一個坑。

適合：實驗和原型開發。Gemini 2.5 Pro的能力在閉源模型裏屬於第一梯隊，免費能用確實香。

坑：數據可能被用於模型訓練，官方Privacy Policy寫得清楚。開發和測試沒問題，正式業務數據別往裏放。

4. GitHub Models — 不綁信用卡，GPT-4o免費用

門檻：GitHub賬號即可。不綁信用卡，不用任何網絡工具。

免費模型：GPT-4o-mini、Llama系列、Phi系列

限制：15 RPM（每分鐘15次），150 RPD（每天150次）

接入方式：Models API端點，OpenAI兼容格式

一天150次是什麼概念？夠你調試一個完整的功能模塊了。偶爾需要調用GPT系列模型的時候，不用翻牆、不用綁卡，直接用。

5. 硅基流動 — DeepSeek-V3免費，國內延遲低

免費模型：DeepSeek-V3、Qwen3系列

API：OpenAI兼容，國內服務器

限制：免費模型1000 RPM

DeepSeek-V3的推理能力在開源模型裏排第一梯隊。加上國內服務器延遲低，適合對響應速度有要求的項目。1000 RPM的配額也足夠大部分中小項目使用。

6. OpenRouter — Qwen 3.6 Plus免費，100萬上下文

獨家免費：Qwen 3.6 Plus，100萬token上下文窗口

100萬token上下文是什麼概念？一整本《紅樓夢》放進去還有餘量。如果你需要處理超長文檔、批量分析大型代碼庫，這個上下文窗口在免費模型裏沒有對手。

API：OpenAI兼容，一個端點切換所有模型。統一聚合了多個平台模型，按需切換很方便。

OpenRouter彈窗限制？不是bug，是你沒關這個開關

7. Groq — LPU芯片極速推理

速度：60 tok/s，是大多數平台的2-3倍

免費模型：Llama 4 Scout、Mixtral 8x7B等開源模型

限制：1000次/天

Groq自研了LPU（Language Processing Unit）芯片，專門為LLM推理優化。60 tok/s的速度意味着什麼？AI對話幾乎沒有等待感，實時交互場景（比如聊天機器人、語音助手）體驗會好很多。

8. 阿里雲百鍊 — 新用戶100萬Token永久有效

免費模型：Qwen3.5系列

新用戶福利：100萬Token，永久有效，不過期

註冊：阿里雲賬號，國內平台

100萬Token永久有效——注意"永久"兩個字。不是試用30天那種，是真的不過期。對於剛開始學AI開發的人來說，100萬Token足夠跑完整個學習週期了。

9. Cloudflare Workers AI — 每天10000 Neurons

覆蓋：LLM、圖像生成、語音識別、翻譯，多模態全覆蓋

配額：每天10000 Neurons（計算單位，不是Token）

適合：已經在用Cloudflare生態的開發者。Workers函數和AI模型無縫集成，部署一條龍。

哪個最實用？不是最強的那個

說了9個平台，如果只選1-2日常高頻使用的——

智譜AI的GLM-4.7-Flash，step-3.5-flash

原因很直接：

不限頻率，只限併發30。這意味着用OpenClaw這類工具高頻調用完全不受影響。大部分平台要麼限制每天次數，要麼限制每分鐘請求數，智譜只管同時有多少個請求在跑。對於一個定時任務場景，你每分鐘發200次請求但每次50ms就返回，智譜不會攔你。換成別的平台，早就觸發RPM限制了。

200K上下文窗口。免費模型裏最大的。

國內平台，訪問穩定，不用折騰網絡。

從實際使用反饋來看，GLM-4.7-Flash在OpenClaw裏的調用表現：高頻調用不限制，響應穩定，就是最實用的免費模型。

step-3.5-flash也是首選之一，50 tok/s，最快，關鍵是它用起來非常穩定可靠。

需要模型多樣性：NVIDIA Build，189個端點隨你選。

需要速度：Groq，60 tok/s獨一檔。

需要超長上下文：OpenRouter的Qwen 3.6 Plus，100萬token。

需要GPT-4o：GitHub Models，不綁信用卡就能用。

三個坑提前說

配額按Project不按Key。 Google AI Studio這個機制最容易誤解。註冊10個賬號不會給你10倍額度，只會給你10個被封的風險。

免費≠安全。 沒有明確隱私聲明的第三方平台，別接生產流量。開發和測試沒問題，跑正式業務數據還是老老實實用付費版。

搞清楚RPM/TPM/TPD。 RPM是每分鐘請求數，TPM是每分鐘Token數，TPD是每天Token數。不同平台的限制維度不一樣，被限流先看自己超了哪個。

文檔在哪

所有平台的免費模型列表和API文檔：

平台	模型列表 / 文檔
NVIDIA Build	build.nvidia.com/models
智譜AI	docs.bigmodel.cn/cn/guide/start/model-overview
Google AI Studio	aistudio.google.com
GitHub Models	github.com/marketplace/models
硅基流動	siliconflow.cn
OpenRouter	openrouter.ai/models
Groq	console.groq.com
阿里雲百鍊	bailian.console.aliyun.com
Cloudflare	developers.cloudflare.com/workers-ai

免費的終點不是白嫖，是低成本試錯。先用零成本驗證想法到底值不值得投入，驗證通過了再上付費模型。免費的70%日常任務 + 付費的30%重活，一個月下來Token費用省一大半。

這就是Token自由的實際操作方式——不是一分錢不花，是把錢花在刀刃上。