Knowledge Base

閱讀站

首頁而家只顯示最近 50 篇文章,避免文章量愈大愈拖慢首頁載入。

共 74 篇文章
完成

Vibe Coding | 用 .md 文件給 AI 立規矩:設計生成的邊界控制

呢篇文教你點樣用 .md 文件,為 AI 嘅設計生成過程訂立清晰嘅邊界同規矩,確保輸出嘅設計成果能夠嚴格遵守產品嘅設計系統。

完成

分享15個自用的Skills

Claude AI 嘅 Skills 唔係普通外掛,而係一份「說明書」,教佢點樣處理唔同任務。呢篇文章分享咗 15 個作者每日都用嘅必裝 Skills,幫你將 Claude 由「聰明但乜都唔識」嘅狀態,變成真正嘅得力助手。

完成

搞完 Hermes 多 Agent 我才發現,這根本不是技術活,是管理活

Hermes 多 Agent 協作唔係純技術挑戰,而係一門管理學問,要靠精準嘅協作協議同埋角色分工先至搞得掂。

完成

AI能管教孩子嗎?我搭了個Skill試了一下,發現它管的不是孩子,是我

呢篇文講作者點樣用AI Skill嚟解決小朋友嘅管教問題,點知發現個Skill唔係管個細路,反而係幫佢睇清自己嘅行為先係問題根源,仲教佢點樣調整。

完成

DeepSeek-V4-Pro 寫代碼到底行不行?我拿 GLM-5.1 跟它硬碰硬比了一輪

大家好,我是孟健。DeepSeek-V4-Pro 發了,官方說代碼能力大幅升級。這種話我聽得多了,每次新模型發佈都這麼說。但我確實好奇:V4 在寫代碼這件事上,到底有沒有追上 GLM-5.1?GLM-5.1 是我日常寫代碼的主力模型,用了幾個月了,它什麼水平我心裏有數。所以這次我不跑 benchmark,不拼跑分,就拿我實際工作中的四個場景,讓兩個模型正面硬剛。四個場景:源碼分析、功能實現、大文件拆分、項目架構分析。最後再算筆賬,看看成本誰更划算。場景一:項目分析,分析 Claude Code 源碼前段時間 Claude Code 源碼泄露,我用 GLM-5.1 完整分析了一遍 Claude Code 源碼,今天 DeepSeek-V4-Pro 發佈,我同樣也讓它分析一遍源碼看看。基本上值得挖掘的功能,都仔細挖掘了一遍,看起來還不錯。場景二:借鑑 Claude Code 中的代碼,從零開始完整實現一個功能上次我讓 GLM-5.1 分析完 Claude Code 源碼之後,借鑑了代碼中一些有意思的設計和點,重新從零開始完整交付了一個緩存管理系統;今天我們同樣也讓 DeepSeek-V4-Pro 試試看, 看看能否自主從零開始交付一個完整的項目。經過一段時間的等待,可以看到 DeepSeek-V4-Pro 直接借鑑 Claude Code 源碼 幫我實現了10個完整的功能模塊;由此可見,DeepSeek-V4-Pro 的代碼能力確實蠻強的。場景三:拆文件,我剛好手頭有一個項目,一個文件代碼幾千行下面這個代碼文件有1000多行,我們來嘗試一下分別讓 GLM-5.1 和 DeepSeek-V4-Pro 來分別拆分一下試試看。1、DeepSeek-V4-Pro2、GLM-5.1同樣的項目,同樣的文件,同樣的提示詞,我現在讓 GLM-5.1 拆一下看看。現在 GLM-5.1 與 DeepSeek-V4-Pro 都已經對這個超過1000行的代碼文件做完了拆分;GLM-5.1 將這個文件拆分為了4個文件,用時大概8分33秒;DeepSeek-V4-Pro 將這個文件拆分為5個文件,用時大概9分11秒。在速度上,GLM-5.1 稍稍領先,DeepSeek 拆分的更為精細,將 compare 拆分為 通用工具、判斷、新鮮度以及意圖識別4個文件,拆分的更加精細,在代碼文件拆分的精細程度上,似乎 DeepSeek-V4-Pro 略勝一籌。場景四:項目架構分析最近剛好做了一個項目,目前已經上線運行了,但是技術債有點嚴重,剛好藉此時機讓兩個國產模型幫我分析項目架構並給出合理的調整建議。1、DeepSeek-V4-Pro2、GLM-5.1可以看到,現在 DeepSeek-V4-Pro 以及 GLM-5.1 都對我的項目進行了分析並給出完整的分析報告,通過上面的項目架構分析可以看出,DeepSeek-V4-Pro 給出的架構分析比較全面,特別是最後的總結通過表格給出,還從不同的維度給出了評分,最後的一句話總結把項目的優劣都給說到了。GLM-5.1 分析的也不錯,當我讓它開始分析項目的時候,它首先徹底全面的探索了我的整個項目目錄,之後才進行分析,對於整體的項目架構分析的比較紮實;最後更是通過優先級排序的方式給出了項目的優化計劃,最後還明確指出了項目沒有使用D1原生綁定功能,給的建議更加實用,因此感覺GLM-5.1對於整體項目的把握度優 DeepSeek-V4-Pro。關於使用成本DeepSeek-V4-Pro 目前沒有 Coding Plan,所以我是通過API直接接入 Claude Code 進行使用的,今天剛剛充值了100元,上面做了這些工作,花費15.75元。GLM-5.1 因為有 Coding Plan,但是消耗的量也不少;下圖為今日消耗詳情。維度總結維度DeepSeek-V4-ProGLM-5.1評價源碼理解能力⭐⭐⭐⭐⭐⭐⭐⭐⭐V4 能看懂,GLM-5.1 能吃透功能實現質量⭐⭐⭐⭐⭐⭐⭐⭐⭐V4 進步大,邊界處理還差一截大文件處理能力⭐⭐⭐⭐⭐⭐⭐⭐這是差距最大的維度項目架構分析⭐⭐⭐⭐⭐⭐⭐⭐⭐分析的更加紮實,給出的建議更加實用使用成本⭐⭐⭐⭐⭐⭐⭐⭐V4 的傳統優勢結論:追上了嗎?部分追上了,但還沒完全追上。V4 在基礎編碼能力上的進步是實打實的,代碼結構、命名規範、基本邏輯,這些做得都挺好。拿來寫日常的中小功能,完全夠用。但在三個地方,V4 跟 GLM-5.1 還有明顯差距:深度理解:不只是看代碼在做什麼,而是理解為什麼這麼做邊界意識:對異常、錯誤、極端情況的預判和處理長上下文管理:大文件、複雜項目中的全局把控能力對於一些中等、簡單的任務,DeepSeek V4 更像 Claude Sonnet 4.5:不是最貴的旗艦,但速度、成本、質量之間的平衡更好,性價比更高。但如果是複雜項目、源碼級工作、長鏈路 Agent 執行,GLM-5.1 更像 Claude Opus:更重、更強,也更適合關鍵任務。 所以我的建議不是二選一,而是搭配用: 預算緊,但又需要質量,就讓 DeepSeek V4 扛日常任務,讓 GLM-5.1 處理關鍵任務。 簡單任務給 V4,關鍵任務給 GLM-5.1。你平時用哪個模型寫代碼?在評論區聊聊你的體驗。🚀 想要與更多AI愛好者交流,共同成長嗎?和一羣志同道合的人,持續精進 AI 的每一天📚 精選文章推薦我把 Hermes 裏的模型幾乎測了一遍,得出一個很扎心的結論:越貴的,往往越強hermes101.dev 上線了!5 分鐘裝完、7 天入門、OpenClaw 老用戶無痛遷移從OpenClaw、Harness工程到世界模型全覆蓋——AI下半場頂級大會終極議程公佈!Hermes 接入 Kimi K2.6 實測:SOTA 代碼能力,但有兩個真實痛點我把Hermes裏23個Agent全切到GLM-5.1:執行力比GPT強,但有個硬傷對不起,OpenClaw,我選擇 Hermes!我用 OpenClaw 做後端開發:從 Stripe 支付到 AI 生成,全程不寫一行代碼突發:Anthropic 今天起封殺 OpenClaw 用訂閲額度,我的應對方案一行代碼沒手寫,OpenClaw 前端 Agent 100 分鐘做完一個站GLM-5.1 來了:開源模型第一次在長程任務上斷檔領先

完成

【保姆教程】我用 Obsidian +hermes搭了一個會自己整理的知識庫

用 Obsidian + AI Agent 打造會自己整理的知識庫,讓你只管往入面扔嘢

完成

image 2 不限量生圖來了,我用 Lovart 爽玩全棧 AI 設計!

K姐實測 Lovart Image 2 五大設計場景,揭示 AI 生圖工具從「生成」到「交付」的關鍵差距

完成

剪映Agent終於來了!AI自動剪輯~【小白必備】

剪映Agent一句話就能操控整個剪輯流程,仲可以邊生成邊剪,正式宣告視頻創作All in one時代來臨

完成

DeepSeek V4是怎麼訓練出來的?58頁論文深入解讀

勸退提醒: 1、這是一篇很長很長的文章,會深入到DeepSeek V4論文中涉及到的各種細節,如果你不感興趣,只是想知道模型跑分的話,沒必要讀 2、我也沒那麼好的技術能力,這是花了2000萬Opus4.7 tokens讀完內容,並做了73頁PPT之後形成的理解 3、我多少對DeepSeek有些濾鏡,我很喜歡這個公司的做派和風格,所以表達未必客觀中立如果這種情況下,你還願意一起往下探的話,那我們開始吧!在我看來,DeepSeek不是一個衝破天花板的SOTA模型。它真正的價值是把百萬上下文、Agent原生能力、能接受的價格這三件事第一次綁在了一起。而且這次從發佈時間和節奏來說也挺有趣的,其實本來按照大家的預期,V4應當在春節前後發的,實際看來也差不多是那會兒完工。他們論文中對標的也是2月那會的Claude Opus 4.6和GPT-5.4。但它實際發佈卡到了現在,中間又出了Opus 4.7和GPT-5.5。等它正式亮相,對標對象已經換人了。DeepSeek自己解釋說是為了更好地適配國產芯片。害,行吧,也希望國產芯片好好適配下DeepSeek。其實今年1月份時,我已經連着寫了三篇DeepSeek論文解讀:mHC、Engram、OCR 2。當時我的判斷是這些技術大概率都會進V4。現在V4論文打開,mHC進來了,其他一些思路也能看出端倪。這篇文章我會順着這條線講,讓之前讀過那幾篇的朋友能看到完整的故事線。再說結論我們需要重複下開頭的核心結論,以這個視角的話,我們會對DeepSeek V4會有個更合理的預期,那就是👇這不是一個衝破AGI天花板的世界最佳模型,但屬於是一個讓普通開發者第一次能夠放心地用上100萬上下文Agent模型的發佈。這兩者的差別非常大。前者是衝頂峯的敍事,需要在各個benchmark上全面擊敗Opus 4.7、GPT-5.5、Gemini 3.1 Pro。V4還做不到。後者是抬地板的敍事。100萬token上下文這件事,之前不是沒有模型能做到,但要麼極貴(Opus、DeepSeek那檔),要麼效果會顯著衰減(很多國產模型128K以上就明顯掉分)。V4做的事情是把「100萬長上下文」+「Agent多步調用能力」+「能接受的價格」這三件事第一次組合到一起。對閉源旗艦來說,V4不構成威脅。對一個想在產品裏塞入長上下文的獨立開發者來說,V4意味着幾乎所有的上下文節省工作都可以先不做了(對的,RAG和很多別的AI敍事一樣,只要你不學,等着等着你就可以不必學了)業內有個說法:閉源模型卷能力天花板,開源模型卷地板,地板抬高的速度決定AI應用爆發的規模。V4把這個地板往上抬了抬。V4-Pro 和 V4-Flash:兩個定位不一樣的模型這次DeepSeek發的是兩個模型。V4-Pro的總參數量比V3的671B翻了2.4倍。激活參數從37B漲到49B,只多了三成左右。走的是「稀疏度再提高」的路線。這裏要稍微解釋一下MoE模型的工作方式。V4-Pro一共有300多個專家(routed experts)加上1個共享專家。每次處理一個token的時候,它不是把所有專家都調動起來,而是隻激活其中6個+共享專家,一共7個專家參與回答。這有點像一個有384位專家的公司,每個決策只召集7個人開會,不搞全員表決。激活的參數量少,推理速度就快,成本也能壓下來。V4-Pro的定位是「開源陣營裏能跟閉源旗艦掰手腕的那個」。但DeepSeek自己在論文裏也誠實地說了一件事:因為現在高端算力受限,Pro的服務吞吐很有限,所以Pro版本的API價格目前不算便宜,預計下半年才能降下來。V4-Flash是真正符合DeepSeek一貫風格的那個模型。它的參數規模是V4-Pro的約六分之一,但在很多基礎能力上已經反超了V3.2。這意味着架構改進和數據質量的收益,足夠抵消參數規模的差距。Flash的價格相比同類快速模型,大概是他們的1/7到1/18。如果你是獨立開發者,我的建議很明確:AI編程、寫作、複雜任務、關鍵決策場景用Opus 4.7這類;批量任務、Agent後台、數據處理用V4-Flash。架構動了哪些刀V4沒有推倒V3重來。MoE框架沿用的還是DeepSeekMoE,MTP模塊沒動,訓練細節也大多延續V3。真正大改的地方只有三處:殘差連接升級成mHC注意力拆成CSA+HCA的混合架構優化器從AdamW換成Muon這三處改動各自解決一個具體痛點。殘差連接在堆深時數值不穩定,限制了把模型做大;傳統注意力在百萬token長上下文下KV cache爆炸,算力根本扛不住;AdamW在超大規模MoE訓練上收斂慢、偏科嚴重。V4相當於把V3的三個瓶頸逐一拆掉。mHC:給殘差連接加一道只准收縮不準放大的護欄mHC我在1月那篇mHC論文解讀裏已經完整講過了,這裏長話短說。殘差連接是深度學習用了整整十年的基礎設計。2015年何愷明的ResNet開始,到現在的每一個大模型都離不開它。它做的事情,用一句話說就是給信號開了一條「快車道」:不管中間那些層學到了什麼,原始信號都能直接順着這條高速公路原封不動傳到後面。這就是所謂的「恆等映射」。這個設計本身沒問題。問題出在對它的第一次升級上。2024年底,字節Seed團隊發了一篇叫Hyper-Connections(HC)的論文,後來中了ICLR 2025。HC把單通道的殘差流擴展成多通道,讓模型自己學習最優的連接方式。DeepSeek一開始也是沿着這條路線往下走的,但踩到了HC的一個致命缺陷:訓練不穩定。不穩定到什麼程度?DeepSeek在1月那篇mHC論文裏給過一個很震撼的數字:在27B模型上,HC的信號放大倍數峯值達到3000倍。也就是說,信號在網絡裏傳着傳着,被放大了3000倍,梯度也隨之被放大3000倍。訓練到某一步突然崩掉是家常便飯。mHC解決這個問題的思路,我覺得最形象的說法還是1月文章裏那句:給殘差連接加了一道「只准收縮不準放大」的數學護欄。用一個畫面講清楚。信號在網絡裏一層層往下傳,可以想象成把一杯水倒進下一個杯子。HC的做法是把一根水管變成四根,每根流量讓模型自己學。靈活是靈活了,但沒人管總量。倒着倒着水越倒越多,到第60層的時候已經是原來的3000倍,杯子直接爆了。mHC的做法是強制每一層倒水都守恆。不管四根水管怎麼分配、怎麼混合,進多少水就出多少水,一滴不多一滴不少。這個約束的數學工具叫「雙隨機矩陣」,名字嚇人,本質就是一張分配表:每一行加起來等於1,每一列加起來也等於1。這兩個條件加起來,天然保證了水不會憑空變多。更舒服的是,兩張雙隨機矩陣乘在一起還是雙隨機矩陣,所以不管你堆多少層,守恆這件事都不會失效。代價是模型不能自由學這張表,每一層都要用一個叫Sinkhorn-Knopp的算法迭代20次,把學出來的東西壓回守恆的形狀。相比訓練崩掉的損失,這個代價不算什麼。mHC帶來的直接結果是:V4能把模型從V3的671B推到1.6T,參數量2.4倍增長,訓練穩定性反而比V3更好。這是理解V4能「做大」的第一把鑰匙。CSA + HCA:讀一本800頁的書,先翻目錄再精讀這是整篇論文我覺得工程含量最高的地方,也是V4百萬上下文能落地的核心。先說清楚一件事:為什麼100萬上下文這麼難做?標準的注意力機制,每個新來的token都要和前面所有token算一次內積。如果把4K上下文換成100萬上下文,需要算的內積數量是4000倍,顯存佔用也是4000倍。粗略估算下來,100萬上下文的單次推理成本比4K高約6萬倍。這堵「算力牆」和「顯存牆」加起來,是大多數模型在128K-200K就停住的原因。V4的解法是把注意力機制拆成兩種,在Transformer不同的層裏交替使用。CSA(Compressed Sparse Attention)走精細路線。它把每m個token壓縮成1個塊,然後用一個叫Lightning Indexer的小模塊算每個query和每個壓縮塊的相關性分數,只挑分數最高的top-k個塊去做真正的注意力計算。HCA(Heavily Compressed Attention)走粗略路線。它的壓縮率m'遠比m大(通常是幾十倍),但不做稀疏篩選,query會dense地把所有壓縮塊都掃一遍。犧牲細粒度,換極致的KV cache壓縮。我覺得這兩種注意力最好的比喻就是讀一本800頁的書。你不會逐字讀完。大概率是這樣:先翻目錄,定位到有用的那幾章;翻到那一章後掃一下小標題,定位到第幾頁;最後才精讀那幾頁。這是一個先粗後細的過程。V4把這個動作拆成了兩種獨立的機制,交替安排在不同的層裏:CSA做的是「掃小標題定位」:先把每64個token揉成一塊,給每塊打分,挑出最相關的幾塊去精讀HCA做的是「翻目錄看大意」:直接把1024個token壓成一塊,一本800頁的書可能只剩幾十塊大摘要,每個新來的token都把這幾十塊全掃一遍兩者加起來,V4在100萬上下文下的單次推理成本,只有V3.2的約1/4。KV cache佔用只有傳統BF16 GQA8 baseline的約2%。把50份壓成1份,這是百萬上下文真正能跑起來的數學原因。論文裏還有一堆工程細節,比如兩種注意力都用Shared KV MQA進一步省cache,都加了sliding window分支保證局部細節不丟,都用了attention sink讓query可以「棄權」。這些工程活不好解釋,但每一個都在扣效率。這是理解V4能「讀長」的第二把鑰匙。Muon:別每個旋鈕單獨調,整組一起掰Muon是V4用來替代AdamW的優化器。改動的技術深度很足,但可以用畫面感拆開說。先說優化器是幹嘛的。模型訓練就一句話:猜一個答案,對照正確答案,根據錯的方向調整自己。優化器決定的就是「具體怎麼調」。AdamW是過去十年行業默認的優化器。它的邏輯是:模型內部有幾十億個旋鈕要調,每個旋鈕單獨看它過去抖得厲害不厲害,抖得厲害就調慢一點,抖得少就調猛一點。聽起來挺合理。問題是這些旋鈕不獨立。它們是同一台機器上的幾十億個零件,彼此聯動。AdamW單獨看每個旋鈕的歷史做判斷,結果就是模型在參數空間裏走出來的軌跡是個極度扁的橢圓:少數幾個「熱門方向」步子邁得特別大,推到病態的程度;其他方向幾乎沒動過,等於沒學。說得更直白點,AdamW訓出來的模型會偏科。Muon反過來想。它不看單個旋鈕,而是看這一整組旋鈕合起來在往哪個方向走,然後把這個方向的更新強行「拉平」:原本邁得特別大的方向壓一壓,幾乎沒動的方向拉一拉,讓每個方向都走一樣遠。數學上這個操作叫「正交化」,畫面感上就是把原本歪扁的橢圓硬掰成一個正圓。好處是什麼?原本被AdamW淹沒的冷門方向,現在能和熱門方向拿一樣的步長。模型探索範圍更廣,收斂更穩。Muon天生有個成本問題:每一步都要把橢圓掰成正圓,直接算要做矩陣分解,太貴。V4用了一個近似辦法(Newton-Schulz迭代),10步搞定一次掰正,前8步用激進係數快速逼近,後2步切換温和係數做精修。工程上剛好不貴。一個細節:V4沒把所有參數都交給Muon。embedding、prediction head、RMSNorm這些本來就不是矩陣、沒有「方向」概念的參數,還是AdamW管。Muon和AdamW各管一攤。這是理解V4能「訓深」的第三把鑰匙。1.6T怎麼訓穩的:兩個他們自己也不懂的trick把模型從671B推到1.6T,光有mHC還不夠。訓練1.6T的MoE時,V4團隊遇到了loss spike(訓練損失突然飆升,前幾輪學的東西都被噪聲污染),簡單的回滾保存點也救不回來,剛回滾完沒多久又崩。他們最終用了兩個辦法把訓練救回來。一個叫Anticipatory Routing(預判式路由)。MoE模型裏有個「路由器」負責每一步挑哪幾個專家上場,這個路由器本身也是學出來的。訓練崩潰的惡性循環是這樣:某一步某個專家輸出了一個異常大的數,這個異常讓路由器誤以為「這個專家真強」,下一步派給它更多任務,它輸出更離譜的數,路由器越挑越偏,訓練崩了。解法特別巧:讓路由器用「昨天的腦子」做「今天的決定」。主幹網絡的更新和路由器解耦,主幹用當前參數算,但路由器挑專家時查的是前幾步的歷史參數。今天網絡再怎麼抽風,路由器用的是沒被污染的舊腦子,惡性循環就斷了。另一個叫SwiGLU Clamping。SwiGLU是模型裏的激活函數,可以理解為每個神經元的「水龍頭」。正常情況水龍頭開多大都行,但在1.6T這個規模上,某些神經元會突然爆出極大的數值,把整個訓練帶崩。DeepSeek的做法簡單粗暴:給SwiGLU內部的幾個關鍵數值強行加一個上下限(-10到10之間),哪怕某個神經元想輸出一萬,也只能給你10。這兩個trick為什麼有效?DeepSeek自己在論文裏說,他們也不完全清楚。原話是「the underlying principles of these mechanisms remain insufficiently understood」。他們只知道:用了,有效,就這麼用。至於為什麼,希望社區一起探索。我覺得這個細節值得單獨拎出來講。過去我們看到的很多技術報告,總是在事後給方法找一套漂亮的理論解釋,好像研究者從一開始就想得很清楚。但實際工程裏,很多時候是先做出來再理解。DeepSeek不藏這個,白紙黑字寫進論文裏。這種坦誠在國內團隊裏並不多見。今年1月我寫R1論文更新那篇時說過,DeepSeek的「Open」不是做到行業平均水平就夠了,而是包括那些失敗的嘗試、沒搞懂的trick、踩過的坑都一併開出來。V4這篇報告延續了這個風格。訓練數據:32T tokens,反AI生成、加Agent、加多語言V4的預訓練數據比V3更大(33T vs V3的14.8T),也更講究。幾個關鍵動作:反模型坍縮。互聯網語料裏現在充斥着大量AI生成的文本。如果不做過濾,訓練出來的模型會出現「模型坍縮」(model collapse):每一代都在上一代的AI輸出上訓練,能力會越來越差。DeepSeek專門做了一套過濾,把批量自動生成和套模板的內容攔掉。中期訓練引入Agent數據。工具調用軌跡、多步推理、搜索片段這些,不能靠後訓練硬掰,必須在預訓練中期就喂進去。這是V4-Flash的Agent能力躍升的關鍵原料。多語言擴容。擴充了除中英外的長尾語言,覆蓋不同文化的知識。所以你用V4做翻譯、或者查一些非英文語言的長尾知識,效果會比V3好不少。精選長文檔。科學論文、技術報告這類「學術價值獨特」的材料被重點收錄。訓練數據規模上,Pro版本是33T tokens,Flash版本是32T tokens。分詞沿用V3的128K詞表。序列長度是分階段擴展的:從4K起步,逐步擴到16K、64K、1M。稀疏注意力也是分階段引入:前1T tokens先用dense attention熱身,到64K序列長度時切到sparse attention。這種漸進式訓練在超長上下文模型裏已經是事實標準,但V4的階段切換時機設計比較精細。後訓練:Specialist + OPD,一個被低估的範式變化如果說架構改動是V4最顯眼的變化,那後訓練範式的變化其實是這篇報告最深刻的變化。V4在後訓練章節的第一句話就很有趣:the mixed Reinforcement Learning (RL) stage was entirely replaced by On-Policy Distillation (OPD).翻譯過來就是:混合RL階段被徹底替換成在策略蒸餾。這句話我覺得像是範式級別的轉變了。為什麼要替換傳統後訓練是「SFT+RLHF混煉」的路子:一個大雜燴數據集,SFT打底,再用一個reward model做RL。問題是什麼?數學、代碼、Agent、對話這些能力在RL階段會互相打架。你調數學的reward權重,代碼能力可能就掉了;你加Agent數據,對話又變笨。多任務聯合優化的「負遷移」問題,幾乎每個做過後訓練的團隊都踩過坑。DeepSeek的解法是把「聯合優化」拆成「分治+合併」:Stage 1 Specialist訓練:每個領域(推理、數學、代碼、Agent、通用對話)單獨訓練一個專家模型。先SFT,再用GRPO做RL。每個專家只管自己那塊,reward signal清晰,不用跟其他領域折中。Stage 2 On-Policy Distillation:把十多個專家模型當老師,通過反向KL loss蒸餾出一個統一的學生模型。這個拆分的妙處在於:RL只在專家階段做,最終的學生模型不做RL,只做蒸餾。RL的訓練不穩定性被隔離在專家模型內部,學生模型通過更穩定的蒸餾loss拿到所有專家的能力。反向KL是關鍵OPD的技術細節裏,有一個點特別值得講:為什麼用反向KL而不是正向KL?正向KL是讓學生去cover老師的所有模式,結果往往學成四不像。反向KL是讓學生集中在老師分佈的高概率區域,學生會自動「選老師」:數學任務時對齊數學專家,代碼任務時對齊代碼專家。這個「自動路由」的特性,是多老師蒸餾能跑通的關鍵。為什麼這個範式重要講到這裏可能有朋友要問:這個東西對獨立開發者有什麼意義?我的判斷是,這可能是比MoE更深刻的範式變化。MoE是推理時混合(runtime mixture),OPD蒸餾是訓練時混合(training time mixture)。後者的組合空間大得多。這個範式天然適合幾類場景:小團隊:沒錢一開始就訓大模型,但可以訓多個小specialist,最後蒸餾融合垂直應用:法律/醫療/代碼各訓一個專家,最後合併持續學習:要增加新能力時,訓一個新專家加入蒸餾池就行,不破壞老模型只要你能訓出專家,就能通過OPD合進來。未來想加新能力(比如「寫毛筆字」「解幾何題」),路徑很清晰:訓專家→加入蒸餾池。這比RLHF要改reward、要重跑全流程友好得多。這個範式會不會成為新的行業標準,目前還不好說。但V4已經用了十多個專家模型做OPD,證明在萬億參數級別它是可行的。評測結果:強在哪,弱在哪評測是V4論文裏最重要的部分之一,也是最容易被誤讀的部分。我直接把我的判斷列出來。數學推理:反超閉源旗艦V4-Pro在幾個數學類benchmark上拿到了開源陣營前所未有的高分:BenchmarkV4-Pro-Max對比Putnam-2025(形式化證明)120/120 滿分超過Axiom和Seed-ProverApex Shortlist90.2全場第一,超過Gemini 3.1 ProIMOAnswerBench89.8接近GPT-5.4的91.4HMMT 2026 Feb95.2僅次於GPT-5.4Codeforces的競賽評分V4-Pro能達到3206分,對應人類選手第23名。這是非常離譜的水平。編程:LiveCodeBench和Codeforces雙第一V4-Pro在LiveCodeBench拿到93.5分,Codeforces Rating 3206。DeepSeek論文裏明確寫了,這是第一次開源模型在這兩項任務上追平閉源。但注意一個細節:SWE系列(真實工程代碼任務)就沒那麼亮眼了。SWE Verified 80.6分接近Opus 4.6的80.8但沒超過,SWE Multilingual也略輸。這就對應上了DeepSeek論文裏自己的總結:V4模型非常擅長做題,但品味上還差一些火候。競賽類任務有明確答案,RL能反覆打磨;工程類任務要綜合考慮代碼風格、架構、可維護性,這些品味層面的東西現在的RL訓練還吃不透。Agent:全方位落後閉源這是V4最弱的一塊。BenchmarkV4-Pro-Max最強Terminal Bench 2.067.9GPT-5.4: 75.1BrowseComp83.4Gemini 3.1: 85.9HLE w/ tools48.2Opus 4.6: 53.1(甚至輸給K2.6)GDPval-AA (Elo)1554GPT-5.4: 1674Terminal Bench 2.0落後GPT-5.4整整7分,HLE w/ tools落後Opus 4.6整整5分。DeepSeek論文裏非常誠實地寫了:「所有開源模型仍落後閉源對手」。唯一的亮點是MCPAtlas Public(73.6),僅次於Opus的73.8。說明V4在通用工具調用和MCP服務上泛化能力不錯,不是隻在內部框架裏打雞血。真實編程任務:接近Opus 4.5,差Opus 4.6 Thinking 13分DeepSeek自己拿200多個真實的內部R&D編程任務做了測試,來自50多位工程師日常工作中提的真實需求,覆蓋PyTorch、CUDA、Rust、C++:模型R&D編程通過率Claude Haiku 4.513%Claude Sonnet 4.547%DeepSeek V4-Pro-Max67%Claude Opus 4.570%Claude Opus 4.5 Thinking73%Claude Opus 4.6 Thinking80%V4-Pro的67%已經超過Sonnet 4.5(47%),接近Opus 4.5(70%),但距離Opus 4.6 Thinking(80%)還差13個百分點。這組數據是DeepSeek論文發佈時跑的,當時Claude最新是4.6 Thinking。現在Opus 4.7 Thinking已經發布,V4和當前最強閉源的真實差距大概是6個月到1年的研發時間。談不上「完全追平」,也算不上「落後一代」。中文場景:真正的第一梯隊中文寫作是V4-Pro少數能對Opus 4.5掰手腕的地方:意思就是日常中文寫作對Gemini是碾壓級,複雜指令跟隨對Opus 4.5仍然有差距。論文裏吐槽Gemini經常「讓自己的風格偏好壓過用戶的明確需求」(擅自加戲),這個描述我讀完忍不住笑了一下。長上下文:128K內穩如狗,1M勉強能用BenchmarkV4-ProOpus 4.6Gemini 3.1MRCR 1M83.592.976.3CorpusQA 1M62.071.753.8V4在1M長上下文的檢索任務上超過Gemini,但落後Claude Opus 4.6。MRCR 8-needle測試顯示128K以內性能穩定在0.9以上,256K後開始掉到0.82,到1024K降至0.59。128K以內基本沒有性能衰減,1M勉強能用。這是CSA+HCA混合架構帶來的實際收益。對大多數Agent和代碼場景,128K已經足夠。一個特點:為什麼V4這麼偏科?讀完整份報告,加上這些benchmark結果,有一個很鮮明的模式浮出來:V4特別擅長做題,但在品味型任務上差一檔。數學競賽Putnam滿分,Codeforces拿到人類選手第23名,LiveCodeBench全場第一。但創意寫作輸給Opus 4.5,Agent任務落後GPT-5.4,HLE通用知識被Gemini壓制。我自己的理解是:這和DeepSeek招的人有關。DeepSeek的招聘以競賽獲獎選手為主。這些人擅長什麼?擅長在給定規則下把單點做到極致,擅長解有明確答案的題。模型訓練的偏好會受數據團隊、訓練團隊、評估團隊的品味影響,這些品味又受團隊成員的背景影響。所以V4在有明確答案的任務上表現頂尖(數學、競賽編程),在需要綜合品味的任務上(創意寫作、長鏈Agent、通用工程編程)就會相對偏弱。這只是一個觀察,談不上批評。模型的性格映射着團隊的性格,這件事很多時候比人們想象的更直接。DeepSeek還是那個DeepSeek嗎?寫到這裏不得不問一個問題:V4時代的DeepSeek,和V3時代比,變了嗎?我的回答是:變了,但沒變味。V3時代的DeepSeek是「小團隊、極致工程、帶來驚喜」。V4時代的DeepSeek打開論文附錄,研究工程作者名單已經超過300人,加上商業和合規接近350人。這不再是那個幾十人的實驗室。但有幾個東西沒變。一個是工程至上。V4的創新重點不在高層架構設計,而在「信號怎麼流動」和「梯度怎麼更新」這兩個底層問題上。mHC解決深度scale的數值穩定性,CSA+HCA解決上下文scale的算力和內存,Muon解決參數scale的訓練效率。每一項都是回答「為什麼V3做不大」的問題。我在1月那篇mHC解讀裏寫過一句話:DeepSeek的技術哲學是去質疑那些所有人都覺得沒必要改的東西。V4這篇論文把這句話又紮紮實實兑現了一次。殘差連接改了,注意力機制改了,優化器也改了。每一處都是行業裏默認不動的底座。另一個是誠實。承認架構「太複雜」(原文:retained many preliminarily validated components which made the architecture relatively complex),承認訓練穩定性機制「不理解」(原文:underlying principles remain insufficiently understood),承認sparse還不夠極致,承認Agent能力落後閉源。這些話寫進一篇技術報告裏,放到國內同行裏幾乎找不到第二家。還有一條是Open是真Open。R1的86頁更新補全了訓練賬單和數據配方,V4的58頁繼續補全基礎設施的每個縫隙。不是「開源權重就完了」的Open,是一份讓別人真的能復現的Open。DeepSeek在發佈V4的時候引用了一句話:不誘於譽,不恐於誹,率道而行,端然正己。不被讚譽誘惑,不被誹謗嚇退,按自己的道走,端正自己。這句話可能比58頁的論文技術細節更能解釋這家公司。最後回到開頭那條線。1月那三篇解讀,mHC確實進V4了。Engram和OCR 2呢?1月Engram那篇我用的比喻是「給大模型發一本字典」:靜態知識直接查表,不浪費網絡深度現場推理。V4這次沒把這本字典裝進來,但論文明確把「沿新維度繼續稀疏化」列進了未來路線圖,參考文獻正是Engram那篇論文。OCR 2的視覺因果流也沒進V4,但多模態被明確寫進V5的方向(原文:incorporating multimodal capabilities)。所以下一代DeepSeek大概率會是這樣的輪廓:原生多模態(OCR 2這一脈的延伸)、引入某種可擴展的查找式記憶(Engram這一脈的延伸)、進一步降低延遲(為Agent交互做準備)、更長的long-horizon multi-round agentic能力。V5什麼時候發我不好預測。但DeepSeek的節奏已經固定下來:論文先鋪路,模型後亮相。V4論文裏寫了未來方向,剩下的就是時間。V4顯然談不上對Opus 4.7或GPT-5.5的超越,它是開源陣營的一次基礎設施級更新。把百萬token上下文、Agent原生支持、成本優勢打包成一個可複用的底座。真正的價值不在V4-Pro能不能打贏最強閉源,而在V4-Flash讓每一個獨立開發者都能在自己的產品裏塞進百萬上下文。閉源卷天花板,開源卷地板。更有意思的故事,會在V5身上。參考資料:DeepSeek V4技術報告:見DeepSeek官方GitHub(deepseek-ai/DeepSeek-V4)DeepSeek R1論文v2(86頁):arxiv.org/abs/2501.12948我做的73頁PPT:https://github.com/alchaincyf/deepseek-v4-deep-dive我之前寫的DeepSeek論文解讀系列(mHC、Engram、OCR 2、R1更新)可以在公眾號歷史文章裏搜到

完成

我開源了復刻網站設計為 DESIGN.md 的 Skill,讓你的 Agent 完美復刻所有網站!

用呢個開源 Skill 將任意網站自動生成 DESIGN.md,Agent 跟住做就可以復刻靚 Design

完成

這個 SKILL 專注把你的文檔和內容變得更好看和專業

這兩天看到一個我很喜歡的開源 SKILL:Kami (紙, かみ),才發佈 1 天已經有 3K Star⭐,可見其質量。它解決的是文檔排版和視覺設計的問題,內容重要,但內容的呈現,同樣重要。簡單的說,和其他 DESIGN.md 區別是: 它專門為文檔排版能力定製了一套主題規範,並且把文檔、文稿中的許多格式和細節都考量到了,保證給到你一份盡善盡美的視覺排版方案。還有更多排版規範,可以去網站上查看。它提供的是一套 AI 原生的文檔排版能力,適用於單頁文檔、簡歷、作品集、信函、長文檔、幻燈片等場景。比如說你需要產出一頁紙的報告,你需要寫一個白皮書、需要產出一個精緻的PPT、需要弄一個作品集的 PDF 發給別人等等,也就是任何排版的打印場景都可以使用,自動生成精緻PDF,裏面還具備自動繪製清晰圖的能力。從實際工作中的視角來看:當文案已經寫完,結構已經清楚,但為了交付,還要花大量時間調整字體、間距、分頁、封面、圖表清晰度、PDF 導出效果。尤其是做簡歷、作品集、提案 PPT、白皮書時,這些細節很耗時間。Kami 把這些工作前置成系統能力。你不需要從零開始搭版式,也不需要反覆微調導出設置,而是直接獲得一份有秩序、有審美、適合傳播的文檔結果。這種體驗,對內容創作者、設計師、產品經理、獨立開發者都會很有價值。我尤其喜歡它的幾個點,不同於通用性的 DESIGN.md第一,是定位非常清楚。它沒有試圖做一個什麼都能裝進去的平台,而是專注 Paper 排版場景:所有需要輸出成正式文檔的場景,都可以交給它。這種剋制感很難得。第二,是審美在線。作者提到自己喜歡簡潔、清晰、美觀的設計方案,但不喜歡現在千篇一律的 AI Design 風格。所以 Kami 的氣質不是模板感很重的“生成器產品”,而更像認真設計過的出版工具。這個差別,設計師會很容易感受到。第三,是它很符合 AI 時代的工作流。AI 負責生成內容,Kami 負責讓內容變得專業。這種分工很自然,也很高效。未來很多工具都會如此:不是替代思考,而是優化表達。如果你經常需要輸出 PDF、作品集、簡歷、報告、演示文稿,我建議你去看看 Kami。地址在這裏:網站:kami.tw93.fun倉庫:github.com/tw93/kami安裝與使用直接告訴 Claude 你要什麼,比如「幫我排版一份白皮書」「做一份簡歷」「幫我做一份作品集」,skill 會自動觸發,無需斜槓命令。# Claude Codenpx skills add tw93/kami -a claude-code -g -y# Codexnpx skills add tw93/kami -a codex -g -y另外附上作者 Tw93 的開源全家福最後不要說覺得不喜歡這套視覺、或者擔心千篇一律的設計,重點在於,它不只是單純的一個排版主題 Skill,它已經把所有細節細琢好了,端上桌了,給了你一把鏟子了,任何人都可以拿這份規範,定製自己的主題規範,應用到實際工作流中。 千人千面,不同的想法和審美,得到的結果自然是不同的。我是 Rico,感謝閲讀!

完成

Obsidian NewLife 功能升級:筆記帶天氣!

Obsidian NewLife 1.1 升級:每日筆記自動帶天氣,介面優化更聚焦核心操作

完成

開源一個 PPT Skill|壓進了我 10 年的設計經驗

開源一個 PPT Skill,用 HTML 做出雜誌風簡報,壓曬十年設計經驗

完成

為什麼SVG能在AI時代走紅

SVG係AI時代嘅圖文解答——佢係文本,可以版本管理,仲可以直接俾AI生成同修改

完成

Claude design和Claude+Figma MCP的區別,用哪個好?

Claude Design 同 Claude + Figma MCP 各有優勢,追求快狠準就選前者,追求穩陣團隊流就選後者,最緊要視項目需求揀工具。

完成

從零手把手教你寫一個簡易版 Claude Code:基礎篇

Claude Code 核心就係一個 ReAct 循環,用 100 行 Python 手搓出嚟,讓 AI Agent 自己思考、行動、驗證,完成複雜任務如寫貪食蛇或總結網頁。呢個內核簡單到爆,讀完即跑即改,唔使啃十幾萬行源碼。

完成

比 Claude Design 更值錢的,是泄露的 422 行設計哲學

Anthropic 將設計審美寫入系統提示詞,令 422 行泄漏提示詞比 Claude Design 本身更有價值

完成

提示詞救命神器!拯救所有不會寫提示詞的人!!!

一個登上 GitHub 熱門榜、斬獲 26k star 嘅提示詞優化工具,完全開源免費幫你將模糊提示詞秒變專業版本

完成

我們能從Claude Design提示詞中學到什麼

Claude Design嘅系統提示詞揭示咗點樣將通用AI模型塑造成專業設計師,重點係角色定位、工作流程同負面清單。

完成

Google剛剛總結5種Agent設計模式:讓AI連續工作7天不崩

Google提出五種設計模式,確保AI Agent能連續運行多日而不崩潰

完成

4千萬token實測 DeepSeek V4,不簡單。。。

DeepSeek V4 預覽版實測:長上下文能力顯著提升,但複雜工程場景下仍有不足,國產化決心值得肯定。

完成

花叔不公開的寫作 Skill,我逆向出來了

逆向拆解花叔嘅橙皮書寫作系統,將佢嘅高質素技術寫作方法開源,仲用嚟寫咗本 DeerFlow 實戰書

完成

用了這個 GPT-5.5,Codex 額度一下午就燒完了

GPT-5.5 實測:性能登頂但額度消耗驚人,Agent 能力進化至「自動驗收」新階段。

完成

GPT-5.5 今日發佈

GPT-5.5 正式登場:由「答題機器」進化成「執行 Agent」,編程與科研能力有質的飛躍。

完成

深扒 Nano Banana 2 超多趣味玩法,速度快還要效果好!

Google Nano Banana 2 (Gemini 3.1 Flash Image) 實測:主打快、準、平,係批量出圖同埋長圖設計嘅性價比之選。

完成

我做了個萬能生圖 Skill,人人都可以定製設計 Agent

Skill 正在拆解 SaaS 軟件功能,一個 Markdown 文件就能手搓出萬能生圖 Agent。

完成

今年看到的最有意思的 AI 產品

Loopit 開闢 AI 互動內容新賽道,將 VibeCoding 轉化為「人人皆可創作」的互動版抖音。

完成

我分析了 1000 個 skills,這是最推薦的 30 個

Skill 正在重新定義 AI 時代嘅 App Store,透過 30 個頂尖 Skill 睇清 Agent 點樣由「吹水」進化到「做實事」。

完成

贈7天會員!字節AnyGen多項功能實測分享。

字節跳動海外 AI 工作平台 AnyGen 實測:語音驅動協作,主打深度文檔編輯與多功能調研。

完成

Coze Skills最新實測:我的分鏡一條龍+PPT克隆,在技能商店免費用

Coze 2.0 實測:將個人經驗打包成「技能」賺錢,再用「長期計劃」等 AI 幫你主動追進度。

完成

視頻分鏡提示詞Skill,詳細製作過程分享!

將劇本自動化轉化為 AI 影片分鏡提示詞的 Skill 製作全攻略,教你點樣用結構化思維拆解複雜任務。

完成

邪修方法論,用星流玩轉AI生圖九宮格!

利用星流 Agent 嘅「九宮格延展法」,可以喺 AI 生圖時完美解決角色一致性痛點,一次過產出高質量嘅系列視覺資產。

完成

被 Seedance 2.0 的強者光芒亮得睡不着覺了。

Seedance 2.0 震撼登場,憑藉強大嘅多模態輸入同語義理解能力,令 AI 影片生成進入「全能參考」新時代。

完成

一覺醒來Kimi的Vibe Coding已經是鈕祜祿版本了,7個case上手實測!

Kimi K2.5 升級後 Vibe Coding 實力大爆發,靠視覺理解同 Agent 集羣,用口語就整到高質量網頁同遊戲。

完成

只用一天Opus4.6+Agent Teams做了個ClaudeCode桌面端:已開源

作者利用 Opus 4.6 配合 Agent Teams 模式,僅用一日就開發出功能完備且開源的 Claude Code 桌面客戶端 CodePilot。

完成

手撕Sora,腳踢Veo!13個行業實戰案例,Seedance 2.0玩法大全

Seedance 2.0 唔止係畫質提升,而係具備「導演思維」嘅影片生成革命,一句話就能夠將行業知識轉化為專業級短片。

完成

過了個年,AI 圈變天了?但沒人告訴你為什麼

AI 已經由「你問佢答」進化成「幫你做嘢」嘅 Agent 時代,核心競爭力由執行力轉向判斷力。

完成

讓你的 ClaudeCode 秒變 Openclaw(龍蝦),連接飛書、Discord 遠程控制

透過 Claude-to-IM 工具,將 Claude Code 遠端接入飛書或 Discord,實現隨時隨地 Vibe Coding。

完成

”為什麼我開始反對 Vibe Coding?“

Vibe Coding 的代價:當你將判斷力外包給 Agent,你失去的是對系統的掌控權與成長機會。

完成

當Karpathy的LLM Wiki遇上本體論:一場知識表示的終極融合

將 Karpathy 的 LLM Wiki 理念與傳統本體論結合,構建一套「既不幻覺、又不僵化」的企業級知識架構。

完成

分享一個我用了2年的深度研究Prompt,半小時幫你搞懂任何陌生領域。

利用「橫縱分析法」結合 AI 深度研究功能,半小時內即可建立陌生領域的完整認知框架。

完成

AI Coding 給我的不是效率,是重構自由

AI Coding 的核心價值不在於提升開發速度,而是賦予開發者「推倒重來」的重構自由。

完成

我做了一個持續更新的 GPT-Image-2 提示詞網站

GPT-Image-2 已進入商業落地階段,透過結構化提示詞公式與實戰資料庫,可將「抽卡式」繪圖轉化為穩定產出的專業工具。

完成

Image 2能批量生圖了,23個真實場景和提示語一口氣學會!

Image 2 結合 Lovart 實現批量生圖與精準編輯,重新定義 AI 資訊圖表與 UI 設計工作流。

完成

Claude Design 只是開始:AI 實驗室正在一個一個地吃掉 SaaS 公司

AI 實驗室正以「結構性優勢」吞噬 SaaS 市場,Claude Design 的出現標誌著從功能競爭轉向用戶羣替代的「SaaS 末日」。

完成

用AI Agent建個日程卻花了十多分鐘,還不如自己來?先別急着卸載

AI Agent 第一次用覺得慢係正常「入職期」,要分清係產品問題定係初始化成本。

完成

Claude Design 實戰篇 —— 5 個能直接抄的提示詞,外加一套別想偷懶的地基

Claude Design 實戰指南:拒絕 AI Slop 的「地基」法則與 5 大高頻場景提示詞。

完成

我把 Hermes 裏的模型幾乎測了一遍,得出一個很扎心的結論:越貴的,往往越強

模型價格往往與生產力成正比,GLM-5.1 在真實 Agent 任務中的執行力已超越 GPT-4o 級別模型。

完成

Google Gemini團隊開源Agent Skills:讓Claude Code、Antigravity等“按規矩寫代碼”

Google 總監開源 Agent Skills,將 Google 頂尖工程紀律轉化為 AI 可執行的 20 個標準化工作流。

完成

實測GPT Images 2營銷玩法,完美文字渲染,生圖逆天強

ChatGPT Images 2.0 實現「文字渲染」與「複雜排版」的質變,讓 AI 生圖從草稿階段正式跨入「直接交付」的商業營銷水平。