中國人工智慧(AI)新創公司DeepSeek在1月推出R1模型後,受官方鼓勵改用國產華為(Huawei)晶片,但根據知情人士透露,該公司未能在華為晶片上完成訓練,因而延後推出次世代AI新模型R2。此事不僅凸顯DeepSeek對輝達(Nvidia)晶片的依賴,也反映中國在追求科技自給自足過程中所面臨的挑戰。
英國《金融時報》(Financial Times)14日引述三名知情人士報導,DeepSeek今年1月發布R1模型後,接獲官方鼓勵改用華為昇騰(Ascend)處理器,而非輝達(Nvidia)系統。然而,DeepSeek在使用昇騰晶片訓練R2模型時,遭遇持續技術問題,最終只能改用輝達晶片進行訓練,並將華為晶片用於推理階段。知情人士表示,這些問題是R2從5月延後推出的主要原因,導致DeepSeek在競爭中落後。
所謂「訓練」是指模型從大型數據集學習的過程;「推理」則是利用已訓練模型進行預測或生成回應(例如聊天機器人回答)的步驟。DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後於美國同類產品,也突顯中國在追求科技自給自足方面面臨的挑戰。
《金融時報》本周曾報導,北京已要求中國科技公司對輝達H20的訂單做出說明,鼓勵採用華為和寒武紀等國產替代品。業內人士指出,中國晶片存在穩定性不足、晶片間連線速度較慢,軟體效能也不如輝達產品等問題。
據兩名知情人士透露,華為曾派一組工程團隊進駐DeepSeek辦公室,協助其使用旗下AI晶片開發R2模型。但即使有華為團隊駐點,DeepSeek依舊無法在昇騰晶片上成功完成模型訓練。知情人士稱,該公司仍與華為合作,使模型在推理階段能相容於昇騰晶片。
多名消息來源說,DeepSeek創辦人梁文鋒曾在內部表達對R2進展的不滿,並推動花更多時間打造能維持公司在AI領域領先地位的先進模型。另一名人士補充,R2延後推出還因更新版模型的數據標註(data labelling)耗時比預期更久。中國媒體報導,該模型可能在未來數周內問世。
美國加州大學柏克萊分校AI研究員古普塔(Ritwik Gupta)表示:「模型是可以輕易替換的商品,許多開發者正使用阿里巴巴的通義千問Qwen3系列模型,其功能強大且靈活。」
他指出,Qwen3採納DeepSeek的核心理念,例如讓模型具備推理能力的訓練演算法,但在使用效率上有所提升。古普塔認為,華為在使用昇騰晶片進行訓練時正經歷「成長陣痛」,但他預期這家中國「國家冠軍」最終會適應。他說:「今天雖然還沒看到用華為晶片訓練出的領先模型,但不代表未來不會發生,這只是時間問題。」
作為中美地緣政治角力核心的晶片製造商,輝達近期同意將在中國的部分營收交給美國政府,以恢復對中國銷售H20晶片。輝達在談到中國企業使用旗下晶片的情況時表示:「開發者會在打造能最終勝出的AI生態系中發揮關鍵作用,放棄整個市場與開發者,只會損害美國經濟與國家安全。」DeepSeek與華為均未回覆置評請求。