DeepSeek V3大模型在全球范圍內(nèi)引發(fā)轟動(dòng),AMD Instinct數(shù)據(jù)中心GPU迅速跟進(jìn),實(shí)現(xiàn)了對(duì)該版本的全面支持,并集成了SGLang推理框架優(yōu)化,確保為用戶提供卓越的性能表現(xiàn)。
DeepSeek-V3是一款開源的混合專家MoE模型,其擁有驚人的6710億個(gè)參數(shù),成為開源社區(qū)中的明星模型。憑借創(chuàng)新的模型架構(gòu),DeepSeek-V3打破了高效低成本訓(xùn)練的記錄,贏得了行業(yè)內(nèi)的高度贊譽(yù)。這款多模態(tài)模型不僅繼承了DeepSeek V2的多頭潛在注意力機(jī)制MLA和MoE架構(gòu),還開創(chuàng)性地引入了無輔助損失的負(fù)載平衡策略,并設(shè)定了多token預(yù)測(cè)訓(xùn)練目標(biāo),進(jìn)一步提升了性能。
在主流基準(zhǔn)測(cè)試中,DeepSeek-V3的表現(xiàn)令人矚目,與GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等頂級(jí)開源和閉源模型相比毫不遜色。特別是在長(zhǎng)文本處理、數(shù)學(xué)及代碼編程能力方面,DeepSeek-V3展現(xiàn)出超群實(shí)力。
AMD ROCm開源軟件與AMD Instinct數(shù)據(jù)中心GPU加速器的強(qiáng)強(qiáng)聯(lián)合,為DeepSeek-V3的開發(fā)提供了堅(jiān)實(shí)的基礎(chǔ)設(shè)施支持。在開發(fā)的關(guān)鍵階段,這一組合發(fā)揮了至關(guān)重要的作用,再次彰顯了AMD對(duì)開源AI軟件的堅(jiān)定承諾。同時(shí),它也助力開發(fā)者打造出強(qiáng)大的視覺推理和理解應(yīng)用。
DeepSeek-V3采用了FP8低精度訓(xùn)練,而AMD ROCm平臺(tái)對(duì)FP8的支持極大優(yōu)化了計(jì)算過程,特別是推理性能的提升尤為顯著。通過支持FP8,AMD ROCm有效解決了內(nèi)存瓶頸和高延遲等問題,使得在硬件限制內(nèi)運(yùn)行更大模型或批次成為可能。與FP16相比,F(xiàn)P8精度計(jì)算顯著減少了數(shù)據(jù)傳輸和計(jì)算的延遲,實(shí)現(xiàn)了更高效的訓(xùn)練和推理。
為了推動(dòng)DeepSeek相關(guān)應(yīng)用的開發(fā),AMD將繼續(xù)加強(qiáng)ROCm開源開發(fā)生態(tài)的建設(shè),確保開發(fā)者能夠基于AMD Instinct數(shù)據(jù)中心GPU,及時(shí)開展DeepSeek相關(guān)的開發(fā)工作,實(shí)現(xiàn)最佳性能和擴(kuò)展性。
對(duì)于希望使用DeepSeek-V3的開發(fā)者來說,AMD還提供了詳盡的使用教程。開發(fā)者可以通過訪問特定網(wǎng)址,獲取SGLang對(duì)DeepSeek-V3模型推理的完整支持。教程中詳細(xì)指導(dǎo)了如何創(chuàng)建ROCm Docker鏡像、啟動(dòng)Docker容器、登錄Hugging Face、啟動(dòng)SGLang服務(wù)器以及生成文本等步驟。教程還包含了性能基準(zhǔn)測(cè)試的指導(dǎo),幫助開發(fā)者評(píng)估和優(yōu)化模型性能。
對(duì)于需要將FP8權(quán)重轉(zhuǎn)換為BF16權(quán)重的用戶,AMD也提供了轉(zhuǎn)換腳本。用戶只需按照教程中的指示操作,即可輕松完成轉(zhuǎn)換過程。