近日,科技界迎來了一項(xiàng)新的突破,Hugging Face公司于1月26日正式推出了兩款精心打造的多模態(tài)模型——SmolVLM-256M與SmolVLM-500M。這兩款模型是從去年訓(xùn)練的龐大800億參數(shù)模型中提煉而出,成功地在性能與資源消耗之間找到了完美的平衡點(diǎn)。
據(jù)悉,SmolVLM-256M采用了先進(jìn)的SigLIP作為圖像編碼技術(shù),而更高級(jí)別的SmolVLM-500M則配備了更為強(qiáng)大的SmolLM2文本編碼器。尤為引人注目的是,SmolVLM-256M憑借其小巧的體積,成功躋身當(dāng)前最小的多模態(tài)模型之列。它不僅能夠接收任意序列的圖像與文本輸入,還能生成豐富的文字輸出,涵蓋圖片描述、視頻字幕生成乃至PDF處理等多樣化功能。
在資源占用方面,這兩款模型同樣展現(xiàn)出了極高的效率。對(duì)于移動(dòng)設(shè)備而言,SmolVLM-256M僅需不到1GB的GPU顯存即可完成單張圖片的推理任務(wù),這對(duì)于移動(dòng)應(yīng)用開發(fā)來說無疑是個(gè)巨大的福音。而對(duì)于追求更高性能的企業(yè)級(jí)應(yīng)用環(huán)境,SmolVLM-500M則提供了更為精準(zhǔn)的輸出結(jié)果,盡管其資源需求稍高,僅需1.23GB的GPU顯存,但其在處理復(fù)雜任務(wù)時(shí)的表現(xiàn)更為出色。
值得注意的是,Hugging Face此次推出的兩款模型均采用了Apache 2.0開源授權(quán),這意味著開發(fā)者可以自由地獲取、修改和分發(fā)這些模型。公司還貼心地提供了基于transformer和WebGUI的示例程序,大大降低了開發(fā)者的上手難度。所有模型及其演示代碼均已在公開平臺(tái)上發(fā)布,方便開發(fā)者下載與使用。