ITBear旗下自媒體矩陣:

Kimi多模態(tài)圖片理解模型上新,視覺識(shí)別能力再升級(jí),價(jià)格親民!

   時(shí)間:2025-01-15 12:38:02 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日,月之暗面科技公司宣布了一項(xiàng)重要更新,正式推出了其Kimi多模態(tài)圖片理解模型API,并進(jìn)一步完善了moonshot-v1模型系列的多模態(tài)處理能力。此次發(fā)布的全新多模態(tài)圖片理解模型被命名為moonshot-v1-vision-preview(簡稱“Vision模型”)。

Vision模型以其強(qiáng)大的圖像識(shí)別能力脫穎而出,能夠精準(zhǔn)捕捉圖像中的復(fù)雜細(xì)節(jié)和細(xì)微差異。無論是食物還是動(dòng)物,即便是相似度極高的對(duì)象,如藍(lán)莓松餅和吉娃娃,該模型也能輕松區(qū)分和識(shí)別。在官方提供的一組測試圖片中,Vision模型成功地將16張難以用肉眼分辨的藍(lán)莓松餅和吉娃娃圖片一一標(biāo)記,準(zhǔn)確率令人驚嘆。

除了基本的圖像識(shí)別功能外,Vision模型在OCR文字識(shí)別和圖像理解方面同樣表現(xiàn)出色。相較于傳統(tǒng)的文件掃描和OCR識(shí)別軟件,Vision模型在處理收據(jù)單、快遞單等含有潦草手寫內(nèi)容的圖像時(shí),準(zhǔn)確率更高。例如,在一張《某學(xué)生期末考試成績》柱狀圖的識(shí)別測試中,Vision模型不僅能夠準(zhǔn)確提取出每個(gè)科目的分?jǐn)?shù)數(shù)值并進(jìn)行對(duì)比,還能識(shí)別出柱狀圖的樣式、格式和顏色等細(xì)節(jié)。

在計(jì)費(fèi)方式上,Vision模型采用了按量計(jì)費(fèi)的模式,根據(jù)用戶選擇的模型不同,價(jià)格也有所差異。具體來說,單張圖片按1024 tokens合并計(jì)算在Input請(qǐng)求的tokens用量中,moonshot-v1-8k-vision-preview模型的價(jià)格為每1M tokens 12元,moonshot-v1-32k-vision-preview模型的價(jià)格為每1M tokens 24元,而moonshot-v1-128k-vision-preview模型的價(jià)格則為每1M tokens 60元。

Vision模型還支持多種特性,包括多輪對(duì)話、流式輸出、工具調(diào)用、JSON Mode和Partial Mode等。然而,也有一些功能目前暫未支持或部分支持,如聯(lián)網(wǎng)搜索、帶有圖片內(nèi)容的Context Caching以及URL格式的圖片等。用戶在使用時(shí)需注意這些限制。

在其他平臺(tái)更新方面,月之暗面科技公司也推出了一系列新功能,如組織項(xiàng)目管理功能、一個(gè)企業(yè)實(shí)體認(rèn)證多賬號(hào)功能、File文件資源管理功能等。這些新功能的推出,將進(jìn)一步提升用戶的使用體驗(yàn)和便利性。同時(shí),Context Caching功能已全面開放給所有用戶,且Cache續(xù)期不再收取創(chuàng)建費(fèi)用,這也為用戶節(jié)省了不少成本。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容