滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！

時間：2024-10-29 10:38:55 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

【ITBEAR】微軟近日宣布了一項重大開源項目——OmniParser，這是一款專為解析和識別屏幕上可交互圖標(biāo)設(shè)計的AI工具。傳統(tǒng)自動化方法受限于HTML或視圖層次結(jié)構(gòu)，而現(xiàn)有的視覺語言模型在處理復(fù)雜GUI元素時又顯得力不從心。為此，微軟推出了這款純視覺基礎(chǔ)的工具，旨在解決當(dāng)前屏幕解析技術(shù)的局限性。

OmniParser結(jié)合了可交互區(qū)域檢測模型、圖標(biāo)描述模型和OCR模塊，無需依賴HTML標(biāo)簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù)。這一特性使得它能夠在桌面、移動設(shè)備和網(wǎng)頁等多種平臺上跨平臺工作，顯著提高了用戶界面的解析準(zhǔn)確性。OmniParser還能將識別出的屏幕元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。

在實際測試中，OmniParser展現(xiàn)出了卓越的性能。在ScreenSpot數(shù)據(jù)集中，它的準(zhǔn)確率提高了73%，遠超依賴HTML解析的模型。同時，當(dāng)GPT-4V使用OmniParser的輸出后，圖標(biāo)的正確標(biāo)記率從70.5%提升至93.8%。這些改進充分證明了OmniParser在解決當(dāng)前GUI交互模型根本缺陷方面的有效性。

微軟已在Hugging Face上發(fā)布了OmniParser，這一舉措將有助于普及這一前沿技術(shù)，進一步推動多模態(tài)AI的發(fā)展，特別是在無障礙、自動化和智能用戶輔助等領(lǐng)域。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

劉強東回饋師恩，老師周維華接力捐贈，64名貧困學(xué)子獲助

三言科技 1月12日消息，近期，劉強東給當(dāng)年自己上小學(xué)時在校的所有老師們，每人發(fā)了10萬元的現(xiàn)金紅包。 1月10日中午，在宿遷市宿豫區(qū)來龍中心小學(xué)報告廳舉行了一場愛心捐贈儀式。捐贈者周維華老師，曾是劉強東四年…

01-12

廣東風(fēng)電臨海試驗基地再擴容，單機測試容量領(lǐng)跑全球！

01-12

臺積電亞利桑那州工廠啟動4納米芯片生產(chǎn)，總投資額高達4773億

01-12

《封神第二部：戰(zhàn)火西岐》全球多地同步上映，神話大片再掀熱潮！

01-12

華為WATCH GT5系列智能手表新配色曝光，紅色款定制表盤表帶來襲

01-12

攜程再推生育友好福利：家有未成年子女員工將增3天陪伴假

01-12

車?yán)遄映远嗔藭卸?？央視：除非你一次吃?33公斤！

01-12

昆侖山巔，無人機高空增雪實驗首秀成功！

01-12

辛巴豪擲15億開超市，能否成為零售新巨頭？

01-12

黃子韜直播送車引熱議，使用權(quán)僅5年？網(wǎng)友：這波操作看不懂！

01-12

京東vivo強強聯(lián)合，線下運營新策略驅(qū)動品牌全域增長

01-12

國產(chǎn)V4巡航新王者BD900-2亮相，氣場不輸哈雷，你期待嗎？

01-12

積核A6迷你主機海外上市，R7-6800H配32G+1T存儲，僅需500美元！

01-11

美團豪擲10億“年終獎”，外賣商家喜獲五千至五萬不等補助金

另一位收到獎勵金的商戶則發(fā)文表示，12月30日的時候突然發(fā)現(xiàn)美團外賣營業(yè)額多了5000元，原來以為是系統(tǒng)出現(xiàn)了錯誤，但咨詢了客服之后發(fā)現(xiàn)是真的，而這5000元也已經(jīng)在1月5日入賬。而一家主營黃燜雞的夫妻店…

01-11

京東APP改版，秒送新品成焦點，特價入口何去何從？

據(jù)36氪報道，京東對于低價一直較為克制，管理層多次表達克制投入的態(tài)度——要把控低價對財報和利潤的影響，“百億補貼仰賴的是平臺、商家和供應(yīng)商的共同努力?！?而至此，從京東APP中能透露出信息就已明了，即繼續(xù)發(fā)力…

01-11

點擊查看更多 +

全站最新

手機閃付開通全攻略：輕松享受移動支付新體驗

汽車保養(yǎng)不止換機油！這四個零件不換，保養(yǎng)效果大打折扣！

本田索尼聯(lián)手打造AFEELA 1，售價超60萬，高端市場能否買單？

手機錄屏全攻略：輕松掌握，讓你的手機屏幕內(nèi)容動起來！

手機打出下劃線，這些方法你一定得知道！

手機插件怎么刪？全面指南助你輕松釋放空間！

熱門內(nèi)容

本欄最新

劉強東回饋師恩，老師周維華接力捐贈，64名貧困學(xué)子獲助

臺積電亞利桑那州工廠啟動4納米芯片生產(chǎn)，總投資額高達4773億

《封神第二部：戰(zhàn)火西岐》全球多地同步上映，神話大片再掀熱潮！

華為WATCH GT5系列智能手表新配色曝光，紅色款定制表盤表帶來襲

攜程再推生育友好福利：家有未成年子女員工將增3天陪伴假

車?yán)遄映远嗔藭卸?？央視：除非你一次吃?33公斤！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！