近期,一款名為Operator的創(chuàng)新工具引起了廣泛關(guān)注。這款應(yīng)用能夠利用用戶(hù)的瀏覽器,自動(dòng)執(zhí)行一系列繁瑣的在線(xiàn)任務(wù),從填寫(xiě)各類(lèi)表單到在線(xiàn)訂購(gòu)雜貨,甚至制作個(gè)性化的表情包,無(wú)所不能。
Operator目前已向美國(guó)地區(qū)的Pro版訂閱用戶(hù)開(kāi)放,用戶(hù)可通過(guò)訪(fǎng)問(wèn)operator.chatgpt.com體驗(yàn)其強(qiáng)大功能。據(jù)透露,Operator的服務(wù)范圍將逐步擴(kuò)展至Plus、Team和Enterprise用戶(hù),并有望在未來(lái)與ChatGPT深度融合,為用戶(hù)提供更為便捷、智能的使用體驗(yàn)。
Operator的核心驅(qū)動(dòng)力來(lái)自一個(gè)名為Computer-Using Agent(CUA)的新型模型。這一模型巧妙融合了GPT-4的視覺(jué)功能以及通過(guò)強(qiáng)化學(xué)習(xí)獲得的卓越推理能力,使其能夠輕松與圖形用戶(hù)界面(GUI)進(jìn)行交互。GUI,即人們?nèi)粘T谄聊簧峡吹降母鞣N按鈕、菜單和文本字段,都是CUA的“操作舞臺(tái)”。
Operator的工作方式頗具創(chuàng)意。它能夠“看到”瀏覽器中的內(nèi)容,就像人們通過(guò)屏幕截圖獲取信息一樣。更重要的是,Operator還能“操作”這些內(nèi)容,利用鼠標(biāo)和鍵盤(pán)允許的所有動(dòng)作,在網(wǎng)絡(luò)上執(zhí)行各種任務(wù),而無(wú)需任何自定義API集成。這一特性使得Operator在自動(dòng)化處理在線(xiàn)事務(wù)方面,展現(xiàn)出了前所未有的靈活性和高效性。