北京智譜華章科技有限公司近日宣布了一項(xiàng)重要進(jìn)展,其自主研發(fā)的智譜GLM-PC現(xiàn)已面向公眾開放體驗(yàn)。這一創(chuàng)新技術(shù)被公司稱為“自主操作電腦的多模態(tài)Agent再度升級(jí)”,旨在為用戶帶來前所未有的電腦使用體驗(yàn)。
GLM-PC基于智譜華章的多模態(tài)大模型CogAgent,是全球首個(gè)允許公眾直接通過回車使用的電腦智能體。它不僅能夠像人類一樣“觀察”和“操作”電腦,還能協(xié)助用戶高效完成各類復(fù)雜的電腦任務(wù)。自2024年11月29日首次發(fā)布并開放內(nèi)測以來,GLM-PC不斷迭代升級(jí),如今推出了“深度思考”模式,并增強(qiáng)了邏輯推理和代碼生成功能,同時(shí)實(shí)現(xiàn)了對(duì)Windows系統(tǒng)的全面支持。
GLM-PC的強(qiáng)大功能體現(xiàn)在多個(gè)方面。在代碼生成與邏輯執(zhí)行上,它能夠綜合分析任務(wù)目標(biāo)和可用資源,生成清晰的執(zhí)行路線圖,并將大型任務(wù)自動(dòng)拆解為可管理的子任務(wù)。隨后,通過啟動(dòng)代碼生成模塊,GLM-PC能夠執(zhí)行邏輯循環(huán),逐步推進(jìn)任務(wù)完成,整個(gè)過程無需人工干預(yù),實(shí)現(xiàn)了從輸入到輸出的完整閉環(huán)。
更GLM-PC具備長思考能力。它能夠在執(zhí)行任務(wù)過程中實(shí)時(shí)調(diào)整策略,反思修正和自我糾錯(cuò),不斷優(yōu)化解決方案。例如,當(dāng)流程因外部因素中斷時(shí),GLM-PC能夠重構(gòu)邏輯路徑;遇到信息缺失時(shí),它會(huì)主動(dòng)與用戶交互,通過提問來完善任務(wù)執(zhí)行方案,確保任務(wù)能夠順利完成。
在圖像與GUI認(rèn)知方面,GLM-PC同樣表現(xiàn)出色。它能夠準(zhǔn)確識(shí)別圖形界面元素,如按鈕、圖標(biāo)、布局等,并理解這些元素的功能與交互邏輯。結(jié)合對(duì)用戶界面的學(xué)習(xí)和歷史操作信息的理解,GLM-PC能夠?yàn)橛脩籼峁┊?dāng)前界面的智能推薦操作,提升用戶的使用效率。
GLM-PC還具備圖像語義解析能力。它能夠?qū)?fù)雜圖像進(jìn)行深入語義分析,提取關(guān)鍵信息,如文字、標(biāo)識(shí)符以及數(shù)據(jù)可視化圖表中的趨勢和指標(biāo)。這一功能使得GLM-PC能夠更好地理解用戶意圖,為用戶提供更加精準(zhǔn)的服務(wù)。
在多模態(tài)信息融合方面,GLM-PC同樣展現(xiàn)出了強(qiáng)大的實(shí)力。它能夠融合圖像與文字信息,形成全面感知結(jié)果。例如,在用戶界面中,GLM-PC能夠同時(shí)識(shí)別按鈕位置與文字標(biāo)簽,為用戶制定精準(zhǔn)的操作計(jì)劃,助力用戶高效完成電腦任務(wù)。