11月11日,字節(jié)在豆包大模型團隊官網(wǎng)上公布最新通用圖像編輯模型SeedEdit。SeedEdit支持一句話輕松改圖,包括修圖、換裝、美化、轉(zhuǎn)化風(fēng)格、在指定區(qū)域添加刪除元素等各類編輯操作,通過簡單的自然語言即可驅(qū)動模型編輯任意圖像。
目前,該模型已經(jīng)在豆包PC端及即夢網(wǎng)頁端開啟測試。用戶可以在豆包生成圖片后,點擊繼續(xù)編輯按鈕,輸入簡單的文本指令對圖片背景或主體進行輕松調(diào)整,實現(xiàn)一句話改圖。例如,用戶在生成一張“小狗在草地奔跑”的圖片后,可以直接輸入“背景換成海邊”等指令,獲得一張基于原圖片的微調(diào)圖。
此外,用戶也可以嘗試在豆包PC或即夢的圖像生成功能中自行上傳參考圖并進行二次加工。
SeedEdit是國內(nèi)首個實現(xiàn)產(chǎn)品化的通用圖像編輯模型。過往,學(xué)術(shù)界在文生圖和圖生圖領(lǐng)域已有較多研究,但做好生成圖片的指令編輯一直是難題,二次修改很難保證穩(wěn)定性和生成質(zhì)量。今年以來,Dalle3、Midjourney接連推出產(chǎn)品化的生圖編輯功能,相較業(yè)界此前方案,編輯生成圖片的質(zhì)量大大改善,但仍缺乏對用戶編輯指令的精準響應(yīng)和原圖信息保持能力。
字節(jié)跳動豆包大模型團隊表示:圖像編輯任務(wù)的關(guān)鍵在于取得「維持原始圖像」和「生成新圖像」之間的最優(yōu)平衡,這一理念貫穿了整個模型的設(shè)計與優(yōu)化過程。
據(jù)介紹,在模型數(shù)據(jù)生產(chǎn)中, SeedEdit 針對數(shù)據(jù)稀缺問題, 重新設(shè)計模型架構(gòu),并且采用多模型,多尺度,和多標(biāo)準的數(shù)據(jù)制造方案很大程度上解決了數(shù)據(jù)量,數(shù)據(jù)多樣性和數(shù)據(jù)質(zhì)量的問題。作為一款專為圖像編輯任務(wù)設(shè)計的模型,SeedEdit在通用性、可控性、高質(zhì)量等方面取得了一定突破。
此前業(yè)界技術(shù)主要針對單個專家任務(wù)進行優(yōu)化,比如針對表情、發(fā)型、背景的刪除或替換,或?qū)iT配置工作流進行風(fēng)格調(diào)配,每次出現(xiàn)新的編輯任務(wù)均需收集對應(yīng)數(shù)據(jù)進行訓(xùn)練開發(fā)。而SeedEdit作為通用的圖像編輯模型,適用各類編輯任務(wù),支持用戶腦洞大開的奇思妙想,無需再訓(xùn)練微調(diào)即可快捷應(yīng)用。 它與業(yè)界同類方法對比 (如EMU Edit和Ultra Edit),取得顯著更優(yōu)的性能指標(biāo)。
(HQ-Edit等基準測評顯示:SeedEdit能理解相對模糊的指令,且執(zhí)行細致編輯時具有更高的圖像保持率和成功率)
即便在常規(guī)任務(wù)中,相比專家模型,SeedEdit 也有一定優(yōu)勢。比如,在“摳圖”換背景等用戶最常用到的圖像分割任務(wù)中,SeedEdit 編輯生成后的圖像風(fēng)格自然,無“貼圖感”;在局部涂抹、編輯、添加和刪除元素等任務(wù)中,相比手動涂抹編輯, SeedEdit通過語言指定, 大大節(jié)省了用戶涂抹的時間,尤其針對裂紋、發(fā)絲等相對精細的涂抹區(qū)域。
(要求圖片將草莓替換成檸檬)
同時,SeedEdit通過創(chuàng)新的模型架構(gòu),多尺度、多規(guī)則的數(shù)據(jù)獲取、構(gòu)造和過濾方案,能更好地理解用戶意圖并對齊 diffusion 生圖模型,極大提高了圖像編輯的精準度,并保持了高質(zhì)量的圖片生成效果。
(要求去掉裂紋,讓圖片變干凈)
基于豆包文生圖大模型,目前SeedEdit支持中文和英文輸入,還可以對中文成語和專有名詞進行精準響應(yīng)。下一步,SeedEdit還將開放多輪復(fù)雜編輯的功能。
豆包大模型團隊表示,現(xiàn)階段SeedEdit對模型生成圖片的編輯效果要好于輸入真實圖片,同時在更復(fù)雜和更精細的控制上仍有改進空間。未來,SeedEdit會在真實圖片保真、ID保持、編輯精確性、以及長時序的故事類、漫畫類生成方面做進一步的優(yōu)化和探索,提升編輯可用率和用戶體驗,支持用戶更高效地創(chuàng)作有趣的內(nèi)容。