AutoDroid-V2 是清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)于 2024 年 12 月 24 日發(fā)布的 AI 模型,在優(yōu)化移動(dòng)端自動(dòng)化 GUI 控制方面有顯著成果。以下是其具體介紹:
- 基于腳本的方法:與傳統(tǒng)依賴云端大型語(yǔ)言模型(LLM)的 “逐步 GUI 智能體” 方式不同,AutoDroid-V2 采用基于腳本的方法,根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個(gè) GUI 操作,大幅減少了查詢頻率和資源消耗。
- 利用設(shè)備端小型語(yǔ)言模型:利用設(shè)備上的小型語(yǔ)言模型(SLM)進(jìn)行腳本生成和執(zhí)行,避免了對(duì)強(qiáng)大云端模型的依賴,有效保護(hù)了用戶隱私和數(shù)據(jù)安全,并降低了服務(wù)器端成本。
- 離線構(gòu)建應(yīng)用程序文檔:在離線階段構(gòu)建應(yīng)用程序文檔,包含 AI 引導(dǎo)的 GUI 狀態(tài)壓縮、元素 XPath 自動(dòng)生成和 GUI 依賴分析,為腳本生成奠定基礎(chǔ)。
- 任務(wù)完成率顯著提升:在 23 個(gè)移動(dòng)應(yīng)用上進(jìn)行 226 項(xiàng)任務(wù)的基準(zhǔn)測(cè)試,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務(wù)完成率提高 10.5%-51.7%。
- 資源消耗大幅降低:輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7-13.4 分之一。
- 跨 LLM 適應(yīng)性良好:在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表現(xiàn)一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。
- 提升用戶體驗(yàn):用戶可以通過(guò)自然語(yǔ)言更高效地控制移動(dòng)設(shè)備,執(zhí)行復(fù)雜任務(wù),如自動(dòng)完成一系列應(yīng)用內(nèi)的操作流程,無(wú)需手動(dòng)逐個(gè)點(diǎn)擊,為用戶帶來(lái)更加便捷、智能的操作感受。
- 助力移動(dòng)應(yīng)用開(kāi)發(fā)與測(cè)試:開(kāi)發(fā)者可以利用 AutoDroid-V2 快速進(jìn)行應(yīng)用的自動(dòng)化測(cè)試,模擬用戶操作,提高測(cè)試效率和覆蓋范圍,及時(shí)發(fā)現(xiàn)和修復(fù)問(wèn)題,提升應(yīng)用質(zhì)量。
- 拓展智能設(shè)備交互場(chǎng)景:為智能家居、智能車載等領(lǐng)域的設(shè)備控制提供了新的思路和方法,通過(guò)自然語(yǔ)言實(shí)現(xiàn)對(duì)多種智能設(shè)備的統(tǒng)一控制,打造更加智能、便捷的物聯(lián)網(wǎng)生態(tài)。
|