天天影视网色香欲综合网_大桥久未无码吹潮在线观看_日韩欧美一区二区三区免费看_中文人妻无码一区二区三区

189-8047-6739

全鏈數(shù)字化私域運營服務(wù)

您當前位置> 主頁 > 私域講堂 > 行業(yè)熱點

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?

發(fā)表時間:2024-10-29 09:55:22

文章作者:小編

瀏覽次數(shù):

經(jīng)過一年多的搖旗吶喊,AI手機終于還是在2024年完成了對智能手機的替代。

至少在概念上,幾大主流手機廠商今年在傳播口徑上都已經(jīng)陸續(xù)完成了向AI手機的轉(zhuǎn)變,就連蘋果也高調(diào)選擇了與OpenAI聯(lián)姻。

即便如此,對于大多數(shù)消費者來說,依然沒有弄明白「AI手機」和「智能手機」究竟有何不同。

關(guān)于AI手機,我今年看到最多、也是最直接的AI功能是「AI讀屏」:

手機搭載的智能體像人類一樣識別出手機屏幕上的內(nèi)容,然后一步一步按人類的思維邏輯完成常見的諸如線上購物、朋友圈點贊評論等功能。

與智能手機中的AI不同的是:

這樣的AI有了明顯的“思維鏈”,實現(xiàn)邏輯更為復雜。

與智能手機時代的功能設(shè)計邏輯不同的是:

這次,「AI讀屏」功能的后臺執(zhí)行邏輯,被手機廠商在手機屏幕上完整呈現(xiàn)了出來。

對于大多數(shù)普通消費者來說,人工智能的自動化能力第一次被具象化,帶來的是最直接的視覺沖擊。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖1)

?那么,這樣的“讀屏術(shù)”在技術(shù)上是如何實現(xiàn)的?

01 微軟谷歌神仙過招,端側(cè)AI雛形初顯

大模型炸場后,微軟和谷歌的往來過招,成了這場曠世之爭的看點,AI手機的“讀屏術(shù)”正是在這樣的神仙過招中逐漸成形。

2023年2月8日,微軟New Bing(Bing AI)發(fā)布,這是微軟與OpenAI聯(lián)手后,借生成式AI面向搜索引擎發(fā)起的新一輪沖擊,New Bing在ChatGPT加持下,曾斬獲不小市場熱度,也一度把谷歌嚇得不輕。

面對被視為ChatGPT版的New Bing,谷歌隨后祭出了自己的Bard。

Bard是由谷歌內(nèi)部早在2021年就已經(jīng)對外發(fā)布、同樣是基于Transformer架構(gòu)的LaMDA提供支持,但當時還是一個實驗性的聊天機器人。

這是谷歌和微軟在生成式AI領(lǐng)域第一次正面較量,雙方的這次較量,讓搜索引擎這一互聯(lián)網(wǎng)老產(chǎn)品,有了一些Chat新花樣。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖2)

不過,此時的生成式AI,還沒有對端側(cè)造成直接沖擊。

真正的沖擊,是在微軟Copilot發(fā)布后。

2023年3月16日,微軟對外官宣,正式為Microsoft 365應(yīng)用加持Copilot服務(wù)(Microsoft 365 Copilot),在將生成式AI疊加到辦公軟件后,真正的內(nèi)容生成魔力開始成為生產(chǎn)力工具的一部分。

大模型由此也在企業(yè)辦公軟件領(lǐng)域形成了一股潮流,開啟了搶灘登陸模式。

就谷歌和微軟兩大科技巨頭而言,為了做出生成式AI技術(shù)模式下的殺手級應(yīng)用,他們動用了生態(tài)力量——分別將Windows生態(tài)和安卓生態(tài)面向大模型全面打開。

這之后,二者的大模型之爭開始下沉到端側(cè)。

經(jīng)過大概半年試錯和打磨后,谷歌和微軟分別在端側(cè)拿出了自己的“關(guān)鍵作品”:

谷歌是在2023年10月發(fā)布的pixel 8系列手機上增加了一個名為Circle to Search的功能。

有了這一功能,只要你對著手機屏幕上的圖片圈出你想了解的產(chǎn)品,谷歌AI就可以自動搜索出這一產(chǎn)品的相關(guān)信息和出處。

這一功能后來也被三星拿去作為Galaxy AI的主打功能,對外宣傳推廣。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖3)

實際上,在這一功能出現(xiàn)之前谷歌對Bard進行過一次升級,更新后的Bard可以從Gmail、Docs、谷歌地圖、YouTube等應(yīng)用中總結(jié)信息,也是在那時,個人本地知識庫開始被谷歌用于深度檢索(也就是RAG),并由此衍生出為用戶提供出行建議、日程安排等功能的個人助理。

Circle to Search自然是承襲了這一能力。

微軟則是在2024年5月20日AI PC發(fā)布會上官宣發(fā)布了Recall功能。

這一功能是通過微軟Copilot,幫助用戶根據(jù)記憶點或時間線來跳回到此前某個時間點電腦上顯示的原始內(nèi)容。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖4)

實際上,除了這兩位AI大佬外,當初為了拿下蘋果的大模型訂單并獲得新一輪融資,OpenAI發(fā)布了GPT-4o,并秀了一波視覺識別的功能。

通過手機攝像頭,讓GPT-4o解寫在紙上的數(shù)學題,甚至識別出現(xiàn)在鏡頭前用戶的情緒。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖5)

檢索增強生成(RAG)和包括語言、視覺在內(nèi)的多模態(tài)大模型技術(shù)的成熟,以及大模型在端側(cè)的下沉和應(yīng)用,讓AI讀屏功能在手機上出現(xiàn)成了順理成章。

02「AI讀屏」工作流

2024年的手機圈,AI讀屏功能正在迅速成為標配。

僅以上周手機圈密集的發(fā)布會上對外公布的信息來看:

先有華為在鴻蒙發(fā)布會上對外發(fā)布的小藝圈選功能(類似谷歌的Circle to Search),又有榮耀在更新新系統(tǒng)時對外發(fā)布演示的“一句話點咖啡”功能。

在OPPO Find X8系列發(fā)布會上,OPPO更為直接地上新了「一鍵問屏」功能。

或許是因為是針對手機系統(tǒng)的發(fā)布會,榮耀雖然請了沈騰作為公司的AI大使,還做了主題為“AI就是一句話的事兒”廣告,但并沒有針對這一功能給出明確的諸如「AI讀屏」或「一鍵問屏」這樣的命名。

不過,榮耀CEO趙明倒是在發(fā)布會上講明白了「AI讀屏」功能的具體工作流。

在趙明的介紹中,AI讀屏的工作流可以分為三步(以“幫我點杯喝的吧,我有些困了”語音指令為例):

第一步,模糊意圖理解

手機內(nèi)置的智能體將語音指令進行拆分理解,分析用戶意圖是“困了”想點杯解困的“喝的”,篩選出可能選項(咖啡、綠茶、涼茶等)。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖6)

第二步,復雜任務(wù)規(guī)劃

首先智能體根據(jù)手機時間信息、定位信息,識別出最終配送地址;

然后智能體根據(jù)手機已有的本地個人知識庫中收集到的你的日常飲食習慣,得出你希望點單的咖啡的品牌、甜度、是否加冰等信息(如果是新手機,這一步會卡殼,就需要用戶手動點選);

最終智能體確認具體的點單信息并自動填充配送地址。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖7)

第三步,任務(wù)自動執(zhí)行。

首先智能體識別出手機屏幕上的本地生活服務(wù)APP(例如美團),并搜索咖啡品牌(例如瑞幸);

其次識別并理解屏幕上的關(guān)鍵信息,進入外賣點單頁面(例如瑞幸的幸運送);

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖8)

然后根據(jù)已經(jīng)規(guī)劃出的用戶點單內(nèi)容(例如大杯少冰正常糖拿鐵),在屏幕上一步一步進行類人的點選操作;

最后進入到結(jié)算頁面,用戶接管,由用戶并選擇是否用優(yōu)惠券、是否確認下單。

如果說ChatGPT在全球形成的熱潮讓大家意識到了生成式AI、大模型的顛覆性,那么作為一個更聰明的聊天機器人,它首先帶來的是又一次交互模式的改變。

AI讀屏就是人類和手機交互模式改變的一個重要體現(xiàn)。

03 當AI開始接管你的手機

如果結(jié)合微軟、谷歌大模型之爭來看,AI讀屏背后的技術(shù)邏輯,和微軟的Recall、谷歌的Circle to Search,以及OpenAI的GPT-4o有著諸多相似之處。

從技術(shù)實現(xiàn)原理上來看,包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini、阿里通義千問在內(nèi)的所有主流大模型,都能做出AI讀屏功能。

實際上,就在手機圈紛紛押注AI讀屏功能時,在上周與三星中國官宣了戰(zhàn)略合作的智譜AI在2024中國計算機大會(CNCC 2024)上發(fā)布了AutoGLM。

什么是AutoGLM?

智譜AI的大模型是以GLM做得命名,AutoGLM也就是擁有自主能力的大模型,有媒體將它解讀為是學會了使用工具的大模型,但本質(zhì)上就是在手機上實現(xiàn)了AI讀屏功能。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖9)

從官方公布的信息來看,這一模型目前是以App中的一個功能模塊對外呈現(xiàn)(只支持安卓手機,現(xiàn)在還在內(nèi)測階段),并沒有與手機底層系統(tǒng)強關(guān)聯(lián),也不挑手機品牌。

如果說在這套流程中,手機廠商的地位有何獨特之處的話,那應(yīng)該是平臺和數(shù)據(jù)了。

作為手機這一超級硬件的主導者,手機廠商不僅掌握著平臺入口,更有強大的系統(tǒng)集成能力。

這就意味著決定端側(cè)智能體智能程度的本地個人知識庫,以及端側(cè)智能體的微調(diào)、優(yōu)化能力,對幾大手機廠商的軟件團隊有很強的依賴性。

實際上,早在10月22日,OpenAI的頭號死敵Anthropic就對外官宣發(fā)布了Claude 3.5 Sonnet,在這次版本更新中,Anthropic加入了一個獨特的功能是”computer use“。

這個computer use,其實就是PC版本的AI讀屏,它可以讀取你PC的屏幕,并根據(jù)你給出的一段話的任務(wù)指令,自動完成諸如搜旅游攻略、寫程序代碼等功能。

AI手機第一個殺手級應(yīng)用,是“AI讀屏”?(圖10)

不過,在Anthropic官方的描述中,在OSWorld(評估 AI 模型像人類一樣使用計算機的能力)上,Claude 3.5 Sonnet的得分為14.9%,遠未達到人類平均水平,人類平均得分是70%-75%。

要想提高模型準確度,本地個人知識庫也就成了必須。

在過去這短短一周里,這么多AI巨頭和手機廠商都瞄準了AI讀屏功能在猛攻,顯然是將這一功能視為了AI手機的殺手級應(yīng)用。

AI讀屏,確實最能體現(xiàn)AI手機的“AI”與智能手機的“AI”的本質(zhì)區(qū)別,也是各大手機廠商的機會。

對于像我們這樣的普通消費者來說,未來,AI不只會接管你的手機,甚至還會接管你的PC,乃至更多電子設(shè)備。

而這樣的UI Agent,其實還不是端側(cè)智能體的終極形態(tài)。

關(guān)注多享有數(shù),持續(xù)為您分享行業(yè)熱點要聞!


四川多享信息技術(shù)有限公司是一家專注于數(shù)字化服務(wù)、系統(tǒng)開發(fā)、新媒體營銷、農(nóng)村電商的專業(yè)互聯(lián)網(wǎng)公司,公司位于成都高新區(qū)天府二街,成立16年,擁有豐富開發(fā)經(jīng)驗,至今已助力5000+中小企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型升級。


研發(fā)了B2C商城系統(tǒng)私域電商系統(tǒng)、分銷商城系統(tǒng)、S2B2b2C供應(yīng)鏈電商系統(tǒng)、小程序商城系統(tǒng)等,支持中臺云倉、供應(yīng)商、自營商城、直播、短視頻、分銷、零售商管理、運營商管理、營銷工具、數(shù)據(jù)分析、會員儲值、積分商城等功能,幫助企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型,助力降本增效,獲取更多收益!