智東西(公眾號:zhidxcom)
編譯|萬貴霞
編輯|王涵

智東西1月5日消息,1月1日,據(jù)外媒The Information報道,有知情人士稱,OpenAI計劃于2026年第一季度推出全新的語音AI模型,而其首款完全通過語音指令操控而非屏幕交互的個人設(shè)備,預(yù)計仍需一年左右時間才能正式面世。

該設(shè)備或為OpenAI CEO薩姆?阿爾特曼(Sam Altman)2025年11月21日訪談中提及的AI硬件產(chǎn)品矩陣中的另一款產(chǎn)品。除單一產(chǎn)品外,OpenAI還在規(guī)劃一整套設(shè)備矩陣,可能包括智能眼鏡和無屏幕智能音箱等。

多位ChatGPT員工透露,目前OpenAI的語音AI模型在回復(fù)準(zhǔn)確性和響應(yīng)速度上明顯落后于文本模型。為此,OpenAI在過去兩個月內(nèi)整合了多個工程、產(chǎn)品和研究團(tuán)隊,對語音AI進(jìn)行了一次全面重構(gòu)。

一、語音AI模型架構(gòu)重塑,更自然、更“像人”的語音對話

OpenAI計劃在2026年第一季度初發(fā)布的全新語音AI模型,將在音質(zhì)、延遲和交互方式上進(jìn)一步逼近真實對話體驗,甚至能夠在用戶說話的同時進(jìn)行語音播報,呈現(xiàn)更接近“對話伙伴”的狀態(tài)。

回顧OpenAI在語音方向上的技術(shù)演進(jìn),2022年其推出的Whisper是一套以高準(zhǔn)確率著稱的自動語音識別(ASR)系統(tǒng),主要解決“聽懂人說話”的問題;2025年,OpenAI進(jìn)一步發(fā)布了GPT-realtime語音轉(zhuǎn)語音模型,開始探索低延遲、連續(xù)對話式的語音交互。這一系列嘗試,也為如今全新一代語音AI模型的架構(gòu)重塑奠定了基礎(chǔ)。

OpenAI押注無屏交互,語音AI可實時對話,設(shè)備預(yù)計明年發(fā)布

▲GPT-realtime功能介紹(來源:OpenAI Platform)

The Information報道稱,OpenAI在語音AI模型上的改進(jìn)已初見成效。新一代模型在架構(gòu)層面進(jìn)行了調(diào)整,能夠生成聽感更自然、情緒更豐富的語音回復(fù),同時在回答深度和準(zhǔn)確性上也有明顯提升。

與現(xiàn)有模型相比,新的語音AI模型可以實現(xiàn)與用戶“同步說話”,并在對話中更好地應(yīng)對打斷和插話。這種實時、連續(xù)的語音交互能力,是當(dāng)前語音AI模型尚未具備的。

值得注意的是,驅(qū)動語音AI模型的底層大型語言模型,與當(dāng)前驅(qū)動ChatGPT文本回復(fù)的模型并不完全相同。

在團(tuán)隊配置上,語音AI項目的關(guān)鍵負(fù)責(zé)人之一是昆丹·庫馬爾(Kundan Kumar)。他是一名語音AI研究員,于今年夏天從全球AI陪伴應(yīng)用“一哥”、美國AI聊天機(jī)器人獨(dú)角獸公司Character.AI加入OpenAI,負(fù)責(zé)主導(dǎo)相關(guān)工作。

此外,項目核心成員還包括產(chǎn)品研究主管本·紐豪斯(Ben Newhouse),他曾推動OpenAI將原本面向文本AI的基礎(chǔ)設(shè)施重構(gòu)為支持語音模型,多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基·香農(nóng)(Jackie Shannon)。

二、AI“伴侶型”設(shè)備,主動理解環(huán)境與用戶目標(biāo)

OpenAI的研究人員正在同步推進(jìn)一款語音驅(qū)動的個人設(shè)備,其核心理念是讓用戶通過語音而非屏幕與AI交互。

據(jù)知情人士透露,今年夏天,參與該設(shè)備研發(fā)的研究人員曾向內(nèi)部員工展示相關(guān)構(gòu)想:這款A(yù)I語音設(shè)備將更像是一個與用戶并肩工作的伙伴,能夠主動提供建議,幫助用戶完成目標(biāo),而不僅僅是應(yīng)用程序或軟件的語音入口。

在獲得用戶授權(quán)的前提下,該設(shè)備可通過語音和視頻感知周圍環(huán)境及用戶自身狀態(tài),從而提供更具情境感知能力的服務(wù)。

目前,已有多名OpenAI員工參與到與該設(shè)備相關(guān)的不同環(huán)節(jié)中,包括供應(yīng)鏈管理、工業(yè)設(shè)計以及模型研究等。

在硬件設(shè)計層面,據(jù)此前智東西報道,OpenAI于2025年5月21日以近65億美元(約合人民幣455億元)的價格收購了io公司,io團(tuán)隊的大部分成員(約55人)加入OpenAI。io公司由前蘋果首席設(shè)計官喬納森·艾維(Jony Ive)聯(lián)合創(chuàng)立,負(fù)責(zé)為OpenAI設(shè)計這款全新的AI硬件產(chǎn)品。

OpenAI押注無屏交互,語音AI可實時對話,設(shè)備預(yù)計明年發(fā)布 OpenAI押注無屏交互,語音AI可實時對話,設(shè)備預(yù)計明年發(fā)布

▲OpenAI發(fā)文,io團(tuán)隊已正式加入OpenAI(來源:OpenAI官網(wǎng))

多位知情人士還透露,OpenAI并不打算只推出單一設(shè)備,而是計劃分階段發(fā)布一系列產(chǎn)品,內(nèi)部討論過的形態(tài)包括智能眼鏡以及完全無顯示屏的智能音箱。

三、無屏交互的前提是先習(xí)慣使用語音功能

The Information的報道中提到,OpenAI的研究人員正在開發(fā)這款語音驅(qū)動的個人設(shè)備,是希望用戶通過語音而非屏幕進(jìn)行交互。

這一思路在Al研究界并非個例。包括Thinking Machines Lab在內(nèi)的不少研究機(jī)構(gòu)都認(rèn)為,語音是人類最自然的交流方式,人機(jī)交互也應(yīng)回歸這一形態(tài)。

不過,一位前OpenAI員工提到,目前的現(xiàn)實挑戰(zhàn)在于,大量ChatGPT用戶并不習(xí)慣使用語音功能。原因既可能是語音體驗尚不成熟,也可能是部分用戶根本不知道ChatGPT支持語音交互。

這意味著,在推出語音優(yōu)先的硬件產(chǎn)品之前,OpenAI需要先培養(yǎng)用戶的使用習(xí)慣。

結(jié)語:當(dāng)AI走向“去屏幕化”,下一代設(shè)備輪廓初現(xiàn)

在OpenAI的設(shè)備設(shè)想中,“無屏幕”被視為一項重要設(shè)計方向。部分業(yè)內(nèi)人士認(rèn)為,這種形態(tài)有助于降低用戶對設(shè)備的成癮程度。

喬納森·艾維目前正深度參與OpenAI的硬件研發(fā)。他曾提到,對他而言,參與這類項目至關(guān)重要,因為他認(rèn)為未來的新型設(shè)備,或許是修復(fù)過去消費(fèi)電子產(chǎn)品所帶來問題的一種方式。

與谷歌、亞馬遜、Meta、蘋果等科技巨頭類似,OpenAI也在積極布局新一代個人AI設(shè)備,包括可穿戴產(chǎn)品。在這些公司看來,當(dāng)前最主流的設(shè)備形態(tài)——如iPhone——并未真正為未來的AI能力而設(shè)計,而這正是下一輪硬件創(chuàng)新的突破口所在。

來源:The Information、TechCrunch、維基百科