第三屆汽車智能座艙技術(shù)峰會演講實錄 | 德賽西威李南山:座艙大模型的實踐和思考

發(fā)布日期:2024-03-12· 中國汽車報網(wǎng) 記者:趙玲玲 整理 編輯:李沛洋
記者:趙玲玲 整理 編輯:李沛洋

2024年3月8日,在深圳舉辦的2024汽車供應(yīng)鏈新生態(tài)大會的第三屆汽車智能座艙技術(shù)峰會上,德賽西威技術(shù)中心大模型技術(shù)專家李南山做了題為《座艙大模型的實踐和思考》的演講。以下為演講實錄:

各位專家,各位在場的小伙伴,大家下午好,接下來由我跟大家一起分享一下德賽西威AI大模型上車的實踐和思考。

我先自我介紹一下,我是來自德賽西威的李南山,在德賽西威工作也有12年,這12年主要搞的是軟件的設(shè)計,參加過公司很多平臺的開發(fā),目前做AI大模型技術(shù)這一塊。同時服務(wù)的車廠比較多,就不一一贅述了。

說到大模型,大家會想到openAI和ChatGPT,大模型擁有廣泛知識能力,同時具有決策和推理能力的大型數(shù)據(jù)結(jié)構(gòu),就是模擬人類的認(rèn)知過程,它就是我們的大腦。大模型的特點,首先是一個生成式的模型,同時需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的數(shù)據(jù)結(jié)構(gòu),同時具有Transformer架構(gòu)的模型,Transformer是可以模擬人的大腦思考的方式,對問題進(jìn)行合理推理的能力。

以人工智能發(fā)展的歷史來看,從起步階段到穩(wěn)定發(fā)展蓬勃發(fā)展的階段經(jīng)歷了很多年的發(fā)展。對大模型預(yù)訓(xùn)練技術(shù)也是經(jīng)過了很多代的迭代,到現(xiàn)在比較成熟的是ChatGPT4,這樣的情況下誕生出了很多為人類服務(wù)的層次,從最底層的算力層到最上層的應(yīng)用層,這邊需要重點提一下的就是服務(wù)層。為什么要提服務(wù)層?比如有了大腦之后,怎么樣為我們服務(wù),完全取決于服務(wù)層,意味著我們可以對模型進(jìn)行定制化的開發(fā),比如說服務(wù)于智能座艙和辦公領(lǐng)域,所以我們有了大腦的框架之后,就可以為現(xiàn)代智能座艙進(jìn)行賦能。

接下來看一下大模型智能座艙,首先從市場的角度來看,預(yù)測智能座艙在2025年市場的份額可以達(dá)到2千多億元,同時對乘用車的語音交互市場的規(guī)模來說,2022年突破22億元。從消費者的角度來看,消費者為智能座艙的功能模塊買單,比如兒童專屬的功能模塊,多模交互模塊、車載語音模塊,這些模塊是大模型在這些模塊里可以發(fā)揮很大的能力作用。

智能交互未來會趨向于智能交互和多模交互的方式,所以德賽西威對這些內(nèi)容做了主動感知,基于計算機的大平臺和算力的加持,加上多模態(tài)的感知融合,就可以形成中央控制大腦。中央控制大腦由大模型和大算力組成,這些基礎(chǔ)的情況下就可以為智能座艙賦能,可以做到自主決策性的交互,比如車內(nèi)乘客的關(guān)懷和智能多媒體的控制,甚至做到智能的管家。

從情感和智能化兩條線進(jìn)行區(qū)域的劃分,可以劃分出安全性、便利性、智能管家,當(dāng)前階段的話,在智能座艙里面,語音在便利性這個階段的。但是未來的趨勢,肯定會走向智能管家的方向。

基于大模型座艙的產(chǎn)品理念,基于車載智能語音來看,有三大難點,一是語音的獲?。欢钦Z義的理解;三是語音的識別。從這三大方向來看,語音的獲取和語音的識別在市場上是有比較成熟的技術(shù)了,這邊最困難的就是語義的理解,然而大模型剛好就是可以彌補這一個缺陷的,因為大模型具有一定的決策能力和推理能力,所以利用大模型可以做到更加便利性和智能性。

對比普通的車載語音系統(tǒng)與搭載德賽西威大模型車載語音系統(tǒng),可以看到普通的語音系統(tǒng)里面,它是基于域定義的結(jié)構(gòu)化的模型,這種模型比較簡單,同時無法進(jìn)行上下文的理解,所以說無法進(jìn)行多輪對話。同時模型的自我更新能力是比較差的,因為它的知識量是有限的,所以產(chǎn)生的對話是比較生硬的。而搭載了德賽西威車載大模型系統(tǒng),首先這個大模型系統(tǒng)是基于Transformer的架構(gòu),域訓(xùn)練的模型,同時基于海量預(yù)訓(xùn)練的模型,意味著我們開發(fā)這個模型的時候,采用了大量的數(shù)據(jù)訓(xùn)練它,從而可以實現(xiàn)非常自然的對話,同時也可以實現(xiàn)在后續(xù)用戶的使用過程中是無監(jiān)督的,自己學(xué)習(xí),不停提升自己能力的。

在車載智能座艙中,大模型的使用來說或者開發(fā)來說有比較多的難點,我列出來四個難點,一是平臺使用什么樣的平臺搭載這樣的大模型。二是如何在智能座艙里讓大模型有更精準(zhǔn)答案回答。三是如何讓大模型可以做到上下文的理解和多輪對話。四是讓大模型更快的響應(yīng)用戶速度,提高用戶體驗。

德賽西威在這些技術(shù)探索和研究的基礎(chǔ)上有很多的突破,比如說平臺方面的話,采用了B/S架構(gòu),這種架構(gòu)充分利用算力資源打造了一個云和端的架構(gòu)平臺。二是精準(zhǔn)知識庫方面做到了專業(yè)知識庫的搭載形式,所以在智能座艙里大模型有很專業(yè)的知識,它都可以一一回答出來。三是使用了槽位技術(shù),實現(xiàn)上下文的串通理解,同時可以實現(xiàn)很順暢的多輪對話。四是快速回答方面做了流式的數(shù)據(jù)輸出,可以達(dá)到毫秒級的應(yīng)答速度,大大提升了用戶的體驗。

接下來看一下基于大模型的車載語音產(chǎn)品,主要以兒童出行的痛點為例,我們羅列了帶著兒童出行三大痛點闡述。對于兒童陪伴有很多基于模型出來的產(chǎn)品,比如說兒童故事機、早教機,有了這些之后,我們的智能座艙為什么還需要開發(fā)一個兒童陪伴的解決方案或者產(chǎn)品。首先,我們的思考是這樣的,大模型在智能座艙需要解決對兒童的陪伴,一是養(yǎng)成式的玩偶,玩偶可以見證孩子的成長,可以陪著孩子一起成長。同時它有多種模式的選擇,這種模式主要體現(xiàn)在不同小孩的年齡段,都可以適應(yīng),同時可以進(jìn)行多模的交互,多模交互主要體現(xiàn)在大模型在智能座艙里可以控制,控制或者使用智能座艙里多種傳感器或者是一些外圍的技術(shù)。

首先看一下場景一,一個安撫模式,這個場景的背景是這樣的,一個媽媽獨自帶著3歲的小孩去外婆家,寶寶在后面熟睡,清醒之后孩子要聽故事,大模型可以接入進(jìn)來,大模型給寶寶講述兒童故事。寶寶哭鬧的時候,大模型可以聯(lián)動車內(nèi)的攝像頭,感知到寶寶正在哭鬧的情緒,大模型識別到這些場景之后,給到媽媽一個信號,是不是要進(jìn)行安撫模式。開車媽媽啟動了安撫模式之后,大模型會自動地利用外婆的聲紋給小孩進(jìn)行安撫,讓小孩不再哭鬧。

場景二,陪伴模式,7歲的小明的愛好是喜歡唱歌,上車之后,大模型識別到小明比較開心,比如說六一兒童節(jié)表演了唱歌的節(jié)目,大模型識別到這樣的場景之后,會調(diào)出歌曲的一些伴奏,可以哼唱,讓小明進(jìn)行一定的哼唱,大模型可以控制車內(nèi)的燈光。整個過程大模型對數(shù)據(jù)有一定的記錄,同時在這些數(shù)據(jù),可以發(fā)送到家長的手機上,一起讓家長參與共享,同時對小明的成長來說是打卡性的,所以大模型有陪伴和成長的功能。

場景三是教育模式,說到教育,對于大多數(shù)家長來說,都是一個比較頭痛的事情,所以我們列舉了一個爸爸帶著小孩一起出差旅行。爸爸在前面開車,小孩對車外的事物有新鮮感,所以會時不時會問前面的山是什么山,前面有什么樣的風(fēng)景,類似這種情況,我們的大模型可以介入進(jìn)來,比如說大模型可以識別到兒童問了這樣的一些問題之后,聯(lián)動汽車上的外部攝像頭拍攝到的畫面,同時大模型還有綜合上網(wǎng)的能力,查到答案之后給孩子一個解釋,當(dāng)前這座山是什么樣的山。類似這樣的信息,也可以投屏到車內(nèi)的前后屏,和父母做一個有效的互動。

看一下德賽西威對大模型的規(guī)劃和進(jìn)展,首先看一下視頻,這個視頻是德賽西威自己研發(fā)的德賽數(shù)字人,德賽數(shù)字人和智能座艙有效的融合在一起了,這個融合帶來的好處,首先是取代了傳統(tǒng)的語音助手,可以實現(xiàn)對車內(nèi)信號的控制,比如車內(nèi)報警都可以進(jìn)行實時的播報。二是數(shù)字人可以幫我們在開車的過程中實現(xiàn)簡單的辦公模式,比如幫我們回復(fù)郵件或者回復(fù)信息。

對于大模型在辦公領(lǐng)域,德賽西威是這樣看待的。首先,在公司的內(nèi)網(wǎng)和大模型已經(jīng)打通了,同時在工作中想問一下當(dāng)前項目的進(jìn)度,當(dāng)前的項目成員有哪些,都可以通過大模型給出一個精準(zhǔn)的答案,甚至在軟件領(lǐng)域開發(fā)的程序員來說,他可以借助大模型幫他生成功能性的片段代碼,這樣的方式可以提高一定的生產(chǎn)率。

接下來看一下德賽西威對AI大模型后續(xù)的一些規(guī)劃,這邊我羅列了三點。

首先是有感智知,通過AI技術(shù)感知艙內(nèi)生命的身心狀態(tài),意味著大模型可以給座艙內(nèi)的生命狀態(tài)進(jìn)行一定的監(jiān)督,同時給出更好更健康的信息。二是數(shù)字情緒,也就是通過AI技術(shù)理性表達(dá)有溫度的情緒,這一點是在智能座艙里,它并不是一個冰冷的座艙,而是有溫度、有情緒的座艙。三是具身相通,主要是通過AI技術(shù)與個人身心的深度聯(lián)合,最后打造人機一體的效果。

我的演講完畢,謝謝!

中國汽車報記者趙玲玲 整理

熱門推薦