新聞動態(tài)
深圳市榮泰電子有限公司
地址:深圳市寶安區(qū)西鄉(xiāng)金海路華盛輝商業(yè)大廈8樓
電話:0755-23571550、0755-23204616
傳真:0755-23218515
銷售一部總監(jiān):黃生 13590196383
銷售二部總監(jiān):高生 13823610165
網(wǎng)址:http://m.nfjdszt.cn
發(fā)布時間:2021-10-15作者來源:榮泰電子瀏覽:2044
忽如一夜春風來, 智能音箱遍地開。國外有Amazon Echo,Google Home,Microsoft Invoke,Apple HomePod……筆者也與高通保持交流,對方也在積極推智能音箱設(shè)計平臺。國內(nèi)巨頭有BAT磨拳檫掌,內(nèi)容商有喜馬拉雅發(fā)布了自己的小雅音箱,終端廠商也各自積極尋找合適的方案。應(yīng)運而生的,深圳的音箱方案商也不出意外地滿大街啦。
那么問題就來了——如何才能做好一個智能音箱呢?
十步,智能音箱從入門到放棄
對于如何做好一個智能音箱,筆者腦海里面先浮現(xiàn)的是讀書那會兒圖書館、書店里面不斷沖擊眼球的《21天,C++從入門到精通》。當然,很多時候讀完的感覺是,這個書名應(yīng)該改為《21天,C++從入門到放棄》,原因無他,C++博大精深、功能強大、涉及面極廣。類比智能音箱,筆者也嘗試撰寫一篇短文,不需要21天,只需要10步,智能音箱就可以從入門到放棄了。
市場定位
2017年6月4日,“定位之父”杰克·特勞特先生去世,享年82歲。但是他提出的“定位”(Positioning)理論將繼續(xù)指導(dǎo)大家的經(jīng)濟活動。具體到智能音箱,尤其是在國內(nèi),如何在這波熱潮里面定位自己,非常重要。一個簡單的例子,是打算自己推產(chǎn)品?還是打算國內(nèi)的通行做法,左手產(chǎn)品、右手方案?如果是后者,那么自己樹標桿的產(chǎn)品采用什么方案?提供給客戶的方案又需要如何滿足不同的客戶價格區(qū)間?
看著上表,再看看國內(nèi)對于TTM(Time To Market) & Cost的割喉競爭,這一步估計已經(jīng)有不少公司放棄啦。
2
外觀設(shè)計
音箱外觀是[敏感詞]眼印象,重要性不解釋,見下圖:
這也就不難解釋為何那么多方案商給出的參考設(shè)計都是圓柱體,外形大體一樣——雖然我不出挑,但我也不挨罵啊。
各位看官,設(shè)身處地,如果自己沒有蘋果的江湖地位,面對吃瓜群眾對音箱外觀仁者見仁智者見智地點評,是否有強大的心臟可以支持自己繼續(xù)走到第三步?
3
聲學結(jié)構(gòu)
其實外觀設(shè)計和結(jié)構(gòu)設(shè)計是密切相關(guān)的,大家都希望設(shè)備輕巧可攜帶,音效又特好,外殼還柔性,但外觀設(shè)計這一飄逸藝術(shù)家的活,被結(jié)構(gòu)要求的技術(shù)工科男懟了。要想低音好,需要加些料;要想播歌期間識別好,Mic喇叭[敏感詞]分開擺。這左一條、右一條、上一條、下一條的設(shè)計原則,讓音箱慢慢變大、變高,也就很難看到類似藍牙音箱那種捏在手里陪你慢慢跑步的智能運動音箱了。
各位做方案的朋友們,更要對這個上心啦,因為結(jié)構(gòu)設(shè)計得好,大家一時感覺不了,結(jié)構(gòu)設(shè)計得不好,整體效果就大打折扣。當然,結(jié)構(gòu)設(shè)計的好,不妨展示自家的透視圖,妥妥地工程美學。雖然大家都吐槽蘋果外形,但是[敏感詞]這張還是蠻出挑的。
4
內(nèi)容整合
所謂的智能音箱,首先還是個音箱,自然要考慮播放歌曲的效果。上面談到的聲學結(jié)構(gòu),也是首先要確保播放音效。但是歌曲內(nèi)容的覆蓋度,也是[敏感詞]重要的事情。光有好的音效聲學結(jié)構(gòu),沒有音樂源,那就是修了高速沒有車跑了。國內(nèi)在這一塊合縱連橫,但主動權(quán)還是掌握在音樂版權(quán)商手里。有決心涉足于此的大廠,這一塊的合作和成本是必須要考慮的事情了。
由于市場已有方案的示范效果,智能音箱除了播放歌曲,各種有聲讀物、唐詩宋詞、外文翻譯,也是題中應(yīng)有之意。每一塊內(nèi)容的整合,都是需要認真規(guī)劃的。喜馬拉雅近日發(fā)布小雅音箱,其中一個大的出發(fā)點和訴求點就是自身的內(nèi)容優(yōu)勢。
從積極的角度看,為內(nèi)容,尤其是為高質(zhì)量的內(nèi)容付費,是我國知識產(chǎn)權(quán)走向更為成熟的標志之一,也杜絕了部分市場參與者賺快錢、撈一把就走的心態(tài),這樣的氛圍更有利于打造精品,助力消費升級。
5
系統(tǒng)優(yōu)化
說了這么多,終于開始進入到產(chǎn)品本身了,那么如在定位中所提及的,在選定系統(tǒng)平臺后,各種系統(tǒng)優(yōu)化的工作就要安排了。很多做智能音箱的,把眼睛盯在遠場喚醒、打斷、識別上面,其實系統(tǒng)優(yōu)化的[敏感詞]步,遠遠沒有到那一塊。目前的智能音箱均是WiFi音箱,那么開機速度、聯(lián)網(wǎng)便利性就是用戶除外觀以外的第二第三體驗了。開機速度自然是越快越好,聯(lián)網(wǎng)自然是成功率越高越好,操作越簡單越好。但是很多音箱,開機大于1分鐘,聯(lián)網(wǎng)重連概率高,還比較挑路由器和網(wǎng)絡(luò)設(shè)置。這個,怎么說呢,想象一下小輩買了個音箱回家孝敬老人,心情愉快地上電,默默地等待幾分鐘,后自己也折騰半天還無法聯(lián)上網(wǎng),這個畫面就比較尷尬了。
其次系統(tǒng)功耗也很重要,先不說可攜帶音箱,即使是家中的音箱,雖然一直連著電源,但是播放一段時間后,播出千分音,但更放出萬分熱,就比較麻煩了。功耗牽涉到CPU的選擇,休眠時降頻的處理,也牽涉到一直運行的計算,比如語音待喚醒的功耗,都是考驗一個技術(shù)團隊的重要方面。
沒有系統(tǒng)的駕馭能力,止步于此是一個不錯的選擇了。
6
遠場Mic陣列
好了,支撐整個智能音箱的AI終于要登場了,這是一個極為復(fù)雜的系統(tǒng),涉及到感知技術(shù)、認知技術(shù)以及交互技術(shù)。下圖給大家一個整體印象。
這第六步也就是感知技術(shù)的[敏感詞]環(huán),遠場Mic陣列。這是智能音箱的基礎(chǔ)技術(shù)之一,有了它,遠距離、噪聲環(huán)境下的良好交互才成為可能,大家也可避免需要用手去觸摸音箱才能操作,甚至可以在臥室控制客廳的音箱。簡單地說,Mic陣列是解決“耳朵”的問題。
以家居環(huán)境為例,遠場語音拾取,必然需要考慮去除由于墻壁等反射導(dǎo)致的混響,家居各種設(shè)備產(chǎn)生的背景噪聲,其他用戶的人聲干擾以及電視機自身產(chǎn)生的回聲。目前市面上Mic陣列主要分為2Mic陣列和多Mic陣列。
Google Home采用的就是2Mic陣列,這個方案[敏感詞]的好處是結(jié)構(gòu)簡單,實施落地方便,凸顯了Google做平臺的特質(zhì)。原因也很簡單,在音箱上打兩個孔,無論是確保在一條直線上(這個其實是廢話了,兩點確定一條直線),還是一個平面上(似乎也是句廢話),都非常簡單。缺點是只能支持180°聲源定位,定位角度的區(qū)分度也弱一些。
Amazon采用的是6+1 Mic陣列,支持360°聲源定位,但是聲學結(jié)構(gòu)設(shè)計,乃至后期維護的難度有所提高。2Mic的一致性和6個Mic的一致性,以及更換出問題的概率都有差別。
另外,當前也有一個有些走偏的思潮,那就是認為Mic越多越好,這個看法其實有待商榷的,4個Mic能解決的問題,為啥一定要8個?成本更低,結(jié)構(gòu)更簡單,效果一樣,為啥一定要7、8個呢?這種思潮,既有點像當初大家追求的8核、10核處理器,又有點像鼓吹者只想做個Demo,根本不考慮量產(chǎn)了。
7
離線喚醒
就像外觀是整個音箱的[敏感詞]體驗一樣,喚醒,是智能音箱的[敏感詞]體驗了。說喚醒詞后反應(yīng)遲緩,隔得遠了喊半天不起來,播放歌曲了需要吼才能起來,甚至放在那,莫名奇妙自己叫起來了,這些產(chǎn)品估計得擔心被用戶拍小視頻投訴了。
離線喚醒需要關(guān)注以下關(guān)鍵點:
快: 反應(yīng)速度一定要快,[敏感詞]是用戶話音剛落,設(shè)備就應(yīng)答了,這給用戶的感受,就像是有個隨叫隨到的助手,很有feel。
準: 必須要準確,說了喚醒詞就得有反應(yīng),否則,喊了半天,尤其是智能音箱經(jīng)常播放音樂,需要能準確打斷,繼續(xù)下達命令。
穩(wěn): 沒事的時候靜靜地呆在那,主人看電視、接待小伙伴,音箱都不胡亂自己跳出來,給大家意外。這就要求長時間誤喚醒率趨向于0。這一塊其實是硬功夫,而且需要仔細考察才能選出合適的方案。否則,喚醒光有快和準,后沒事亂蹦出來,就很煩人啦,沒準投訴隨之而至。
8
語用計算(Context-aware NLU)
一般而言,說起認知技術(shù),大家討論的都是自然語言處理(NLU),主要目的是讓音箱能準確理解用戶的意圖。但是,中文博大精深,不同人說同一句話,以及同一個人在不同場合說同一句話,意思都不一樣了。例如經(jīng)典笑話:
A:你這是什么意思?
B:沒什么意思,就是意思意思。
A:你這樣就沒有意思啦。
B:哪里哪里,這只是一點小意思。
A:呵呵,你這個人真有意思。
這也就提醒我們,光從文字上,實際上是很難準確地理解用戶的意圖的。任何語音的交流,都需要考慮一個核心因素—— 場景化。
所謂的語用計算,就是基于場景化感知的NLU。通過5W&1H(Who,When,Where,Which,What&How) 原則理解是什么人在什么時候,什么地方對著什么設(shè)備說了什么話,然后由語用決定如何去回應(yīng)。
具體到智能音箱,尤其是還有打算像Google和Amazon一樣把音箱作為家居中控的朋友們,更需要考慮這個基于場景的語用計算。
“你好音箱,幫我把燈關(guān)了”—— 是指這個智能音箱上連接的客廳的燈,還是臥室的?
“有點冷”,是指這個笑話說得有點冷,還是音箱上也掛接了空調(diào)了?
設(shè)身處地,理解用戶的命令,為用戶提供合適的應(yīng)對,才是真正的NLU,也是語用計算的真諦所在。
9
流式交互
前面兩條是感知技術(shù)(耳朵)和認知技術(shù)(大腦),有了這兩條,智能音箱聽得到,也聽得懂了,那么這款智能音箱可以說做到內(nèi)秀了。但是除了心靈美,也需要良好的溝通才能把音箱豐富的內(nèi)心帶給用戶。這就是要靠交互了,為自然的交互自然是語音交互了。但是目前的音箱,所有的交互都是一喚醒再一問再一答。這種交互[敏感詞]的問題就是——讓人感到生分。每次使用前,需要先喊一聲音箱的名字,然后再下達指令,比如:
先喚醒: “臥龍先生”,然后下達命令“隨便來首那英的歌”。智能音箱開始播放了,這個時候改主意了,想換一首韓紅的歌時,又得喊一聲音箱的名字喚醒……
這個感覺,很像兩個特別生分的人,無論何時何地,請對方幫忙,都要喊一聲全名,“臥龍先生,請你”……“臥龍先生,能否幫我”…… “臥龍先生”……音箱買回家都幾個月了,大家已經(jīng)很熟啦,為啥一定需要這樣?
另外,面對音箱,用戶的心態(tài)和面對一個活生生的人,還是有些差異的。作為一名五好青年,隨意打斷別人說話,總是有些不禮貌的,從而內(nèi)心是抗拒的。但是打斷一個設(shè)備說話,或者插話,大家一般還是比較隨意的。