中國是全球玩具生產大國,世界玩具產品總量的80%以上都是在中國制造。不過,有數據顯示2005年中國出口傳統玩具的增幅微弱,尤其是科技含量較低的毛絨、塑料等類型的玩具,由于利潤空間小、受歡迎程度低,已經很難在市場上占據更多的份額。
很長一段時間內,玩具產品將保持兩大發展趨勢:一是益智、創新的玩具,包括電子、機械類玩具;另一方面,智能玩具方興未艾,智能化、人性化并具備圖文識別、語音識別、傳感器等技術的產品會大受歡迎。信息產業部在《2006年電子信息產業發展基金項目指南》中,將“多媒體益智娛樂產品”作為一項國家支持的產業化項目,也說明了玩具產品的市場動向。
將人工智能引入玩具產品設計,使玩具具有人機交互的能力;而通過互聯網技術,在線可更新的劇本使得創意保持一定的新鮮感,并可根據用戶的需求進行定制。這種全新的玩具設計方案將會是玩具業在技術上的又一次飛躍,使得寓教于樂成為可能。
北京凌聲芯語音科技有限公司根據當前玩具產品的業界動向,針對傳統玩具和語音科技、娛樂元素和益智教育、傳統玩具和互聯網這三方面,結合設計開發了新型的智能玩具開發系統。該系統在硬件上基于清華大學和英飛凌公司共同設計開發的低成本、低功耗語音處理專用芯片UniLite(凌聲芯公司在UniLite上實現了低碼率、高品質的語音編解碼算法,特定人/非特定人語音識別算法)。
此外為實現智能玩具的劇本創意,我們還設計了劇本轉換軟件ITADL,可以將不同創意的劇本快捷方便地轉換成映射文件下載到硬件中去。凌聲芯公司在智能玩具領域,能夠從底層的硬件結構、語音處理算法和頂層的玩具開發系統提供技術支持,具體結構如圖1所示。
UniLite芯片簡介
UniLite是一款用于語音處理的專用芯片,芯片采用高集成度的SoC系統結構以0.18um半導體工藝制造,以16位定點DSP(104MIPS)為核心,片內集成了直接雙訪問快速SRAM、ADC/DAC(有效精度為12位)、多種通信接口和通用GPIO等設備,外部只需擴展閃存、電源芯片、啟動芯片等少量芯片即可構成完整的系統應用。UniLite芯片使用TQFP6?封裝,同時采用了低功耗設計技術,非常適合應用到采用干電池/鋰電池供電的移動設備中。使用UniLite芯片構成智能玩具中的語音處理系統,只需要增加很少的外圍器件,不再需要增加編解碼器,可以有效的減少產品成本。
語音識別技術
語音是人類最自然、最方便的交互形式,如果玩具能夠聽懂人說的話,那么人和玩具之間就能夠產生很豐富的交流,這樣的玩具更能夠吸引人的注意力,贏得用戶的歡迎。凌聲芯公司推出的智能玩具設計方案采用語音技術實現人機交互。
目前市場上已有一些具有語音識別功能的玩具,鑒于成本原因,大都采用特定人語音識別技術,識別詞條少、更新詞表需要再訓練,使用很不方便。而凌聲芯公司的智能玩具開發系統采用基于子詞的非特定人語音識別算法。該算法的主要優點在于:
1. 統性能穩定,在較大規模識別任務下系統具有較高識別率,而且在噪聲環境下仍能保持較高的識別率。
2. 特別適合中文普通話的識別任務,為當前語音識別的主流技術,其使用者可以是男性、女性,不同的年齡層次,甚至帶有地方口音的普通話都可以很好地識別出來。
3. 模型參數的規模不隨識別任務的變化而變化,可通過音素拼接的方式得到識別詞表中各詞條的識別模板。
4. 目前的硬件處理能力已經可以達到識別200詞條語音命令,并在200詞以內都能夠達到很高的識別率。
5. 修改識別任務時不需要任何訓練,只要將識別詞條以GB2312/GBK(包含繁體)/Unicode/漢語拼音等任意的形式下載到硬件中去,即可進行識別。

圖1:凌聲芯公司提供智能玩具開發技術支持
統計不同規模詞表識別任務下的識別率,如表1所示。

表1:不同詞表規模下系統的識別性能
在200詞以內,其識別率都達到了98%以上,而且識別的速度非常快,200詞識別集系統的響應時間是0.086倍實時,即一句話說完之后,只需要花費講這句話的時間的0.086倍就可以得到識別結果,使用時幾乎感覺不到等待時間。
這種基于子詞的非特定人語音識別技術為智能玩具實現復雜功能、保持識別性能、網絡下載等提供了可靠的技術保證。
劇本創意實現
在硬件系統和嵌入式語音技術的基礎上,凌聲芯提供了ITDAL玩具開發系統,該系統包括腳本編寫、腳本編譯、腳本仿真、腳本執行幾個過程。ITDAL軟件可以方便快捷地實現一個玩具劇本,將文本形式的劇本創意實現并下載到硬件中。這里的劇本內容可以包括文化、歷史、地理知識;可以包括童話、兒歌、唐詩宋詞等等。
圖2給出了一個智能玩具劇本的實例。

圖2:智能玩具的劇本實例
玩具根據劇本的要求可以先提出一個問題:“你好,問你一個問題,請問道家學派的創始人是老子還是孔子?”。劇本的設計者必須將用戶所有可能的回答事先考慮到,并且對應每個回答設計玩具的進一步應答,例如在上面提到的劇本中,用戶可能的回答除了包括“孔子”、“老子”這兩個回答外,另外可能的答案包括“曾子/孟子/不會/我不會/不知道/我不知道/我不明白/不玩了/再見”等其它答案。玩具根據用戶的回答,做出回應。
目前該系統支持的劇本是玩具主導整個流程,還不能夠支持由用戶發問的形式,因為考慮到嵌入式芯片的運算能力,還不能支持開放集合的語音識別,只能支持到有限集合的語音識別。對于上面提到的語音識別劇本實例,用戶可能的回答形成的整個集合作為識別集。如果用戶作出的回答不在事先設定的集合內,系統就會將用戶的回答誤識別成集合內的某個詞,因此在劇本設計時,對每個問題的識別集,需要考慮用戶所有可能的回答。
智能玩具開發系統
在凌聲芯的智能玩具系統中,玩具的提問和玩具的應答采用的是語音壓縮編解碼技術,用戶回答玩具的提問后使用的是非特定人語音識別技術。這樣的三個步驟在ITDAL中看作一個劇本節點,一個完整的劇本包括多個這樣的劇本節點。ITDAL將劇本節點中的玩具提示音、用戶可能的回答集合、對于每個回答的應答進行重新腳本釋義,并經過編譯仿真,即可生成最終的映射文件下載到玩具中。
該系統在硬件上還實現了從PC機的下載功能,可以實現“數據庫網站”到玩具終端的劇本更新,大大地提高了玩具的新穎性,同時在娛樂性的基礎上增加教育益智的功能。
圖3是智能玩具開發系統的劇本創意到下載的流程示意圖。

圖3:智能玩具開發系統流程圖
對于一個設計好的劇本創意,根據其內容,錄制玩具的發音(提示音),同時準備識別詞表。然后在PC機上根據ITDAL系統將劇本進行編輯處理,結合提示音文件生成最終的映射文件。將準備好的映射文件通過USB口下載到玩具終端,劇本的實現工作就完成了。
對于這樣一個可以提供劇本下載更新的玩具,推出市場的同時需要提供一個數據庫網站的支持,該網站提供各種玩具創意的映射文件下載,用戶購買一個玩具之后,如果對其創意感到厭倦,就可以到網站下載新的創意,保持玩具持續的新鮮感。此外,用戶還可以根據自身需要在網站上定制自己的個性化玩具。 |