語(yǔ)音輸入與識(shí)別技術(shù)
發(fā)展了幾十年之久的語(yǔ)音技術(shù)在計(jì)算機(jī)硬件和巨大應(yīng)用的驅(qū)動(dòng)下,已經(jīng)從模式識(shí)別和人工智能的一個(gè)分支提升為一門(mén)綜合人類(lèi)智能各項(xiàng)研究的獨(dú)立學(xué)科。
語(yǔ)音技術(shù)包括語(yǔ)音識(shí)別、說(shuō)話(huà)人的鑒別和確認(rèn)、語(yǔ)種的鑒別和確認(rèn)、關(guān)鍵詞檢測(cè)和確認(rèn)、語(yǔ)音合成、語(yǔ)音編碼等,其中最具有挑戰(zhàn)性和最富有應(yīng)用前景的是語(yǔ)音識(shí)別技術(shù)。
|
近幾年來(lái),由于語(yǔ)音輸入和聲控技術(shù)比手寫(xiě)輸入方法來(lái)得更為方便、直接,漸漸開(kāi)始流行起來(lái),一些漢字基礎(chǔ)不大好的人,還把它作為首選的文字輸入手段。從我們的介紹中可以知道,自然界的聲音和人講話(huà)的語(yǔ)音,都是模擬信號(hào),不能直接輸入計(jì)算機(jī),因此在語(yǔ)音輸入的過(guò)程中,我們必須通過(guò)語(yǔ)音卡(也叫作聲霸卡)等設(shè)備,采用一定的編碼方法,把模擬的語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào)輸入計(jì)算機(jī)。計(jì)算機(jī)對(duì)輸入的數(shù)字語(yǔ)音信號(hào)有兩種處理方法,第一種跟筆繪板輸入手寫(xiě)字一樣,只對(duì)其作簡(jiǎn)單的存儲(chǔ)和傳輸,提供在計(jì)算機(jī)網(wǎng)絡(luò)或通信網(wǎng)絡(luò)上進(jìn)行人與人之間直接或間接的語(yǔ)音通信;第二種是跟手寫(xiě)字識(shí)別一樣,利用一定的人工智能技術(shù)(通常是計(jì)算機(jī)軟件,如著名的由IBM公司開(kāi)發(fā)的ViaVoice軟件),對(duì)輸入的數(shù)字語(yǔ)音信號(hào)進(jìn)行智能識(shí)別,并把它“翻譯”成計(jì)算機(jī)能夠理解的數(shù)字編碼信息,從而通過(guò)語(yǔ)音實(shí)現(xiàn)對(duì)計(jì)算機(jī)的簡(jiǎn)單操作和控制。在某些情況下出于可靠性的考慮,也可以先把“翻譯”的結(jié)果通過(guò)顯示屏或其他方式反饋給輸入者,得到輸入者確認(rèn)后再進(jìn)行操作。語(yǔ)音輸入與識(shí)別技術(shù)有著廣闊的應(yīng)用前景,例如要實(shí)現(xiàn)在計(jì)算機(jī)網(wǎng)絡(luò)或通信網(wǎng)絡(luò)上不同語(yǔ)言的人之間的直接交談、開(kāi)會(huì)和其他合作工作,就需要這種技術(shù)。語(yǔ)音輸入與識(shí)別技術(shù)最大的弱點(diǎn)是,由于不同人的口音差別較大,語(yǔ)音的準(zhǔn)確識(shí)別比較困難,這也成為其發(fā)展與改進(jìn)的方向。
目前語(yǔ)音技術(shù)的應(yīng)用分為以下幾大類(lèi):
。1)辦公室環(huán)境下桌面計(jì)算機(jī)中的一系列應(yīng)用;
。2)完成人與計(jì)算機(jī)的對(duì)話(huà)功能;
(3)幫助人類(lèi)不同語(yǔ)種之間的交流。
語(yǔ)音技術(shù)的滲透性很強(qiáng),它將無(wú)處不在,在未來(lái)改變我們的生活方式。
“語(yǔ)音撥號(hào)”是世界上每個(gè)電話(huà)用戶(hù)最希望配備的首選功能。使用“語(yǔ)音撥號(hào)”,人們只需一次性地輸入(讀入)人名和電話(huà)號(hào)碼,在以后便可以直接對(duì)著電話(huà)“說(shuō)出”要通話(huà)人的姓名,經(jīng)語(yǔ)音識(shí)別后,查出該姓名所對(duì)應(yīng)的號(hào)碼,然后自動(dòng)地進(jìn)行“撥號(hào)”。這就是未來(lái)的語(yǔ)音電話(huà)。
語(yǔ)音查詢(xún)是語(yǔ)音識(shí)別的又一個(gè)應(yīng)用領(lǐng)域,可用于旅游業(yè)及服務(wù)業(yè)的各種查詢(xún)系統(tǒng)。如語(yǔ)音自動(dòng)導(dǎo)游系統(tǒng),游客只要說(shuō)出自己當(dāng)前的位置和感興趣的景點(diǎn)名稱(chēng),系統(tǒng)便自動(dòng)顯示出圖文并茂的最佳路線、乘車(chē)方案、費(fèi)用及其他相關(guān)信息。如果游客還需要進(jìn)一步了解更為詳盡的資料,則可以同系統(tǒng)進(jìn)行交互式的對(duì)話(huà),系統(tǒng)將對(duì)用戶(hù)的問(wèn)題逐一給予答復(fù)。
語(yǔ)音識(shí)別還可以用在工業(yè)控制方面,在一些工作環(huán)境惡劣、對(duì)人身有傷害的地方(如地下、深水及輻射、高溫等 )或手工難以操作的地方,均可通過(guò)語(yǔ)音發(fā)出相應(yīng)的控制命令,讓設(shè)備完成各種工作。 語(yǔ)音識(shí)別技術(shù)在幫助傷殘人的各種設(shè)備中將發(fā)揮其難以替代的作用。對(duì)于肢體傷殘者或盲人,若全部用聲音控制,則給傷殘者或盲人提供了極大的生活便利。一些辦公設(shè)備加上語(yǔ)音功能后,即使是傷殘者也可以足不出戶(hù)地在家里工作。
在將來(lái),人們外出后,可通過(guò)電話(huà)向自己的電腦管家發(fā)出指令,而電腦管家則會(huì)按照主人的意志安排家中的一切事務(wù)。
語(yǔ)音技術(shù)的應(yīng)用還將推動(dòng)其它產(chǎn)業(yè)的發(fā)展。國(guó)外的一些著名汽車(chē)公司已將語(yǔ)音技術(shù)用在汽車(chē)產(chǎn)品中,“數(shù)字式的、能聽(tīng)說(shuō)的、并具有一雙慧眼的、優(yōu)良的后座駕駛式汽車(chē)”,只要車(chē)主告訴它行車(chē)路線和地點(diǎn),便可直達(dá)目的地。目前,這種新式汽車(chē)已進(jìn)入階段性的研究。
在計(jì)算機(jī)輔助教育方面,語(yǔ)音識(shí)別技術(shù)也有著廣闊的應(yīng)用空間。通過(guò)語(yǔ)音識(shí)別技術(shù),幫助學(xué)生進(jìn)行語(yǔ)言學(xué)習(xí),當(dāng)學(xué)生跟著計(jì)算機(jī)發(fā)音學(xué)習(xí)外語(yǔ)時(shí),計(jì)算機(jī)會(huì)自動(dòng)判斷學(xué)習(xí)者的發(fā)音是否準(zhǔn)確,并及時(shí)給予糾正。此時(shí)的計(jì)算機(jī)就成為專(zhuān)業(yè)的家庭輔導(dǎo)教師。 在一些對(duì)幼兒進(jìn)行啟蒙教育的玩具中,語(yǔ)音玩具給小朋友們帶來(lái)來(lái)了無(wú)限的新奇感受,可以自動(dòng)說(shuō)話(huà)的娃娃、聽(tīng)從指揮的小汽車(chē)等在兒童幼小的心靈里播下了科學(xué)的種子。
可以預(yù)見(jiàn),在新的世紀(jì)里,語(yǔ)音識(shí)別將迅速走進(jìn)大眾的生活,它將改變?nèi)藗儗W(xué)習(xí)、工作和生活?yuàn)蕵?lè)的方式,像尼葛洛龐帝所說(shuō):“在廣大浩瀚的宇宙中,數(shù)字化生存能使每個(gè)人變得更容易接近,孤寂者能夠發(fā)出他們的心聲。”
[上一頁(yè)] [下一頁(yè)]
|