根據(jù)國家統(tǒng)計局的數(shù)據(jù)顯示,截至2023年,我國殘疾人人口達8591.4萬。隨著科技助殘政策的進一步推行,以及前沿科技的迅猛發(fā)展,利好殘障人士的高科技產(chǎn)品也不斷問世。腦機接口技術(shù)、智能假肢、智能AR眼鏡、外骨骼機器人……,這些前沿產(chǎn)品正逐漸重塑著殘障人士的生活,為他們逐步打造出一個“有愛無礙”的世界。在今年的科技助殘平行論壇上,科大訊飛的智能語音交互技術(shù)也入選了科技助殘創(chuàng)新案例,為助殘事業(yè)注入了更新鮮的活力。那么科大訊飛智能語音交互技術(shù)具體是什么?一起跟著福祉君來看看吧!
此外,在今年的9月12日-14日,2025中國國際福祉博覽會暨中國國際康復(fù)博覽會(CR EXPO)將在北京國家會議中心舉行,科大訊飛愛博智能也將在本屆福祉博覽會上展示最新人工智能輔具產(chǎn)品,歡迎提前掃碼登記,體驗更多前沿科技產(chǎn)品!
科大訊飛智能語音交互技術(shù),主要是基于科大訊飛全自研國產(chǎn)語音大模型,集成語音轉(zhuǎn)寫、合成等關(guān)鍵技術(shù),可廣泛應(yīng)用于聽障群體的無障礙溝通與交流。
語音能力作為科大訊飛的領(lǐng)先優(yōu)勢,去年年初科大訊飛便在星火大模型V3.5的更新中,首次對外發(fā)布了星火語音大模型,對于37種主流語種的語音識別效果已超過OpenAI Whisper V3。在后續(xù)的星火大模型V4.0發(fā)布會上。除了之前已有的37個主流語種,還新增了37種方言,這代表著使用者可以多語種和方言隨意切換。
同時,在今年1月,在訊飛星火大模型升級發(fā)布會現(xiàn)場,現(xiàn)場發(fā)布了目前全國產(chǎn)算力平臺上唯一的深度推理模型——訊飛星火X1。該模型的中文和數(shù)學能力都在國內(nèi)處于領(lǐng)先地位。此外,首個具備端到端語音到語音同傳能力的大模型——星火語音同傳大模型也在現(xiàn)場同期發(fā)布,據(jù)悉,該模型最快語音同傳時延小于5秒。
除了上述提到的星火語音大模型,科大訊飛的語音識別與合成技術(shù)也是其智能語音交互技術(shù)的重要支撐。
根據(jù)相關(guān)資料顯示,訊飛語音識別技術(shù)可將短音頻(≤60秒)精準識別成文字,同時能支持多語種的自動判別,其中包括語音轉(zhuǎn)寫等功能,可滿足使用者不同時長音頻的轉(zhuǎn)文字需求,識別率較高。以科大訊飛推出的智能語音識別與轉(zhuǎn)寫軟件“訊飛聽見”為例,其能將語音內(nèi)容實時轉(zhuǎn)為文字,同時支持多語言自動識別,可廣泛應(yīng)用在會議、教學、面對面交流等場景,眾多聽障人士也能利用該軟件進行語音識別與轉(zhuǎn)寫,從而實現(xiàn)與健聽人士的無障礙溝通。
同時,訊飛語音合成技術(shù)(TTS)也是智能語音交互技術(shù)的重要基石。今年6月,科大訊飛宣布其語音合成技術(shù)實現(xiàn)了關(guān)鍵性的突破,“一句話聲音復(fù)刻”與“超擬人語音合成”兩項能力取得重大升級。此前,訊飛星火APP上線了“一句話聲音復(fù)刻”功能,并在業(yè)界和客戶中取得了較好的評價,在今年升級完成后, AI可在僅一句語音錄音的基礎(chǔ)上,復(fù)刻用戶完整音色、語氣與情緒起伏,效果更逼近真人。
基于訊飛自研的星火語音大模型的迭代升級以及最新構(gòu)建的三階段層次化語音建模框架,訊飛語音合成技術(shù)在音色恢復(fù)方面,不僅通過融合幀級音色編碼與聲紋語義一致性損失函數(shù),進一步提升了合成音頻的相似度與自然度,同時結(jié)合DPO強化學習策略,強化了所合成語音的流暢性。目前,蔚來汽車已在新車型中應(yīng)用了訊飛“超擬人情感語音系統(tǒng)”。
為了能在復(fù)雜環(huán)境下也能實現(xiàn)語音識別與轉(zhuǎn)寫,同時達到無障礙溝通的目的,訊飛抗干擾技術(shù)也已達到國際領(lǐng)先地位,可成功完成在極復(fù)雜場景的語音轉(zhuǎn)寫。訊飛推出的麥克風陣列技術(shù)和降噪算法以及噪音魯棒性技術(shù)都能顯著進行抗干擾,從而實現(xiàn)多重疊復(fù)雜環(huán)境下的語音轉(zhuǎn)寫。
在今年的2025中關(guān)村論壇年會科技助殘平行論壇上,科大訊飛的智能語音交互技術(shù)已入選2025科技助殘創(chuàng)新案例。同時,科大訊飛也與中國殘聯(lián)簽署了合作協(xié)議,將共建通用人工智能助殘聯(lián)合實驗室。目前,以“訊飛聽見”APP為例,2019年,科大訊飛聯(lián)合中國聾人協(xié)會、中國殘疾人藝術(shù)團發(fā)起“聽見AI的聲音”關(guān)愛聽障人士公益行動,使用“訊飛聽見”APP,將實時語音轉(zhuǎn)化成文字,從而幫助聽障人士更好地與他人交流。截至目前,“聽見AI的聲音”公益行動已累計為聽障人士提供超2億分鐘的免費轉(zhuǎn)寫服務(wù)。
此外,科大訊飛子公司訊飛愛博智能推出的無障礙AI交流屏也是科技助殘的有力產(chǎn)品。該產(chǎn)品集成多語種識別翻譯、星火大模型和多模態(tài)降噪技術(shù),具備多語種識別翻譯、手寫輸入等功能,能幫助聽障人士實現(xiàn)面對面的與人交流。
目前,科大訊飛的智能語音交互技術(shù)也已應(yīng)用在公共服務(wù)領(lǐng)域,例如政府部門、機場、商業(yè)中心等??拼笥嶏w的智能語音客服系統(tǒng)在接入政務(wù)熱線后,可實現(xiàn)7×24小時在線值守,能夠迅速反饋并解決民眾咨詢的問題,實現(xiàn)迅速響應(yīng)。
不僅如此??拼笥嶏w的無障礙AI交流屏也已在北京首都國際機場、大興機場、成都春熙路商圈IFS、曼谷高端購物中心Siam Paragon和ICONSIAM等投入使用,可為不用國籍的旅客提供更為方便的服務(wù)。
此外,科大訊飛的智能語音交互技術(shù)也在特殊教育領(lǐng)域有較大應(yīng)用前景。此前,科大訊飛為全國80多所特殊教育學校提供了技術(shù)和產(chǎn)品,為特殊教育學校師生的課堂效率等提供了較大助力。
智能語音交互技術(shù)等更多助殘科技,正幫助許多殘疾人和老年人改善生活。目前程天、大艾、強腦、科大訊飛愛博智能等科技品牌企業(yè),已確認參加2025中國國際福祉博覽會。作為助殘科技成果展示推廣與落地轉(zhuǎn)化的重要平臺,中國國際福祉博覽會將于2025年9月12-14日在北京國家會議中心舉行。本屆展會將特設(shè)“創(chuàng)研匯”科技助殘專區(qū)及品牌展示區(qū),為企業(yè)、高校及科研院所提供科技創(chuàng)新產(chǎn)品的首發(fā)平臺,并推動科技成果轉(zhuǎn)化及落地應(yīng)用。
目前,組委會正在征集科技助殘創(chuàng)新成果、技術(shù)應(yīng)用、產(chǎn)品和服務(wù)案例展示及發(fā)布,我們誠摯邀請人工智能、腦機接口、信息無障礙、智能假肢與康復(fù)機器人、感知輔助技術(shù)、VR/AR、仿生、神經(jīng)調(diào)控等領(lǐng)域助殘創(chuàng)新相關(guān)領(lǐng)域的高校、科研院所、企業(yè)、服務(wù)機構(gòu)及相關(guān)單位報名參與,共同推動科技助殘及殘疾人事業(yè)的發(fā)展,讓科技的溫度惠及更多有需要的人群。歡迎感興趣的朋友掃碼報名參與此次征集活動→征集通知 | 2025中國國際福祉博覽會科技助殘創(chuàng)新成果展示交流活動
資料來源:中國殘聯(lián)公眾號、中國殘聯(lián)公眾號、機器之心公眾號、科大訊飛集團公眾號、科大訊飛官網(wǎng)、信息化教學創(chuàng)新公眾號、訊飛產(chǎn)業(yè)加速中心公眾號、藍鯨新聞等