內(nèi)容摘要:導(dǎo)讀:5月21日搜狗輸入法就化身為了現(xiàn)實(shí)版的“阿笠博士”,正式推出“變聲”功能。該功能由搜狗知音團(tuán)隊(duì)支持,可以將任意說(shuō)話人的聲音實(shí)時(shí)變換到指定說(shuō)話人的音色。不再是動(dòng)畫,也不再是科幻想象,AI再次帶來(lái)夢(mèng)
北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá) 導(dǎo)讀:5月21日搜狗輸入法就化身為了現(xiàn)實(shí)版的變聲“阿笠博士”,正式推出“變聲”功能。搜狗輸入聲鍵
該功能由搜狗知音團(tuán)隊(duì)支持,法功北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)可以將任意說(shuō)話人的線支聲音實(shí)時(shí)變換到指定說(shuō)話人的音色。
不再是持千動(dòng)畫,也不再是人千科幻想象,AI再次帶來(lái)夢(mèng)想成真一刻。轉(zhuǎn)換
在動(dòng)畫片《名偵探柯南》中,變聲阿笠博士送給柯南的搜狗輸入聲鍵變聲領(lǐng)結(jié)是柯南破案的重要道具,得益于它,法功柯南可以將聲音偽裝成其他人,線支在不暴露身份的持千北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)情況下巧妙破案。
但或許你未曾想過(guò),人千有一天,轉(zhuǎn)換這個(gè)變聲領(lǐng)結(jié)會(huì)真的變聲出現(xiàn)在現(xiàn)實(shí)世界中,并且只需要在手機(jī)上輕輕一點(diǎn)就可以實(shí)現(xiàn)完美變聲。
沒(méi)錯(cuò),現(xiàn)在通過(guò)搜狗輸入法就OK。
現(xiàn)實(shí)版“柯南變聲領(lǐng)結(jié)”
今天(5月21日),搜狗輸入法就化身為了現(xiàn)實(shí)版的“阿笠博士”,正式推出“變聲”功能。
該功能由搜狗知音團(tuán)隊(duì)支持,可以將任意說(shuō)話人的聲音實(shí)時(shí)變換到指定說(shuō)話人的音色。
簡(jiǎn)而言之,只要用戶在語(yǔ)音輸入中輸入想說(shuō)的話,再選擇一個(gè)喜愛(ài)的角色,就會(huì)瞬間把聲音轉(zhuǎn)化成該角色的聲音,效果直逼柯南的“變聲領(lǐng)結(jié)”。
雖然效果實(shí)現(xiàn)起來(lái)一步到位,但背后技術(shù)實(shí)現(xiàn)并不簡(jiǎn)單。
搜狗知音的語(yǔ)音技術(shù)團(tuán)隊(duì),克服了諸多難以想象的現(xiàn)實(shí)困難。
其中最核心的問(wèn)題是,每一個(gè)人的音調(diào)、音色和語(yǔ)言節(jié)奏都不盡相同,正如同世上沒(méi)有兩片相同的樹(shù)葉一樣,世上也沒(méi)有兩個(gè)完全相同的說(shuō)話人。
如何將“千人千聲”通過(guò)技術(shù)處理,變?yōu)橥环N指定聲音,同時(shí)還不丟失原說(shuō)話人的語(yǔ)言習(xí)慣?
這不僅搜狗面臨的挑戰(zhàn),也是國(guó)際上承認(rèn)的技術(shù)難題。
技術(shù)剖析
搜狗知音主要從語(yǔ)音表征學(xué)習(xí)、語(yǔ)音合成等領(lǐng)域的展開(kāi)突破。
首先,搜狗知音團(tuán)隊(duì)使用表征學(xué)習(xí)技術(shù),先學(xué)習(xí)到源端說(shuō)話人語(yǔ)音的音色、內(nèi)容和韻律三大特征。
其次,將學(xué)習(xí)到的源端說(shuō)話人音色特征替換成目標(biāo)說(shuō)話人。
最后,基于搜狗知音的端到端語(yǔ)音合成技術(shù),使用內(nèi)容(源端)、韻律(源端)、音色(目標(biāo)端)三類特征合成最終變聲音頻,達(dá)到各個(gè)方位的相似和自然。
在表征學(xué)習(xí)上,對(duì)目標(biāo)音色語(yǔ)料進(jìn)行聲紋特征編碼,提取說(shuō)話人的音色embedding,再分別從輸入音頻中學(xué)習(xí)內(nèi)容和韻律embedding。
把“說(shuō)話人歸一化”模塊對(duì)內(nèi)容embedding進(jìn)行統(tǒng)一規(guī)整,去除音色信息。
通過(guò)對(duì)音頻特征的壓縮編碼及特征抽取,學(xué)習(xí)表征韻律的風(fēng)格特征。
然后基于表征學(xué)習(xí)得到的特征,通過(guò)Attention和Decoder模塊進(jìn)行加權(quán)特征編碼,并利用WaveRNN神經(jīng)網(wǎng)絡(luò)聲碼器恢復(fù)成波形,最終得到帶有目標(biāo)音色的音頻。
這樣一來(lái),由源端音色到指定音色的轉(zhuǎn)化就變得輕易而精密了。
在以上技術(shù)原理的支持下,搜狗知音的“變聲”功能擁有三大功能亮點(diǎn):
首先,還原度極高,變聲到指定角色的音色與該角色的原始音色十分相似,幾乎可以做到以假亂真。
其次,自由空間大,搜狗這一“變聲”功能對(duì)用戶本身的音色沒(méi)有任何限制,每個(gè)人均可變聲到預(yù)先指定的音色,真正具有“任意人變聲到同一人”的能力。
最后,搜狗知音打破了音色轉(zhuǎn)換的局限,將用戶輸入的語(yǔ)音內(nèi)容、語(yǔ)速、停頓、情感等均轉(zhuǎn)化為超高逼真度的指定角色聲音,因此可以達(dá)到更自然的變聲溝通。
目前,在搜狗知音“變聲”功能中可供選擇的角色橫跨互聯(lián)網(wǎng)、明星類、動(dòng)漫類等多個(gè)類別,有近20種聲音,包含周星馳、蠟筆小新、小豬佩奇等多個(gè)經(jīng)典的角色,甚至還收錄了搜狗CEO王小川的聲音。
在聊天過(guò)程中,用戶可以使用他們的聲音完成“變裝”,增添聊天過(guò)程中的趣味程度。
當(dāng)然,用戶一鍵使用最新技術(shù)的背后,也離不開(kāi)工程師們的付出。
而且在類似的國(guó)際前沿的技術(shù)突破領(lǐng)域,中國(guó)AI公司正在用研究和論文打響名氣。
在搜狗知音團(tuán)隊(duì)此次最新技術(shù)發(fā)布前,搜狗還聯(lián)合清華天工研究院在5月17日的語(yǔ)音頂級(jí)峰會(huì)ICASSP 2019上,發(fā)布了關(guān)于“基于模態(tài)注意力的端到端音視覺(jué)語(yǔ)音識(shí)別”的學(xué)術(shù)論文。
全球AI華山論劍,中國(guó)創(chuàng)新正在 making different~