央廣網(wǎng)科技7月5日消息(記者 殷雨婷) “多模態(tài)深度語義理解能讓機器聽清、看清,更能深入理解它背后的含義,深度地理解真實世界,進而更好地支撐各種應(yīng)用?!卑俣雀呒壐笨偛谩I技術(shù)平臺體系(AIG)總負責(zé)人王海峰表示。

日前,在百度AI開發(fā)者大會(Baidu Create 2018)上,王海峰發(fā)布百度大腦3.0。百度大腦3.0的核心是“多模態(tài)深度語義理解”,包括數(shù)據(jù)的語義,知識的語義,以及圖像、視頻、聲音、語音等各方面的理解。
如何實現(xiàn)從“看清聽清”到“看懂聽懂”?
視覺語義化可以讓機器從看清到看懂視頻,并提煉出結(jié)構(gòu)化語義知識。百度視覺技術(shù)部、人臉技術(shù)部、增強現(xiàn)實技術(shù)部總監(jiān)吳中勤介紹,視覺語義化技術(shù)首先識別人、物體和場景,同時捕捉它們之間的行為和關(guān)系,通過時序化、數(shù)字化、結(jié)構(gòu)化的方式形成語義知識,最終結(jié)合領(lǐng)域和場景進行智慧推理,落地行業(yè)應(yīng)用。
未來,視覺語義化技術(shù)還可進一步延展,它結(jié)合新型的傳感器和AI芯片,可以在感知層面和計算層面得到大幅提升;結(jié)合手機可以帶給用戶更佳地使用體驗。
語音技術(shù)的升級則讓機器更好地聽懂世界。百度語音技術(shù)部總監(jiān)高亮表示,百度基于遠場的語音語義一體化技術(shù)已取得突破,可為業(yè)界提供更頂尖的遠場語音技術(shù)。
語音語義一體化將遠場交互中高頻Query識別準(zhǔn)確率提升10個點,并保持普通Query識別率不降;多語種混合聲學(xué)建模基于Deep Peak2大幅提升中英文混合Query識別準(zhǔn)確率,相對錯誤率比業(yè)界最好競品降低20%;新升級的TTS技術(shù)業(yè)界首創(chuàng)傳統(tǒng)拼接技術(shù)與Wavenet技術(shù)融合方案,保證合成質(zhì)量的同時大大降低成本,讓大規(guī)模應(yīng)用落地成為現(xiàn)實。
在對話理解方面,百度理解與交互技術(shù)平臺UNIT升級至2.0,進一步增強冷啟動能力,支持像人類一樣在對話當(dāng)中學(xué)習(xí),同時開放了第一個工業(yè)級對話系統(tǒng)開源框架,降低搭建門檻,讓開發(fā)者無縫對接云端。
將自主研發(fā)的芯片納入技術(shù)體系
數(shù)據(jù)、算法、算力是影響人工智能技術(shù)發(fā)展的重要因素。王海峰表示百度大腦3.0首次將芯片納入技術(shù)體系,帶動百度大腦算力爆發(fā)式增長。百度自主研發(fā)的中國第一款云端全功能AI芯片“昆侖”也在會上首次亮相。未來,AI芯片將與百度自主研發(fā)的PaddlePaddle深度學(xué)習(xí)框架相結(jié)合,推動百度AI產(chǎn)業(yè)生態(tài)快速發(fā)展。
百度在2016年正式開源的PaddlePaddle,如今也迎來了PaddlePaddle3.0版本。百度AI技術(shù)生態(tài)部總經(jīng)理喻友平對此進行了詳細解讀。PaddlePaddle3.0包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以讓開發(fā)者獲取AI能力的平臺。
PaddlePaddle3.0核心框架對服務(wù)器版本以及移動端版本進行了全面優(yōu)化,PaddlePaddle Fluid提供豐富的滿足常見主流模型搭建需求的API,支持廣泛的模型搭建,訓(xùn)練Runtime可以滿足各類型的模型訓(xùn)練需求;PaddlePaddle Serving可靈活適配多種預(yù)測引擎;PaddlePaddle Mobile集成百度移動端預(yù)測的實踐經(jīng)驗,提供多平臺支持。
百度大腦升級至3.0是百度AI技術(shù)的一次跨越式升級,王海峰強調(diào),“百度AI能力的核心是百度大腦,百度大腦3.0是百度AI能力的集大成者?!蔽磥恚俣葘⒅鸩桨鸦诎俣却竽X的技術(shù)突破開放給相關(guān)的開發(fā)者和企業(yè)。
關(guān)鍵詞:
語義
看懂
深度