作為人們感知外界環境的一個重要通道,聽覺在視線障礙、不利光照條件等情況中可起到視覺無法替代的作用,是視覺的重要補充。相比于圖像數據,音頻信號往往可使用相對簡單的設備進行采集并且占用更少的存儲空間和處理時間。隨著當前移動平臺計算能力的不斷提高,出現了越來越多基于音頻的各類應用,所涉及的音頻處理算法一直是相關研究領域的重點。
其中,提取、分析和有效利用音頻數據所攜帶的語義信息,對基于內容的多媒體檢索、摘要以及開發上下文自適應的應用等具有重要意義。
音頻場景分析主要是為了分析、決策、預警所監ting環境下發生的異常行為。其核心技術是基于各類異常聲音在時域、頻域的特征,結合模式識別的分類方法對異常事件報警。
語音識別
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。
語音識別技術經過幾十年的發展,基于深度學習的人工智能語音將得到大范圍的應用。