手機為什麼聽得懂人類講話?原來跟它們打招呼是有意義的!

左卷健男 2021年12月13日 07:00:00
(圖片取自TechRepublic)

(圖片取自TechRepublic)

當我們對著手機或智慧音箱說「Hi Siri」、「Alexa」、「OK Google」時竟然會有回應。應該有人每天都會問今天天氣如何吧?讓我們來了解一下,這些裝置是如何「理解」我們的語言?

 

和智慧型助理打招呼有意義嗎?

 

這些都稱作「喚醒詞」(Wake-Word),是能夠啟動系統的用詞,當系統偵測到喚醒詞就會開始作動。由於系統也必須先辨識哪些才是人類語言,所以還要搭載語音辨識功能,先將人的對話切換成語音訊號

 

切換成語音訊號後,還要轉換成電腦可以辨識的(數位化)資料,並將裡頭「有意含的語詞」辨識為「有相關性的語詞」。

 

(延伸閱讀:19 世紀的醫院宛如大型的細菌溫床!直到這位醫生出現才改變了整個世界(上)

 

深度學習會運用在語音辨識及自然語言處理

 

語音辨識時,深度學習(Deep learning)就相當重要。先來說明一下什麼是深度學習。深度學習其實就是以數字在電腦裡重現人腦架構。這裡說的人腦架構指的是神經元(Neuron,構成腦的神經細胞)跟突觸(Synapse,與其他神經元的連結處)。

 

神經元要靠突觸互相連接,進一步去記憶或判斷。深度學習能夠魔法神經元和突觸的架構,形成層狀的人工神經網路(仿造人腦),並且不斷累加算出每個事物的相關信及重要信,幫助系統做判斷。

 

舉個例子,如果我說「ㄍㄠ ㄍㄨㄟˋ」。

 

(楓葉社出版)

 

人工智慧系統接收到「ㄍㄠ ㄍㄨㄟˋ」的發音後,會從幾個發音相近,容易混淆的項目中,挑選出我說的發音。

 

這時候還要運用深度學習。系統過去也曾聽過「ㄍㄠ ㄍㄨㄟˋ」,所以會挑選使用使用率較高的語詞。不過,「ㄍㄠˇ ㄍㄨㄟˇ」,所以會列入第二候選語詞。系統就是利用曾經出過的聲音,來逐一列出可能的選項。

 

接著,語音辨識系統會透過得到的資訊,進一步地分析人所使用的語詞或文章的含意,這就是自然語言處理(Natural Language Processing)。我說完「ㄍㄠ ㄍㄨㄟˋ」接著又說「ㄒㄧㄤ ㄑ一ˋ」,人工智慧系統以語音辨識出「ㄍㄠ ㄍㄨㄟˋ」後,也成功辨識出「ㄒㄧㄤ ㄑ一ˋ,同時意識到我在說的是「ㄍㄠ ㄍㄨㄟˋ ㄒㄧㄤ ㄑ一ˋ」,進一步從發音中擷取有意義的詞句王貞。

 

從「ㄍㄠ ㄍㄨㄟˋ」的發音,列出「高貴」、「搞鬼」、「搞怪」幾個有可能的語詞,接著再把「ㄒㄧㄤ ㄑ一ˋ」的可能語詞列出,並從中找出語詞本身有意義,過去曾使用過的用詞或短句。結果就會是「高貴香氣」。

 

(延伸閱讀:太空人的屍體在外太空會發生什麼狀況?讓美國殯葬業者告訴你

 

累積越多「對話」經驗,系統會變得愈聰明

 

深度學習會把過去聽過的發音、語詞及文章去作累加整合,並參考我們常使用的語詞或發音,挑選用詞或理解文章,所以使用者過去跟人工智慧的對話內容就很重要。系統會透過不斷學習,逐漸理解人們所說的內容。

 

(楓葉社出版)

 

*本文摘自《生活科學大哉問》,楓葉社出版。

 

 

【作者簡介】

 

左卷健男

1949年出生於栃木縣,千葉大學教育學士、東京學藝大學研究所碩士(研究領域為物理化學、科學教育)。在國中與高中任教26年後,於京都工藝纖維大學入學中心擔任教授,2004年起轉任同志社女子大學教授,自2008年起任職法政大學教授,同時身兼國、高中理科教科書編輯委員。著有《趣味物理研究所》(楓葉社)、《有趣到睡不著的化學》、《有趣到睡不著的自然科學》(快樂文化)、《圖解看不見的鄰居,微生物》(十力文化)等多本編著書籍。

關鍵字: 書摘 科學 手機 Siri



 

【上報徵稿】

 

美食(飯店餐廳、高端餐飲)、品酒相關採訪需求通知 / 提供最新新聞資訊

請聯繫副總編輯 → 吳文元 chloe_wu@upmedia.mg

 

通路(百貨、超商、賣場、電商)、美食(速食、飲品、冰品)、科技手機家電相關採訪需求通知 / 提供最新新聞資訊

請聯繫生活中心副主編 → 林冠伶 ling_lin@upmedia.mg

 

旅遊、IP 文創、市集、交通相關採訪需求通知 / 提供最新新聞資訊

請聯繫生活中心記者 → 周羿庭 ting.zhou@upmedia.mg

 

美食(連鎖餐廳、新開店、甜點)、能源、醫療、親子、寵物相關採訪需求通知 / 提供最新新聞資訊

請聯繫生活中心記者 → 邱家琳 lynn@upmedia.mg

 

 

上報現在有其它社群囉,一起加入新聞不漏接!社群連結

追蹤上報生活圈https://bit.ly/2LaxUzP



回頂端