Connect with us

教育

中大推評測粵語AI平台 助理解俚語粵拼轉寫

發佈於

【明報專訊】廣東話有一字多音等特點,人工智能(AI)工具如聊天機械人未必容易理解文字內容。中大團隊昨推出全球首個大語言模型粵語評測平台「CLEVA-Cantonese」,幫助評估現有大語言模型(LLM)在粵拼轉寫、俚語理解、粵普轉翻等能力,推動粵語LLM發展。

有份領導研究的中大InnoHK博智感知交互研究中心主任蒙美玲說,粵語一字多音,例如「行(haang4)街、銀行(hong4)、唱片行(hong2)、實行(hang4)」,當中「行」的音及聲調全部不同,AI將文字轉換成粵語拼音時未必準確;而粵語語境的戲名、球星譯名、地名,與普通話語境可能有別,粵語另有「食水深」等俚語。她稱標準化評測工具可助開發者及業界識別AI模型強弱。

稱粵語人口雖少 對港仍然重要

「CLEVA-Cantonese」評測平台可多方面評估LLM的粵語水平,例如粵拼轉寫、粵普翻譯、中英夾雜的文句轉譯、冒犯語言檢測、專有名詞理解等。蒙美玲說,系統採用香港語言學學會「粵語拼音方案」來核對粵拼,同時獲鳳凰衛視提供粵語數據。平台在導入及篩選數據後可生成任務,評測LLM在指定範疇能力水平,例如擬定多項選擇題等,可得出評分及反饋。

蒙美玲說,雖然粵語人口比例較普通話小,但從中國文化角度,粵語「很有特色、對香港尤其重要」,從文化保育及傳承層面,有必要推動生成式AI的粵語能力。項目另一領導學者中大語言與視覺實驗室負責人王歷偉說,如模型對粵語理解更貼近日常生活文化的表達習慣,人們更能藉AI幫助學習、工作及生活。