(C) hanoimoi 写真の拡大. |
ベトナム科学技術研究所(VAST)傘下の情報技術研究所のグエン・ベト・アイン博士は、先進的な自然言語処理技術を応用し、希少言語の高品質な自動翻訳モデルの構築に成功したことを明らかにした。
自然言語処理分野における最大の成功とされる機械翻訳だが、グーグル(Google)の「Google翻訳」やマイクロソフト(Microsoft)の「Bing翻訳」は、プログラムに学習させるために数百万組にも及ぶ大量の文章の組み合わせデータを必要とする。しかし世界的には、このように十分なリソースを持つわけではない言語も多い。
また「Google翻訳」や「Bing翻訳」は、短い文章なら精度の高い翻訳が期待できるが、長文や、文脈しだいでは訳質に影響が生じ、ベトナムの少数民族言語やラオ語、クメール語といった希少言語においては訳質が安定しない。さらに、医療、法律、セキュリティといった専門分野においても訳質が低い。
こういった問題点をクリアすべく、アイン博士の研究チームはベトナム語を中心とした翻訳システムを開発した。2022~2023年には、外国パートナーとの契約を踏まえ、「ベトナム語−クメール語」「ベトナム語−ラオ語」「ベトナム語−タイ語」「ベトナム語−インドネシア語」「ベトナム語−マレー語」の言語ペアの大規模言語モデル(LLMs)開発に取り組み、Google翻訳並みかそれ以上、また文章の長さにも制限がない翻訳システムの構築に成功した。