[AI] 自動音声認識 (ASR) 環境を作り学ぶ準備

投稿者斉藤之雄 (Yukio Saito) 2023年5月31日

はじめに

私は 2012年頃、大手電気通信事業者法人コンタクトセンター（コールセンター）でインバウンド営業担当をしていたことがあります。受電による相談からメール/郵便を経由して受注まで行い、受注後はデリバリー担当へ引き継ぐフロント対応でした。また、その時期は AIIT で科目等履修生だったこともあり、自動音声認識 Automatic Speech Recognition (ASR) をソフトウェアだけで実現できないか、個人検討することもありましたが残念ながら別の興味を持ち自然とフェードアウト。その後、Twilio や Azure Cognitive 等でローコードによる SST/TTS などの実装を伴う技術営業は依頼があれば対応する程度。

技術営業のスキルを高めたくて普段から IBM BPLearn や NVIDIA 開発者サイトから刺激を受けています。2023/05/30 付け公開された NVIDIA 開発者サイトの記事「NVIDIA カスタマイズ音声 AI による通信業界のカスタマーエクスペリエンスの向上」は会話型AIシステムの精度に言及しており、サービス品質と顧客体験の向上を考える要素は今後の技術展望を持てる内容でした。

一般的な STT アプローチ

これまで STT アプローチは数多くありました。
Speech-To-Text（音声認識）技術は、人が話す言葉をコンピュータが理解できるテキスト情報に変換する技術で音声を使ってテキスト作成やコンピュータと対話ができます。

一般的に理解されている仕組みとして音声認識システムは、マイクや録音装置を使って音声を収集します。次に収集された音声はディジタル信号に変換されます。これにより、コンピュータが音声データを処理できる形式になります。

音声データがディジタル化されると音声認識アルゴリズムが利用され音声の特徴やパターンを分析し、その音声が含む言葉やフレーズを音の高さや長さ、周波数、強度などから分類し特定し変換します。

この変換の過程で音声認識システムは、業界固有の辞書や文法のルール、言語モデルなどの言語データベースを利用することで音声を文脈に合わせたテキストに変換できます。（個別にカスタムモデルとしてアルゴリズムへ対して強化学習することもあります）

最終的に音声認識システムはテキストを出力しコンピュータ上で再利用されるか、テキスト文書として保存します。このように Speech-To-Text 技術は音声をコンピュータが理解できるテキストに変換するための技術です。

STT エンジン NVIDIA Riva による自動音声認識パイプライン

これは前述の記事から学びました。
下図は ASR パイプライン全体のカスタマイズ図です。興味深いのは Acoustic Model (音響モデル) に Fine-Tuning Acoustic Model (微調整音響モデル）を与えられること、そしてデコーダーまたは N-Gram Language Model も微調整言語モデル等を与えることができ、Punctuation Model (句読点モデル) も BERT Model などの微調整句読点モデルも与えられるので精度が向上する適応手法の仕組みを持っている点で興味深い作りとなっています。

NVIDIA RIVA: Speech AI SDK – Riva | NVIDIA
※Riva Speech AI Skills はLinux x86_64 と Linux ARM64 の 2 つのアーキテクチャをサポートしています。

補足１：
すべての適応手法の中で、ワードブースティングは実装が最も簡単で迅速です。ワードブーストを使用すると、音響モデルの出力をデコードするときにスコアを高くすることで、要求時に関心のある特定の単語を認識するように ASR エンジンにバイアスをかけることができ、重要な単語のリストと重みをAPI呼び出しに追加のコンテキストとして渡すだけで実現可能になります。

補足２：
BERT (トランスフォーマーの双方向エンコーダ表現) は、昨年リリースされたときに自然言語理解の最先端を設定した大規模で計算集約的なモデル。微調整により、読解、感情分析、質疑応答など幅広い言語タスクに適用できます。

3億語の英語テキストの膨大なコーパスで訓練された BERT は、言語を理解するために非常に優れたパフォーマンスを発揮し、強みはラベル付けされていないデータセットでトレーニングし、最小限の変更で幅広いアプリケーションに一般化できることです。

同じ BERT を使用して複数の言語を理解し、翻訳、オートコンプリート、検索結果のランク付けなどの特定のタスクを実行するように微調整できます。この汎用性により、複雑な自然言語理解を開発するための一般的な選択肢となっています。

たとえば、「窓の外にクレーンがあります」というステートメントは、文が「湖畔のキャビンの」または「私のオフィスの」で終わるかどうかに応じて、鳥または建設現場のいずれかを表すことができます。双方向エンコードまたは非方向エンコードと呼ばれる方法を使用すると、BERT などの言語モデルではコンテキストキューを使用してそれぞれの場合にどの意味が適用されるかをよりよく理解できます。

環境準備

NVIDIA Riva チュートリアル：
nvidia-riva/tutorials: NVIDIA Riva の実行可能なチュートリアル (github.com)

例：すぐに使用できるモデルで Riva ASR API を使用する方法
https://github.com/nvidia-riva/tutorials/blob/main/asr-basics.ipynb

物理構成：
Quick Start Guide — NVIDIA Riva

資料

RIVA Conformer ASR Japanese：
https://resources.nvidia.com/en-us-riva-asr-briefcase/service-asr

GPU Notebook で動作確認してみた

環境：
・Lenovo Ideapad Gaming 3 シリーズ (AMD RYZEN7 + NVIDIA GeForece RTX 3050 Ti)

以上、ご覧いただきありがとうございました。

関連

投稿者斉藤之雄 (Yukio Saito)

Global Information and Communication Technology OTAKU / Sports volunteer / Social Services / Master of Technology in Innovation for Design and Engineering, AIIT / BA, Social Welfare, NFU / twitter@yukio_saitoh

Written by 斉藤之雄
・世界最大の ICT ディストリビュータでシニアプリセールスコンサルタント（マルチクラウドで Data and AI 領域に強みあり）
・東京オリンピックフィールドキャスト (MED/FR)
・東京パラリンピックマラソンコースサポートリーダー
・社会福祉士（免許登録済み）
・東京都登録公認障がい者スポーツ指導員
・東京都中野区スポーツ推進委員（非常勤公務員）
・AWS認定ソリューションアーキテクトアソシエイト (2021-2024)

■Microsoft MCP 取得歴
・AZ-700(Mar/2022)★★
・MS-720 (Feb/2022)★★
・AZ-204 (Feb/2022)★★
・DA-100 (Dec/2021)★★
・Azure DevOps Engineer Expert (Dec/2021) ★★★
・AZ-400 (Dec/2021)★★★
・AZ-600 (Dec/2021)★★
・PL-200 (Oct/2021)★★
・AZ-140 (Oct/2021)★★
・SC-300 (Oct/2021)★★
・AZ-104 (Sep/2021)★★
・Azure Solutions Architect Expert (Sep/2021) ★★★
・AZ-304 (Sep/2021) ★★★
・MB-920 (Sep/2021) ★
・AZ-303 (Aug/2021) ★★★
・MS-900 (Aug/2021) ★
・SC-900 (Jul/2021) ★
・PL-900 (Jul/2021) ★
・AI-102 (Jul/2021) ★★
・DP-900 (Jun/2021) ★
・MB-901 (Jun/2021) ★
・AI-900 (May/2021) ★
・AZ-900 (Apr/2021) ★
—
■所属学会
・日本ロボット学会
・人工知能学会
・計測自動制御学会
・日本生産性本部（個人賛助会員）
—
■将来実現したいこと（Social Action）
・障害者（手帳保有に関係なく）の就労支援
・気づき難い大人の学習障害者に対する就労支援
・日本語を母国語としない方への就労支援
・成長あり共生社会
—
自宅メインマシン IdeaPad Gaming 3 シリーズ

—

[AI] 自動音声認識 (ASR) 環境を作り学ぶ準備

はじめに

一般的な STT アプローチ

STT エンジン NVIDIA Riva による自動音声認識パイプライン

環境準備

資料

GPU Notebook で動作確認してみた

関連

投稿者斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

[資格取得] 2024/06/30 時点での状況 132個（備忘録）

[受講メモ] NVIDIA GTC 2024

[資格取得] IBM Cloud for Professional Architect v6 (合格体験談）

[ICT] Lenovo IdeaPad Gaming 370 RAM 64GB 環境

はじめに

一般的な STT アプローチ

STT エンジン NVIDIA Riva による自動音声認識パイプライン

環境準備

資料

GPU Notebook で動作確認してみた

関連

投稿者 斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

投稿者斉藤之雄 (Yukio Saito)