音声認識エンジンJuliusを試す

見始めた動画に字幕が見当たらなかったので音声認識エンジンJuliusで英語のスピーチの文字起こしを試した(字幕ONはあとで見つかりました)。

英語のスピーチ Microsoft Ignite “Building Digital Resilience

実行ファイルはjulius-dnn (JuliusLib rev.4.4.2.1 (fast) windows版)。実行方法はgithubにあるQuick Runを参考にしてください。

今回、入力する音声はiPhoneでスピーチを再生し、音をイヤホンジャックからJuliusを入力待機させているパソコンにUSBオーディオアダプターで入力しました。

少しの文節を試したところ、このデフォルト設定と条件で英語の認識率は70%・・・くらい?

使い方の流れ

  1. ダウンロード
  2. サーバー用に起動ファイルを調整
  3. 音声入力デバイスを接続
  4. 起動
  5. ことば文字起こし結果の受信側を起動

1.ここからdictation-kit-4.5.zipをダウンロードして展開する

2.サーバー用に起動ファイルを調整する。「run-win-dnn.bat」をコピーして、「run-win-dnn-server.bat」というファイル名をつけてください。以下のように”-module”と”-input mic”を書き足して、”-demo”を消します。

.\bin\windows\julius.exe -C main.jconf -C am-dnn.jconf -charconv utf-8 sjis -dnnconf julius.dnnconf -module -input mic

3.音声入力デバイスを接続する。音声入力端子にマイクをつなぐか、音声ソースからの音声入力ケーブルをつないでください。

4.「run-win-dnn-server.bat」を起動してください。

5.ことば文字起こし結果の受信側を起動する。以下のページの記事のまん中あたりにあるPython側の通信制御プログラムをコピーして、「main.py」と名前をつけて起動してください。
※このとき、”host = ‘127.0.0.1’”のアドレスは「run-win-dnn-server.bat」を起動するパソコンのIPアドレスにしてください。
※Python側のプログラムがつながらないときは「run-win-dnn-server.bat」を起動しているパソコンのファイヤウォールで、julius.exeをファイヤウォールの例外に設定して「run-win-dnn-server.bat」を起動しなおして、Python側も起動しなおしてください。

Pythonと音声認識フリーソフトウェアjuliusの連携による音声の文字変換 | 知のマイニング (software-data-mining.com)

その他メモ

Blender2Hgimg4

blenderで作っているモデルをhgimg4でgploadするには、

blenderのマテリアルプロパティでマテリアルを作成しておいたfbxファイルか、daeファイルをGPB converter(HGIMG4ツール)でgpbとmaterialファイルに変換する。

※blenderのfbx出力のダイアログで拡大縮小を0.01にすると、blenderの1mがhgimg4のサイズ1と同じになります。

jetson nanoで視れる、聞けるネットサービス

radiko
youtube
netflix×
u-next×
バンダイチャンネル
niconico
NHKオンデマンド
NHKプラス×
ニコニコ動画
テレ東BIZchromium
20220506
# SDカードイメージのバージョン
# Qiita - Jetson Nano関係のTIPSまとめ から
# https://qiita.com/karaage0703/items/b14c249aa33112669ee4
$ dpkg-query --showformat='${Version}' --show nvidia-l4t-core

32.2.3-20191105135548