音声処理におけるオープンソース標準への移行

Python を使用して語彙目録のフラット・ファイルを XML に変換する

developerWorksアーカイブより

Colin Beckingham

アーカイブ日付: 2017年 04月 12日 | 初版: 2012年 9月 13日

多くのオープンソース・プロジェクトは FOSS (Free and Open Source Software) 標準が登場する前に開始されたものであるため、これらのプロジェクトの構成ファイルやリソース・ファイルは単純なフラット・テキスト・ファイルです。これらのファイルを関連するオープンソース標準に対応した形式に変換することで、プロジェクト間での互換性、柔軟性、信頼性を高められる可能性があります。その好例が音声認識における語彙目録です。この記事では Python を使用して、既存の語彙目録のフラット・ファイルを PLS (Pronunciation Lexicon Specification) で定義される XML フォーマットに変換し、その新しい PLS ファイルを再度フラット・ファイルに戻す方法について説明します。さらに、XML フォーマットを使用して語彙目録に情報を追加する方法や、語彙目録の保守を厳密に行う方法についても詳しく説明します。また、Unicode などの問題や、音響モデルの生成にデータを使用しつつ新しい語彙目録を他の XML ファイルとマージする方法についても取り上げます。

この記事は今後アップデートおよびメンテナンスはされません。すべての記事は現状のままPDFファイルとしてご提供させていただきます。テクノロジーの進化により、各ステップやイラストは変更される場合があります。



static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=60
Zone=XML, Open source
ArticleID=834264
ArticleTitle=音声処理におけるオープンソース標準への移行
publish-date=09132012