ソース結果の解析
各種ソースから結果が取り出されると、後続の処理のためにそれらの結果を標準化された形式に変換する必要があります。この変換は、ソース固有のパーサーによって行われます。Watson™ Explorer Engine パーサーはストリングを XML に変換します。この場合、ソースへの呼び出しから返されるストリングを、返された検索結果の標準化された表現である XML に変換します。ソースが HTML ページを返す場合、パーサーは HTML から関連コンテンツを抽出する必要があります。同様に、ソースが XML を返す場合、パーサーは XML 構造からコンテンツを抽出する必要があります。パーサーは、XSL または正規表現のいずれかに基づいています。このどちらかを使用して、HTML または XML の結果ストリング内から必要な情報を効果的に検出することができます。
Watson Explorer Engine は、個々の検索結果の標準化された表現として document XML エレメントを使用します。文書は、結果のさまざまな構成要素 (タイトル、スニペット、作成者など) を表す content サブエレメントのセットを持っています。結果のサンプルを以下に示します。
<document URL="http://www.epa.gov/greenpower/buygreenpower/guide.htm" source="greenpower" parse-ref="2" rank="6" score="0.066667" id="Ndoc69" base-score="0.066667"> <content name="title" output-action="bold" type="HTML" action="cluster" weight="1.000000"> EPA - GPP - Guide to Purchasing Green Power </content> <content name="snippet" output-action="bold" type="HTML" action="cluster" weight="1.000000"> The U.S. EPA's Green Power Partnership is a voluntary program designed to reduce the environmental ... Guide to Purchasing Green Power. This Guide to Purchasing Green Power provides information about ... </content> </document>
文書に関するいくつかの情報 (URL、URL の取得に使用するソース、ランキング用のスコアなど)は、content エレメントではなく、属性で提供されることに注意してください。詳しくは、オンライン資料の「description of the document element」を参照してください。
次の処理ステップについては、結果の文書の結合を参照してください。