XML データ・マイニング: 第 1 回 さまざまな XML データ・マイニング手法の調査

静的文書と動的文書に伴う問題を検討し、その問題に対処する

XML はデータを表現、保管、交換する手段として、多種多様な分野で使用されています。この連載では、XML データ分析の一面である XML データ・マイニングについて詳しく探ります。第 1 回となるこの記事では、XML 文書に対して、そこに隠された知識をマイニングするための技術と手法を紹介します。そのなかで、データ、情報の階層構造、そして要素の相関関係をマイニングする方法について説明します。以降の記事で、XML 相関ルールのマイニング、そして複数バージョンの XML 文書のクラスタリングについて、さらに深く掘り下げていきます。

2012年 1月 27日 ― この記事の第 2 回へのリンクを「はじめに」と「まとめ」に囲み記事として追加し、「参考文献」にも簡単な紹介と併せて追加しました。

2012年 5月 02日 ― この記事の第 3 回へのリンクを「はじめに」と「まとめ」に囲み記事として追加し、「参考文献」にも簡単な紹介と併せて追加しました。

Laura Irina Rusu, PhD MACS CP, Development Team Lead, DW and BI Consultant, Computershare Technology Services Australia, La Trobe University Australia

Photo of Laura Irina RusuLaura Rusu は、オーストラリア・メルボルンの La Trobe 大学で 2009年、コンピューター・サイエンスの博士課程を修了しました。博士論文の主題は、XML データのウェアハウジングおよびマイニングです。彼女が提案した XML データ・ウェアハウジングおよびマイニングの革新的手法の数々は、いくつもの国際会議で紹介され、国際的な学術専門誌にも詳細な文書が掲載されています。共著書には『Mining association Rules from XML Documents』があり、データ・マイニングおよびウェアハウジング技術に関する本の編集も行っています。彼女は学会、研究分野、そして IT 業界で経験を積んでいます。



2012年 5月 31日 (初版 2012年 1月 06日)

はじめに

情報技術から、金融サービス、医療システム、生物情報科学、航空、防衛などに至るさまざまな分野で、データを表現、保管、交換するための言語として XML が選ばれる傾向が強くなってきています。XML で表現される情報の量が急増するなか、多くの人々が XML 文書の保管や分析に関する問題を解決するための実用的な手法を模索しています。この全 3 回からなる連載では、XML データ・マイニングが持ついくつかの面について詳しく探ります。

今回の記事では、XML データ・マイニングに関する研究と、XML データ・マイニングに使用できる手法を紹介し、静的 XML 文書と動的 XML 文書に対して相関ルールをマイニングする際の問題を検討します。

連載の以降の記事では、XML 相関ルールのマイニング、複数バージョンの XML 文書のクラスタリングについて、さらに詳しく掘り下げていきます。


XML マイニング

よく使われる頭文字語

  • W3C: World Wide Web Consortium
  • WSDL: Web Services Description Language

XML マイニングには、XML 文書の構造のマイニングとコンテンツのマイニングの両方が含まれます。構造のマイニングとは、基本的に XML スキーマに対してマイニングを行うことであり、これには内部構造のマイニング (1 つの XML 文書に対して構造をマイニングすること) と外部構造のマイニング (複数の XML 文書に対して構造をマイニングすること) があります。コンテンツのマイニングには、コンテンツ分析と構造の分類が関わってきます。コンテンツ分析は XML 文書内のテキストを分析することを目的とし、構造分類はコンテンツに基づいて同様の文書を判断することを目的とします。

静的 XML 文書のコンテンツと構造は、文書が公開された後に変更されることはありません。例えば、会議で使われた資料の詳細が含まれる XML 文書は静的文書です。一方、動的 XML 文書、つまり複数のバージョンを持つ XML 文書の場合、その構造またはコンテンツは文書が公開された後に変更されることが前提となっています。例えば、オンライン書店のコンテンツが XML フォーマットで表現されている場合、そのコンテンツは e-カスタマーの行動に応じて日々変更されていくはずです。

静的 XML 文書と動的 XML 文書を差別化する主な特徴は、以下のとおりです。

時間的な適用範囲の表現
静的 XML 文書には、その文書が有効である期間を示す要素は含まれません。逆に、動的 XML 文書には本質的に、文書のその特定のバージョンの時間的な適用範囲を示す要素が 1つ以上含まれます。
レンダリングされる情報の永続性
静的 XML 文書はいったん作成されると、そこに含まれる情報はその後も常に有効です。一方、動的 XML 文書の特定のバージョンが有効なのは、時間的な要素によって指定された期間に限られます。新しいバージョンが登場すると、前のバージョンに含まれていた情報は新しいバージョンに取って代わられます。

図 1 に一例として、静的 XML 文書のスキーマを WSDL フォーマットで示します。

図 1. 静的 XML 文書のスキーマ
静的 XML 文書のスキーマの例を示す図

図 1 のスキーマに基づく XML 文書インスタンスのコンテンツが変更されることは決してありません。なぜなら、その特定の会議で使われた資料は、いったん公開された後に変更されることはないからです。

図 2 に、今度は WSDL フォーマットの動的 XML 文書のスキーマの例を示します。

図 2. 動的 (複数バージョンの) XML 文書のスキーマ
動的 XML 文書のスキーマの例を示す図

図 2 に示されている <AsAtDate> ノードに格納される情報は、XML 文書の各バージョンに含まれるデータの有効期間です。単一の日付ノードを使用して有効期間を指定する代わりに、2 つの日付ノード (例えば、<from_date><to_date>) を使用して有効な日付を範囲で指定することもできます。一般に、XML 文書に変更を加えると、その文書は動的になります。初期バージョンの XML 文書があるとすると、その文書に一連の変更を適用するたびに、新しい XML 文書が生成されます。そして、その新しい XML 文書は、古い文書の新規バージョンと見なされます。


静的 XML 文書に対するマイニング

このセクションでは、静的 XML 文書に対して相関ルールをマイニングするための手法、そして静的 XML 文書のクラスタリング手法をいくつか検討します。

静的 XML 文書の相関ルール

静的 XML 文書に対して相関ルールをマイニングする手法のほとんどでは、Apriori アルゴリズムをベースとした XML 指向のアルゴリズムが使用されています。ただし、Apriori アルゴリズムには基づかない手法もいくつかあります。

Apriori アルゴリズム

相関ルールの概念は 1993年に提起され、翌年の 1994年にその詳細がさらに確定されました (「参考文献」を参照)。例えば、「ユーザーが製品 A を購入する場合、そのユーザーが製品 B も購入するパターンは、トランザクション全体の 80% を超える割合で発生する」という相関ルールがあるとします。このルールの支持度 (support) は、80% です。つまり、80% のトランザクションに、アイテム A とアイテム B の両方が含まれることを意味します。

ルールを見つけ出すためのアルゴリズムでは、マイニング・プロセスの開始時に、最小支持度 (minimum support) および最小確信度 (minimum confidence) として要求される値を設定します。その上で、k = 1 を出発点に大量の k-アイテム・セット (k 個のアイテムで構成されるアイテム・セット) のすべてに関して、トランザクション・セットに対してループ処理を行うことで、支持度と確信度 (confience) を計算し、判定が行われます。算出された支持度と確信度がそれぞれの最小要件以上の値でなければ、その k-アイテム・セットは相関ルールに含めるには十分でないと見なされ、相関ルールからは除外されます。

このアルゴリズムは Apriori アルゴリズムとして知られるようになり、相関ルールを発見するためにその後考案された多くの手法に適用されています。

相関ルールを発見するということは、特定のデータ・セット内で同時に出現するアイテム間に存在する興味深い関係を見つけることでもあります。これらの関係は、ルールとして扱うのに十分なほど頻繁に出現するものでなければなりません。つまり相関ルールは、特定のデータ・セットに関してある程度の支持度 (support) と確信度 (confidence) を持たなければならないということです。

相関ルールの概念を XML 文書に適用する場合、見つける対象となる関係は、XML 文書の構成要素間の関係です。XML 文書の構成要素は、単一のノードであることも、単純なノードで構成される複合ノードであることもあります。複合ノードは、XML 文書全体のツリーの中に含まれるサブツリーと見なすことができます。したがって、XML 文書内の相関ルールをマイニングするには、XML 文書のサブツリー (サブ構造) 間の関係を見つける作業も必要となってきます。以下に、3 つの異なる手法を要約します。

  • Wan 氏と Dobbie 氏によって提案された XML 相関ルール抽出アルゴリズム (「参考文献」を参照) は、実質的には XQuery 言語を使用したApriori アルゴリズムの実装です。このアルゴリズムを使用すれば、XML 文書を前処理することなく XML データに対して直接マイニングすることができます。つまり、XML 文書を前もって異なるフォーマットにマッピングする必要はありません。ただし、XQuery 実装を使用すると、C++ 実装を使用した場合よりも、マイニング・プロセスで大量のアイテム・セットを発見するのに時間がかかります。Apriori アルゴリズムに必要な更新機能が、XQuery 実装では限られているためです。
  • Daniele Braga 氏らによって提案された、Apriori アルゴリズム・ベースの手法 (「参考文献」を参照) では、データの前処理、相関ルールの抽出、相関ルールの後処理という主要な 3つのステップで相関ルールをマイニングします。この手法の発案者たちは、以下の概念を導入しています。
    • 相関ルールのコンテキスト
    • コンテキスト選択
    • 条件部 (body)
    • 結論部 (head)
    X -->Y の相関では、X が条件部であり、Y が相関ルールの結論部です。条件部と結論部は、常にルールのコンテキストに対して定義されます。算出される支持度と確信度は、確立されたコンテキストに対してのみ関連性を持ちます。図 3 に一例として、コンテキスト、条件部、結論部が識別されたツリー形式の XML 文書を示します。
    図 3. コンテキスト、条件部、結論部が識別されたツリー形式の XML 文書
    コンテキスト、条件部、結論部が識別されたツリー形式の XML 文書の例を示す図
  • Ling Feng 氏らによって提案された手法 (「参考文献」を参照) は、Apriori アルゴリズムをベースとしていません。この手法が提案する別のマッピングでは、トランザクションとアイテムの概念が、複数の XML 文書からなるツリーのような構造にマッピングされます。その目的は、1 つの XML 文書からではなく、XML 文書の集合から相関ルールを発見することです。したがって、それぞれの XML 文書 (ツリー) は 1 つのデータベース・レコード (トランザクション) に対応し、XML 文書内の各 XML フラグメント (サブツリー) はトランザクション内のアイテムに対応します。この手法が目指しているのは、単純な形に構造化されたアイテムからではなく、さまざまな XML 文書に含まれるツリーから相関ルールを見つけ出すことです。各ツリーには「ツリー構造アイテム (tree-structured item)」という名前が付けられており、このルートを持つ順序付きのツリーを構成するノードは、基本ノード (エッジを持たないノード) と複合ノード (1 つ以上のエッジを持つ内部ノード) に分類されます。

Apriori ベースの手法と Apriori ベースではない手法との主な違いは、トランザクションとアイテムの概念をどのように使用するかにあります。Apriori ベースのアルゴリズムは、XML 文書に対して特定のパスを問い合わせることによって、マイニング対象のアイテムをノードのリストとして抽出します。一方、Apriori 以外のアルゴリズムは XML 文書内の各サブツリー (サブ構造) をアイテムとして捉えます。

マイニング対象の文書に許容する複雑度 (ネストの深さ) は、アルゴリズムによってさまざまに異なります。また、1 つの XML 文書のみをマイニングすればよい場合もあれば、複数の XML 文書に対して相関ルールをマイニングしなければならない場合もあります。

前述の Apriori アルゴリズムをベースとした XML 相関ルールのマイニング手法は、その構造が前もってわかっている限り、どんなに複雑な XML 文書にでも適用することができます。複雑で不規則に構造化された XML 文書の場合には、マイニング・コンテキストの識別を簡単なものにするために、一連の変換機能を使用して XML データを処理することを検討してください。アルゴリズムによっては、アルゴリズムの最初で相関ルールのコンテキスト、条件部、結論部を定義しなければならないものもあります。表 1 に、以上で紹介した手法とそれぞれの長所と短所を要約します。

表 1. 静的 XML 文書に対して相関ルールをマイニングする手法の特徴
手法Apriori ベースのマイニング・アルゴリズムApriori ベースではないマイニング・アルゴリズム単一の XML 文書に対する相関ルールのマイニング複数の XML 文書に対する相関ルールのマイニング単純な XML 文書に対する相関ルールのマイニング複雑な XML 文書に対する相関ルールのマイニング
Wan 氏と Dobbie 氏が 2003年と 2004年に提案した手法使用不使用可能不可能可能不可能
Braga 氏等が 2002年と 2003年に提案した手法使用不使用可能可能可能可能
Feng 氏等が 2003年に提案した手法不使用使用可能可能可能可能

静的 XML 文書のクラスタリング

静的 XML 文書は、各手法が使用する類似性のタイプ (構造面での類似性、セマンティックな面での類似性、これらの組み合わせ) を基準としてクラスターに分類することができます。

構造面での類似性に基づくクラスタリングでは、XML 文書間の構造の類似性に基づいて XML 文書をクラスターにグループ分けすることに重点が置かれます。構造に基づく手法には以下に挙げるものがあります。

  • S-GRACE アルゴリズム (「参考文献」を参照) は、構造グラフ (s-グラフ) を使用して、構造を基準に XML 文書をクラスターに分類します。s-グラフとは、XML 文書内のノードとエッジを、親ノードと子ノードの関係と併せて要約する有向グラフです。S-GRACE は、指定された XML 文書のセットから抽出した s-グラフに、階層的クラスタリング・アルゴリズムを適用します。
  • De Francesca 氏らによって提案された、汎用の凝縮型階層的クラスタリング・アルゴリズム (「参考文献」を参照) は、パラメーターによる手法で XML のクラスタリング問題に対処します。このアルゴリズムは、適切な距離測度に基づき、最適なクラスター表現を探します。クラスター表現とは、クラスターの構造コンテンツをミラーリングする XML 文書です。したがって、このタスクは主に、ツリーのマッチング、ツリーのマージ、そしてマージされたツリーのプルーニングによってクラスターの代表点を計算することとなります。

構造面での情報に加え、各ノードにはセマンティックな面での情報もあります。以下の手法では、構造面での類似性とセマンティックな面での類似性の両方に基づいて XML 文書のクラスタリングを行うことができます。

  • Yoon 氏が提案した手法 (「参考文献」を参照) では、まず、クラスタリング対象の各 XML 文書を ePath に分割します。ePath とは、ほとんどのネストされた要素が単純要素 (値を含み、子要素を含まない要素) にしかなれない、XML 文書のルートから始まるフル・パスです。

    次に、BitCube と呼ばれる 3 次元ビットマップ索引を作成します。3 つの次元とは、文書のリスト、文書から抽出された ePath のリスト、そしてすべての ePath の単純なコンテンツから抽出された単語のリストです。この 3 次元の索引により、(数ある中で) 特定の単語に関連付けられた文書を判断することができるため、ユーザーが特定の用語を検索する際の取得プロセスを高速化することができます。

  • Shen 氏と Wang 氏によって提供された手法 (「参考文献」を参照) では、XML スキーマに基づいているか否かに関わらず、XML 文書からマクロパスを抽出します。各マクロパスには、パス・シーケンス、属性シーケンス、コンテキスト・シーケンスという 3つの要素があります。これらのマクロパス間の類似度が、分析対象の XML 文書間の類似性を表します。

距離をベースとしたクラスタリング手法は、指定された XML 文書のセットの構造面での特徴とセマンティックな面での特徴の両方を考慮してクラスタリングを行うことから、構造に基づく手法の拡張ということになります。距離ベースのクラスタリング手法に備わっている特徴は、「ツリーの編集距離 (tree edit distance)」という概念を使用することです。距離ベースのクラスタリング手法には以下に挙げるものがあります。

ツリーの編集距離

ツリーとして表現された 2 つの XML 文書があるとします。この 2 つの XML 文書間の編集距離とは、一方の文書を他方の文書に最小限の総コストで変換するための編集操作一式のことです。距離をベースとした各クラスタリング手法の違いは、ツリーの編集距離に対して許容される編集操作をそれぞれの手法でどのように定義しているかです。

  • Theodore Dalamagas 氏らによる手法 (「参考文献」を参照) では、XML 文書を順序付きツリーとして捉えます。彼らのアルゴリズムは、ネストと繰り返しを削減した上で、2つの構造概要ごとに構造間のツリーの編集距離を計算します。構造概要の間での距離が、クラスタリングの基準となります。
  • Nierman 氏と Jagadish 氏による手法 (「参考文献」を参照) では、2 つの XML 文書の間の距離を計算するために、XML ツリー上で relabelinsertdeleteinsertTreedeleteTree という 5 つの操作を使用します。最後の 2 つの操作では、XML 文書の全セクションをカット・アンド・ペーストすることができます。編集操作に許可されるシーケンスを動的プログラミング・アルゴリズムによって定義して使用することで、指定されたセットに含まれる 2 つの XML 文書ごとに文書間の距離を計算することもできます。
  • Xing 氏、Xia 氏および Guo 氏による比較的最近の手法 (「参考文献」を参照) では、2 つの XML 文書の類似性を割り出すために、XML 文書とそれぞれのスキーマの間の編集距離を計算します。各文書からスキーマを抽出した後、一方の XML 文書とその対となる XML 文書から抽出したスキーマとの間の距離の平均値として、2 つの XML 文書の間の距離を計算します。

表 2 に、静的 XML 文書のクラスタリングを使用した手法を要約します。

表 2. 静的 XML 文書のクラスタリング
手法編集操作一式としての計算された距離構造面での類似性のみの評価構造面とセマンティックな面での類似性の評価セマンティックな面での類似性のみの評価
De Francesca 氏等が 2003年に提案した手法不使用使用不使用不使用
Liang 氏等が 2004年に提案した手法不使用使用不使用不使用
Yoon 氏等が 2001年に提案した手法不使用不使用使用不使用
Shen 氏と Wang 氏が 2003年に提案した手法不使用不使用使用不使用
Nierman 氏と Jagadish 氏が 2002年に提案した手法使用不使用使用不使用
Dalamagas 氏等が 2004年に提案した手法使用使用不使用不使用
Xing 氏等が 2007年に提案した手法使用使用不使用不使用

動的 XML 文書に対するマイニング

動的 XML 文書に対するマイニングは、開発者に新たな難題を突き付けます。実際のアプリケーションでは、XML 文書のバージョンが変わるにつれ、バージョン間の違いも変わってくるため、静的 XML 文書に対するマイニング手法を動的 XML 文書に対して同じように適用することはできません。

動的 XML 文書から相関ルールを発見するための手法

複数のバージョンがある XML 文書から相関ルールを発見するという試みは、まだその初期段階にあります。この問題に対処しているのは、Weighted-FP-growth (加重頻出パターン成長) アルゴリズム (「参考文献」を参照) です。このアルゴリズムは 以下の 3 つのステップで XML 構造差分から相関ルール (つまり、XSD-AR) を抽出します。

  1. 構造差分データベースを作成する
  2. 頻出サブツリー・パターンを発見する
  3. 相関ルールを抽出する

XML 構造差分とは、動的 XML 文書の連続するバージョン間での構造上の差異のことです。Weighted-FP-growth アルゴリズムでは、変更の程度、変更の頻度、そして頻出サブツリー・パターンという 3 つの概念も定義しています。

動的 XML 文書に対して相関ルールをマイニングするための手法として、私は以下の 2 つの異なる手法を提案しています (「参考文献」を参照)。

  • XML 文書のこれまでのバージョンの集合に対して興味深い情報 (この場合は、相関ルール) をマイニングする

    ある指定した期間に、XML 文書の複数のバージョンに (構造およびコンテンツの両方に関して) 影響を与えた変更について検討します。最近の XML 文書のバージョンに対して完全な検出アルゴリズムを実行しなくても、関連する XML 文書の要素またはサブ構造の間で、どの相関ルールが目下有効であるかを動的に判断することできます。

  • XML 文書のバージョン間での実際に変更された部分から相関ルールを抽出する

    XML 文書 (差分文書または統合された差分文書として保管された XML 文書) のバージョン間で実際に変更された部分を調べ、これらの変更された部分から相関ルールを見つけます。

動的 XML 文書のクラスタリング

動的 XML 文書のクラスタリングに関する取り組みは、これまでのところ、ほとんど行われていません。以下に、2 つの可能性について簡単に説明します。

  • 同僚と一緒に私が提案している 1 つの手法 (「参考文献」を参照) は、クラスターに分類された動的 XML 文書が変更された後で動的 XML 文書間の距離を再評価し、変更される前の XML 文書間の距離に対して変更の影響がどの程度あったかを計算するというものです。
  • Nayak 氏と Xu 氏が提案しているもう 1 つの手法 (「参考文献」を参照) では、まず、一連の XML 文書をクラスターに分類します。一連の XML 文書 (XML 文書のストリーム) を基に、新しく受信される各 XML 文書と既存のクラスターとの間の距離を、レベル構造を使用して計算します。この距離は、受信文書のノードを既存のクラスターのノードとマッチングさせることによって判断します。このように、クラスター内の個々の文書間の類似性についての判断は、2 つの文書を対象に行われるのではなく、クラスター・レベルで行われます。

表 3 に、以上に紹介した動的 XML 文書に対するマイニング手法を要約します。

表 3. 動的 XML 文書に対するマイニング
手法複数バージョンに対する相関ルールのマイニング差分に対する相関ルールのマイニング一連の XML 文書のクラスタリング複数バージョンの (動的) XML 文書のクラスタリング
Chen 氏等が 2004年に提案した手法不可能可能不可能不可能
Nayak 氏と Xu 氏が 2006年に提案した手法不可能不可能可能不可能
Rusu 氏等が 2006年に提案した手法 (a)可能不可能不可能不可能
Rusu 氏等が 2006年に提案した手法 (b)不可能可能不可能不可能
Rusu 氏等が 2008年に提案した手法不可能不可能不可能可能

まとめ

この記事では、XML データ・マイニングにおける手法として、XML 文書から相関ルールを発見する手法と、構造あるいはコンテンツを基準に XML 文書をクラスタリングする手法を学びました。これらの手法のほとんどが対象としているのは、静的 XML 文書です。けれども、最近では大量の動的情報が利用可能になっていることから、動的 (複数のバージョンが存在する) XML 文書に対処できる手法が必要となってきています。

連載の第 2 回では、XML 相関ルールのマイニングについてさらに深く掘り下げます。お楽しみに。

参考文献

学ぶために

  • XML データ・マイニング: 第 2 回 XML 相関ルールのマイニング」: この全 3 回からなる連載の第 2 回で、XML データ分析の一側面である XML データ・マイニングについて掘り下げ、静的 XML 相関ルールおよび動的 XML 相関ルールについて、さらにはマイニング対象の XML 文書が公開された後に変更される場合にバージョン・ベースの相関ルールを作成する方法について学んでください。
  • XML データ・マイニング: 第 3 回 XML 文書のクラスタリングによるデータ・マイニングの改善」: XML 文書を変更後に新しい XML 文書のクラスターを効率的に再計算する方法を調べてください。また、この方法を理解して実際に適用できるように、この連載第 3 回ではステップバイステップで事例を説明します。
  • Extracting Variable Knowledge from Multiversioned XML Documents」(L.I. Rusu、W. Rahayu、D. Taniar 共著、2006年 (a)): 初期 XML 文書から抽出した情報が、文書のコンテンツや構造が変更されると、どのように変更されるのかを判断する革新的手法について読んでください。
  • Mining Changes from Versions of Dynamic XML Documents」(L.I. Rusu、W. Rahayu、D. Taniar 共著、2006年 (b)): 統合された差分に含まれる情報を使用して、動的 XML 文書のバージョン間で変更された部分から相関ルールをマイニングする単純な手法について学んでください。
  • Intelligent Dynamic XML Documents Clustering」(L.I. Rusu、W. Rahayu、D. Taniar 共著、2008年): 公開された後に変更されることが前提となっている動的 XML 文書をクラスターに分類し、文書間の距離を対で再評価する、時間効率に優れた手法について学んでください。この手法では、計算を繰り返すのではなく、既知の距離、および文書のバージョンに影響を与える可能性のある変更一式に対して検討を行います。
  • Data mining and XML documents」(R. Nayak、R. Witt、A. Tonev 共著、2002年): XML マイニングを研究する足掛かりとして、XML マイニングの分類について調べてください。
  • Fast Algorithms for Mining Association Rules」(M.H. Marzahuy、A.A. Mitwaly 共著、2005年): 販売取引の大規模なデータベースに保管されたアイテム間の相関ルールを発見するという問題について調べてください。この問題を解決するために、既知のアルゴリズムとは根本的に異なる 2 つの新しいアルゴリズムが提示されています。
  • Mining Association Rules from XML data」(D. Braga、A. Campi、M. Klemettinen、P.L. Lanzi 共著、2002年): ネイティブ XML 文書の相関ルールを再考し、このトピックがデータ・マイニング・コミュニティーに呈する新しい課題と可能性について検討しています。
  • Discovering Interesting Information in XML with Association Rules」(D. Braga、A. Campi、S. Ceri 共著、2003年): XML データの相関ルールについて紹介するこの記事では、XPath をベースに XQueryの構文から発想を得た新しい演算子を提案しています。この演算子では、複雑なマイニング・タスクを簡潔かつ直観的に表現できます。
  • Mining Association Rules from Structural Deltas of Historical XML Documents」(L. Chen、S.S. Bhowmick、L.T. Chia 共著、2004年): XML 文書の構造の変更シーケンスについて読んで、XML 構造のなかで一緒になって変更されることの多いサブツリーを突き止めてください。
  • Clustering XML Documents by Structure」(T. Dalamagas、T. Cheng、K.J. Winkel、T. Sellis 著、2004年): 構造が似ている XML 文書をグループ化するためのクラスタリング手法のアプリケーションを調べてください。
  • Distance-based Clustering of XML Documents」(F. De Francesca、G. Gordano、R. Ortale、A. Tagarelli 共著、2003年): XML クラスター表現の表記 (クラスター内の XML 文書セットの最も関連性の強い特徴を含めたプロトタイプ XML 文書) に重点を置く、革新的な XML 文書のクラスタリング手法について学んでください 。
  • An XML–Enabled Association Rules Framework」(L. Feng、T. Dillon、H. Wiegand、E. Chang 共著、2003年): 拡張された XML 対応の相関ルール・フレームワークについて調べてください。これは、XML データに内在する単純な相関関係も、複雑に構造化された相関関係も表現することのできる、柔軟で強力なフレームワークです。
  • An Efficient and Scalable Algorithm for Clustering XML Documents by Structure」(W. Liang、D.W. Cheung、N. Mamoulis、S-M Yiu 共著、2004年): データに含まれる構造情報に基づいて XML 文書をクラスターに分類する階層的アルゴリズム (S-GRACE) について検討してください。
  • XCLS: A Fast and Effective Clustering Algorithm for Heterogeneous XML Documents」(R. Nayak、S. Xu 共著、2006年):同様の構造を基準に XML 文書をグループ化する革新的なクラスタリング・アルゴリズムについて読んでください。
  • Evaluating Structural Similarity in XML Documents」(H. Nierman、V. Jagadish 共著、2002年): オプションのサブ要素が繰り返されるなどの XML 問題を考慮した、類似性の評価に適したツリーの編集距離ベースの手法について学んでください。
  • Clustering Schemaless XML Documents」(Y. Shen、B. Wang 共著、2003年): 増加しつつあるスキーマレスの XML 文書をセマンティックに基づいてクラスタリングするという問題について調べてください。
  • Clustering XML Documents Based on Structural Similarity」(G. Xing、Z. Xia、J. Guo 共著、2007年): XML 文書間の構造面での類似性に基づいて XML 文書のクラスタリングを行うフレームワークについて学んでください。
  • Extracting Association Rules from XML documents using XQuery」(J.W. Wan、G. Dobbie 共著、2003年): 前処理も後処理も行わずに、問い合わせ言語 XQuery だけを使用して任意の XML 文書から相関ルールを抽出する方法を紹介しています。
  • Mining association rules from XML data using XQuery」(J.W. Wan、G. Dobbie 共著、2004年): XQuery を使用して、前処理や後処理を行わずに XML 文書から相関ルールを抽出する仕組みについて学んでください。この文書では、有名な Apriori アルゴリズムの XQuery 実装を分析しています。
  • XQuery: W3C が推奨するこの XML 問い合わせ言語の詳細を学んでください。
  • BitCube: A Three-Dimensional Bitmap Indexing for XML Documents」(J.P. Yoon、V. Raghavan、V. Chakilam、L. Kerschberg 共著、2001年): ビットマップ索引付け手法によって XML 文書を表現して索引を付ける方法について読んでください。
  • Mining Association Rules from Structural Deltas of Historical XML Documents」(L. Chen、S.S. Bhowmick、L.T. Chia 共著、2004年): XML 構造の一連の変更から新しいタイプの相関ルールを抽出する方法について読んでください。この手法は、XSD-AR (XML Structural Delta Association Rule) と呼ばれています。
  • New to XML: XML を学ぶために必要なリソースを入手してください。
  • developerWorks の XML エリア: DTD、スキーマ、XSLT を含め、XML 分野でのスキルを磨くための資料を見つけてください。広範な技術に関する記事とヒント、チュートリアル、標準、そして IBM Redbooks については、XML 技術文書一覧を参照してください。
  • IBM XML 認定: XML や関連技術の IBM 認定技術者になる方法について調べてください。
  • developerWorks の Technical events and webcasts: これらのセッションで最新情報を入手してください。
  • Twitter での developerWorks: 今すぐ登録して developerWorks のツイートをフォローしてください。
  • developerWorks podcasts: ソフトウェア開発者向けの興味深いインタビューとディスカッションを聞いてください。
  • developerWorks オンデマンド・デモ: 初心者向けの製品のインストールおよびセットアップから熟練開発者向けの高度な機能に至るまで、さまざまに揃ったデモを見てください。

製品や技術を入手するために

議論するために

コメント

developerWorks: サイン・イン

必須フィールドは(*)で示されます。


IBM ID が必要ですか?
IBM IDをお忘れですか?


パスワードをお忘れですか?
パスワードの変更

「送信する」をクリックすることにより、お客様は developerWorks のご使用条件に同意したことになります。 ご使用条件を読む

 


お客様が developerWorks に初めてサインインすると、お客様のプロフィールが作成されます。会社名を非表示とする選択を行わない限り、プロフィール内の情報(名前、国/地域や会社名)は公開され、投稿するコンテンツと一緒に表示されますが、いつでもこれらの情報を更新できます。

送信されたすべての情報は安全です。

ディスプレイ・ネームを選択してください



developerWorks に初めてサインインするとプロフィールが作成されますので、その際にディスプレイ・ネームを選択する必要があります。ディスプレイ・ネームは、お客様が developerWorks に投稿するコンテンツと一緒に表示されます。

ディスプレイ・ネームは、3文字から31文字の範囲で指定し、かつ developerWorks コミュニティーでユニークである必要があります。また、プライバシー上の理由でお客様の電子メール・アドレスは使用しないでください。

必須フィールドは(*)で示されます。

3文字から31文字の範囲で指定し

「送信する」をクリックすることにより、お客様は developerWorks のご使用条件に同意したことになります。 ご使用条件を読む

 


送信されたすべての情報は安全です。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=60
Zone=XML
ArticleID=782580
ArticleTitle=XML データ・マイニング: 第 1 回 さまざまな XML データ・マイニング手法の調査
publish-date=05312012