crawl-url

特定の URL のすべてのクローラー状態をカプセル化するノード。

属性

  • __internal__ (以下のみが可能: dns_robots) - crawl-url が内部処理のためにのみ使用され、ログや索引に寄与してはならないことを示すフラグ。このような crawl-url の代表的な使用は、robots.txt ファイルのフェッチです。使用法: 内部
  • n-redirs (整数 デフォルト: 0) - クローラーが特定の URL に到着するまでにリダイレクトされた回数。
  • orig-url (テキスト) - url 属性に保管されている URL にリダイレクトされる前にクローラーが元々クロールしようとしていた URL。
  • url (テキスト) - crawl-url によって表されているリソースの URL。
  • crawl-url (テキスト) - 使用法: 内部
  • redir-from (テキスト) - この URL のリダイレクト元 URL。
  • redir-to (Text) - この URL のリダイレクト先 URL。
  • state (以下のいずれか: pending、success、warning、error) - この crawl-url の状態。この属性は、状況照会によって設定され、以下の値を取ることがあります。pending: リソースは現在、クローラー・パイプライン内にあります。success: リソースがクローラー・パイプラインから出て、処理でエラーも警告も生じませんでした。warning: リソースがクローラー・パイプラインから出ましたが、一部のデータは正常に索引付けされませんでした。error: リソースがクローラー・パイプラインから出ましたが、どのデータも正常に索引付けされませんでした。エンキューがインデクサーに到達しなかった場合、siphoned 属性で理由が示されます。それ以外の場合、子 log でエラーが示されます。
  • status (以下のいずれか: starting、applying changes、stopping、refreshing、resuming、input、complete、redir、disallowed by robots.txt、filtered、error、duplicate、killed、none デフォルト: none) - この crawl-url の状況。input: リソースは、クローラーによってフェッチ中です。complete: リソースは正常にフェッチされ、変換されました。redir: リソースのフェッチを試行すると、リダイレクトが発生しました。disallowed by robots.txt: robots.txt ファイルにより、リソースのクロールが許可されません。filtered: クロール条件により、リソースのクロールが許可されませんが、crawl-url はログに記録されます。killed: クロール条件により、リソースのクロールが許可されず、crawl-url もログに記録されません。error: URL のフェッチまたは変換を試行しているときにエラーが発生しました。duplicate: リソースが、以前にクロールしたリソースと完全に重複しています。applying changes、refreshing、resuming、starting、stopping などの他の可能な status の値は、内部使用専用です。
  • output-destination (以下のいずれか: cache、indexer) - クローラーで特定の宛先に crawl-url をルーティングするために使用されるストリング。使用法: 内部
  • http-status (xs:long) - クローラーがこの URL のリソースをフェッチしようとしたときに返された HTTP 状況コード。
  • input-at (xs:long) - この crawl-url がその入力状態でログに書き込まれた時刻 (エポック以降の秒数)。
  • recorded-at (xs:long) - この crawl-url がその入力状態でログに書き込まれた時刻 (エポック以降の秒数)。
  • at-datetime (日時) - この crawl-url がフェッチされた時刻、またはフェッチに失敗した時刻。
  • at (xs:long) - この crawl-url がフェッチされた時刻、またはフェッチに失敗した時刻 (エポック以降の秒数)。
  • filetime (xs:long) - この URL のリソースの最終更新時刻 (エポック以降の秒数)。
  • batch-id (テキスト) - vse-key を共有している複数の URL が単一のクローラー・インスタンスでエンキューされたかどうかを判別するために使用される値。
  • change-id (テキスト) - この URL のリソースが最後のクロール以降に変更されたかどうかを判別するために使用される、各種メタデータのプロトコル依存のチェックサム。使用法: 内部
  • input-purged - この crawl-url の入力 crawl-url が、データベースから以前にパージされているために使用可能でないことを示すフラグ。使用法: 内部
  • content-type (テキスト) - この URL のリソースのコンテンツ・タイプ。
  • size (xs:long) - この URL のフェッチされたリソースの合計サイズ (バイト)。
  • n-sub (整数) - この crawl-url の下にある子 schema.x.element.crawl-data の総数。
  • conversion-time (整数) - この URL のフェッチされたリソースを変換するのに費やされた合計時間 (秒)。
  • converted-size (10 進数) - この URL のフェッチされたリソースに対してすべての変換ステップを実行した後の合計サイズ (バイト)。
  • speed (10 進数) - この URL のリソースの合計サイズ (バイト) を、合計フェッチ時間 (秒) で除算した結果。
  • error (テキスト) - クローラーがこの URL のリソースをフェッチまたは変換できなかった理由を示したストリング。
  • warning (Text) - クローラーがこの URL のリソースをフェッチまたは変換しようとしていたときに発生した問題を示したストリング。
  • hops (整数 デフォルト: 0) - この URL と、クローラーがこの URL を最初に検出する原因となったシード URL との間のホップ数。
  • vertex (xs:unsignedInt) - クローラーが検出した各 URL に割り当てる固有 ID。
  • exact (テキスト) - すべての子 schema.x.element.crawl-data のコンテンツとその ACL 属性に関するチェックサムを表すストリング。ある URL のリソースが、以前にクロールした URL のリソースと完全に重複しているかどうかを判別するために使用されます。
  • error-msg (テキスト) - クローラーでエラー・メッセージを一時的に渡すために使用されます。使用法: 内部
  • exact-duplicate (以下のみが可能: exact-duplicate) - URL のコンテンツが、以前にクロールした URL と完全に重複していることを示すフラグ。
  • verbose (以下のみが可能: verbose) - このフラグが存在している場合、クローラーのデバッグ・ログでこの crawl-url の進行を追跡する必要があることを示します。
  • uncrawled (以下のいずれか: unexpired、unchanged、error、unknown) - このリソースが再クロールされなかった一般的な理由。unexpired: この crawl-url の以前のコピーがクロール時にまだ有効でした。unchanged: この URL のリソースが最後のフェッチ以降に変更されていないことがメタデータで示されました。error: この URL のリソースをフェッチしようとして、エラーが発生し、以前にフェッチしたコピーがクロール時にまだ有効でした。unknown: 不明な理由のため、リソースは再クロールされませんでした。uncrawled-why 属性と組み合わせて使用されます。
  • uncrawled-why (テキスト) - このリソースが再クロールされなかった特定の理由。uncrawled 属性と組み合わせて使用されます。
  • crawled-locally (以下のみが可能: crawled-locally) - リモート・サーバーへの接続が不要であったこと、およびこの URL が遅延の計算に関与してはならないことを示すために使用されるフラグ。
  • priority (整数 デフォルト: 0) - クローラーのキューに含まれている他の crawl-urls や crawl-deletes に対する、この crawl-delete の優先順位を示す整数。値が大きいほど、優先順位は高くなります。
  • input-priority (整数) - resume 操作によってエンキューされた URL の実際の優先順位を保管します。一時的な使用のためにクローラーによって内部的に設定されます。 使用法: 内部
  • default-acl (テキスト) - 他の ACL が使用可能でない場合にリソースに適用される ACL。
  • ip (テキスト) - この URL のリソースをフェッチするために使用される IP アドレス。
  • i-ip (整数) - 特定の IP アドレスを、複数の IP アドレスに対応する DNS 項目に関連付けるために使用される整数 ID。
  • forced-vse-key (テキスト) - クローラーが vse-key を自動的に割り当てるのを許可せず、クローラーがこの vse-key をこの crawl-url に割り当てるように強制します。
  • forced-vse-key-normalized (以下のみが可能: forced-vse-key-normalized) - 値に base-url を自動的に含めて forced-vse-key を正規化してはならないことを示すフラグ。
  • synchronization (以下のいずれか: none、enqueued、to-be-indexed、indexed、indexed-no-sync 非推奨値: to-be-crawled デフォルト: enqueued) - クローラーがエンキューされた crawl-url に対して success を返す必要があるタイミングを示します。none 以外のすべての同期では、同期応答が発行される前にエンキューが 2 次ストレージにコミットされます。
    • none: エンキューを受信した直後。
    • enqueued: crawl-url がクロール条件を満たすことが分かり、フェッチを試行することになった後。
    • to-be-indexed: この URL のリソースがクロールおよび変換された後。この同期モードは、インデクサーが最も時間に正確な方法で同期応答を発行するための追加作業を実行するように強制します。
    • indexed: 変換されたリソースがインデクサーによって記録された後。
    • indexed-no-sync: 変換されたリソースがインデクサーによって記録された後。ただし、インデクサーが追加作業を実行するように強制しません。
  • force-indexed-sync - 索引付けが完了して、変更が検索結果で反映されることになってはじめて、インデクサーが監査ログで文書の変更を確認するように強制するフラグ。使用法: 内部
  • enqueue-id (テキスト) - 特定のエンキューを識別する固有のストリング。
  • enqueue-id-for-audit-log (テキスト) - enqueue-id 属性の値ではなく、audit-log でこのエンキューを識別するために使用されるストリング。使用法: 内部
  • originator (テキスト) - 更新の発信元を識別する固有のストリング。
  • arena (テキスト) - データを含める arena の名前。指定されている場合、データが追加される前に、このコレクションの indexer-service でその arena オプションが有効になっている必要があります。そのオプションが有効になっている場合、この属性は必須属性です。
  • parent-url (テキスト) - この URL を関連付ける必要がある親 URL。これは、通常のクロール・ワークフローの外部で更新を行う必要がある場合に、内部グラフの整合性を保つために使用されます。
  • parent-url-normalized (以下のみが可能: parent-url-normalized) - parent-url 属性が既に正規化されていることを示すフラグ。これが存在しない場合、クローラーは、当該値の正規化を試行します。
  • remote-time (xs:long) - リソースがリモート・サーバーでフェッチされた時刻 (エポック以降の秒数)。使用法: 内部
  • remote-dependent (以下のいずれか: delete、uncrawled) - この更新が以前の更新に依存していることを示します。delete: この更新は既存の crawl-url を削除します。uncrawled: この更新は、既存の crawl-url の有効期限時刻を更新します。使用法: 内部
  • remote-previous-collection (テキスト) - この crawl-url に対する以前の更新のコレクション。使用法: 内部
  • remote-previous-counter (整数) - この crawl-url に対する以前の更新のカウンター値。使用法: 内部
  • remote-depend-collection (テキスト) - この crawl-url が前提としている更新のコレクション。使用法: 内部
  • remote-depend-counter (整数) - この crawl-url が前提としている更新のカウンター値。使用法: 内部
  • remote-collection-id (整数) - この crawl-url の取得元のコレクション名の内部 ID。使用法: 内部
  • siphoned (以下のいずれか: duplicate、killed、filtered、terminated、unexpired、uncrawled、unchanged、error、unretrievable、rebasing、replaced、input-full、needed-gatekeeper、aborted、nonexistent、invalid、lc-too-long、remote-conflict、unknown) - crawl-url が要求された同期を満たすことができなくなる障害をクローラーが検出したことを示します。duplicate: この URL のリソースは既にクロールされています。killed: この URL は、crawl-condition によってフィルタリングされました。filtered: この URL は、crawl-condition によってフィルタリングされ、ログに記録されました。terminated: エンキューがパイプラインに入った後にクローラーが停止されたため、crawl-url を処理できませんでした。rebasing: クローラーが rebase 操作を試行しているため、crawl-url を処理できませんでした。unexpired: 以前の crawl-url の有効期限がまだ切れていません。unchanged: この URL のリソースは、以前にフェッチしたコピーから変更されていません。error: この URL のリソースをフェッチできませんでしたが、以前にフェッチしたコピーがまだ有効です。unretrievable: この URL のリソースをフェッチできませんでした。replaced: エンキューが新しいものに置き換えられました。input-full: 入力キューがいっぱいであるため、エンキューを処理できませんでした。needed-gatekeeper: エンキューは index-atomic ノードの子でしたが、続行するには gatekeeper 内に配置する必要がありました。aborted: エンキューはトランザクションの一部として中止されました。nonexistent: crawl-url がクローラーのデータベース内のどの crawl-url にも対応していません。lc-too-long: url 属性のサイズが、軽量クローラー・モードで設定されている 499 バイトの制限を超過しています。remote-conflict: コレクション自体または別の分散索引付けノードからの、この URL のより新しい更新がコレクションにあるため、crawl-url を処理できませんでした。unknown: 不明な理由のため、要求された同期を満たすことができませんでした。
  • enqueued-offline (以下のみが可能: enqueued-offline) - crawl-url がオフラインでエンキューされたことを示すフラグ。
  • orphaned-atomic (以下のみが可能: orphaned-atomic) - システム・エラーのため、この crawl-url をアトミックに索引付けすることができなかったことを示すフラグ。結果として、この URL は索引に影響しませんでした。使用法: 内部
  • enqueue-type (以下のいずれか: none、forced、reenqueued、export、status default: none) - エンキューされた crawl-url をクローラーで処理する方法を示します。
    • none: crawl-url にすべての標準検査 (重複排除、URL 制限、および有効期限) が適用されます。
    • forced: crawl-url の処理時に重複検査および URL 制限が無視されます。
    • reenqueued: crawl-url の処理時に重複検査、URL 制限、およびすべての有効期限のオプションが無視されます。
    • export: URL にあるリソースをフェッチし、呼び出し元に返します。リソースは変換も索引付けもされず、このエンキューの結果として、クローラーの永続状態も一切変更されません。
    • status: クローラーのデータベースから特定の URL の現行状況をフェッチします。
  • deleted - クローラーが削除のためにキューに入れられた crawl-url を追跡するために使用する一時フラグ。使用法: 内部
  • ignore-expires - クローラーがディレクトリーを常に再クロールするように強制するために使用する一時フラグ。使用法: 内部
  • enqueued (テキスト) - この crawl-url からの出力リンクを表すチェックサム。この値は、リフレッシュ時にリンクが変更されているかどうかを判別するために内部的に使用されます。
  • referrer-vertex (整数) - クローラーがリンク分析テーブルを作成するために使用する一時属性。使用法: 内部
  • remote-collection (テキスト) - このリモート更新の発信元コレクションの名前。 使用法: 内部
  • remote-counter (整数) - リモート更新のカウンター値。更新が順次適用されるようにするために使用されます。 使用法: 内部
  • remote-packet-id (整数) - ジャーナルに最終的に追加される更新を追跡するために使用される一時属性。 使用法: 内部
  • referree-url (テキスト) - リモート更新の完全な重複の情報を追跡するために使用される一時属性。使用法: 内部
  • request-queue-redir (以下のいずれか: output、indexer-output) - エンキューの crawl-url が完了と記録される前に出力リンクが入力として記録されるようにする一時属性。使用法: 内部
  • prodder (以下のいずれか: abort、index) - crawl-url が「本物の」crawl-url ではない (indexer_output スレッドが index-atomic を中止するか、それをインデクサーに送信するように指示するために使用される、index-atomic 用の誘因である) ことを示す属性。使用法: 内部
  • gatekeeper-action (以下のいずれか: reject、replace、add-to-queue) - url 属性を共有している別の crawl-url がクローラーのパイプライン内にある間にこの crawl-url が検出された場合にゲートキーパーが実行するアクションを示します。
    • reject: ゲートキーパーはこの crawl-url を拒否し、パイプラインに入らないようにします。これは、分散ではない場合に index-atomic の子としてエンキューされた crawl-url のデフォルト動作です。
    • replace: ゲートキーパーは、この crawl-url の url 属性の値を共有する、キュー内に現在含まれているすべての crawl-url を拒否し、この単一の crawl-url に置き換えます。これがデフォルト動作です。
    • add-to-queue: ゲートキーパーはこの crawl-url をキューの最後に追加します。これは、index-atomic ノードの子として分散索引付けクライアントに送信された crawl-url の場合のデフォルト動作です。
    使用法: 内部
  • index-atomically - crawl-url がアトミック操作の一部であることを示すために使用される属性。使用法: 内部
  • gatekeeper-list - URL がゲートキーパーからリリースされたか再エンキューされた場合に URL がゲートキーパー・メカニズムをバイパスできるようにするために使用される一時属性。使用法: 内部
  • gatekeeper-id (xs:unsignedInt) - ゲートキーパーからのノードを永続 XML ストア内のその場所に関連付けるために使用される一時属性。使用法: 内部
  • offline-id (xs:unsignedInt) - オフライン・キューからのノードをオフライン・ストア内のその場所に関連付けるために使用される一時属性。使用法: 内部
  • offline-initialize - オフライン・ノードの初期化時に使用される一時属性。使用法: 内部
  • input-on-resume (ブール) - crawl-url が再開時に入力されたために、特殊な処理が必要であることをクローラーの入力スレッドに通知するために使用される一時属性。使用法: 内部
  • switched-status (ブール) - 変更適用操作で crawl-url が操作中にその状況を切り替えたことを示すために一時的に使用されます。使用法: 内部
  • from-input - 使用法: 内部
  • input-stub - 使用法: 内部
  • re-events (整数) - 使用法: 内部
  • remembered (ブール) - 使用法: 内部
  • notify-id (整数) - 使用法: 内部
  • reply-id (整数) - 使用法: 内部
  • obey-no-follow - 使用法: 内部
  • normalized - URL の正規化またはクロール条件の適用を回避するように入力処理スレッドに指示するために使用される一時フラグ。使用法: 内部
  • url-normalized - クロール条件をまだ適用しているときに URL の正規化を回避するように入力処理スレッドに指示するために使用される一時フラグ。これは、インデクサーの切断のために再エンキューされたノードに対して設定されます。使用法: 内部
  • wait-on-enqueued - 使用法: 内部
  • graph-id-high-water (xs:unsignedInt) - 使用法: 内部
  • last-at (xs:long) - 使用法: 内部
  • indexed-n-docs (xs:unsignedInt) - この URL に対応している、索引付けされた文書の数。
  • indexed-n-contents (xs:unsignedInt) - この URL に対応している、索引付けされたコンテンツの数。
  • indexed-n-bytes (xs:long) - この URL に対応している、索引付けされたバイト数。
  • light-crawler (以下のみが可能: light-crawler) - 使用法: 内部
  • remove-xml-data (以下のいずれか: always、on-success、input) - 使用法: 内部
  • disguised-delete (以下のみが可能: disguised-delete) - crawl-url が本当は、クローラーにレコードがない URL の軽量クローラーの crawl-delete であることを示すために使用される一時フラグ。使用法: 内部
  • remote-counter-increased (以下のみが可能: remote-counter-increased) - 更新によってそのコレクションのリモート・カウンターが増分されたことを示すために使用される一時フラグ。使用法: 内部
  • delete-enqueue-id (テキスト) - 使用法: 内部
  • delete-originator (テキスト) - 使用法: 内部
  • delete-index-atomically (以下のみが可能: delete-index-atomically) - 使用法: 内部
  • purge-pending (以下のみが可能: purge-pending) - crawl-url がログから削除されるが、索引から削除されないことを示すために使用される一時フラグ。使用法: 内部
  • only-input - crawl-url のログが権限テーブルに記録されていないことを示すために使用される一時属性。使用法: 内部
  • 任意のユーザー定義属性

  • 以下はリストされている順序で使用してください。シーケンスを繰り返すことはできません。
    • crawl-pipeline: (1 個のみ) - プロファイル・データのコンテナー・ノード。
    • curl-options: (1 個のみ) - 特定の URL のフェッチで使用するオプションのコンテナー。
    • crawl-header: (1 個のみ) - 関連 URL の HTTP ヘッダー・データが含まれたノード。
    • old-crawl: (1 個のみ) - crawl-url の以前のコピーのコンテナー。
    • crawl-links: (1 個のみ) - 分散検索によって使用されます。
    • completed-crawl: (1 個のみ) - 分散検索によって使用されます。
    • indexed-crawl: (1 個のみ) - 分散検索によって使用されます。
    • log: (1 個のみ) - ログ・ノードが収集されるタグ。
    • crawl-data: (少なくとも 1 個) - 特定の文書に対応するすべてのクローラー状態をカプセル化するノード。