Utilisation de Databricks avec l' IBM App Connect Enterprise

Databricks est une plateforme cloud dédiée au big data et à l'IA. Il s'associe Apache Spark à Azure des services pour simplifier l'ingénierie des données, l'analyse et l'apprentissage automatique.

A propos de cette tâche

IBM® App Connect Enterprise communique de manière synchrone avec Databricks via les nœuds « Databricks Input » et « Databricks Request », disponibles sur les systèmes Windows, AIX et Linux®.

Vous pouvez utiliser le nœud Databricks Input dans un flux de messages pour accepter les entrées provenant de Databricks. Par exemple, vous pouvez utiliser le nœud Databricks Input pour surveiller Databricks à la recherche de nouveaux événements de table. Lorsqu'un nouvel événement est créé, le nœud Databricks Input génère une arborescence d'événements qui représente l'objet métier avec les détails du nouvel événement. L'arborescence des messages est transmise au terminal Out afin que le reste du flux de messages puisse utiliser les données pour mettre à jour d'autres systèmes ou pour contrôler les modifications. Pour plus d'informations sur la configuration du nœud Databricks Input, consultez Nœud Databricks Input.

Vous pouvez utiliser le nœud Databricks Request pour vous connecter à Databricks et envoyer des requêtes afin d'effectuer des actions sur des objets tels que des tables (vous devez être connecté à votre compte pour afficher les tables qui y sont liées). Pour plus d'informations, consultez le nœud Databricks Request.

Procédure

Les étapes suivantes vous montrent comment vous connecter à un compte Databricks et configurer un nœud Databricks Request à l'aide de la découverte de connecteurs. Vous pouvez suivre une procédure similaire pour configurer un nœud Databricks Input afin de surveiller Databricks pour l'entrée, en créant un flux contenant un nœud Databricks Input et en le configurant via la découverte de connecteurs.

  1. Dans la boîte à outils « IBM App Connect Enterprise », créez un flux contenant un nœud « Databricks Request ».
  2. Sélectionnez le nœud Databricks Request dans le flux pour afficher les propriétés du nœud dans l'éditeur.
  3. Dans l'onglet Basic, cliquez sur Launch Connector Discovery.
    Un panneau s'affiche dans lequel vous spécifiez le nom du projet de stratégie et les détails du coffre-fort à utiliser lors de la recherche du connecteur.
  4. Spécifiez les détails du projet de stratégie et du coffre-fort à utiliser lors de la découverte du connecteur :
    1. Dans le champ Projet de stratégie, spécifiez le projet de stratégie utilisé pour stocker les stratégies créées lors de la découverte du connecteur.
      Vous pouvez également créer un nouveau projet de politique en cliquant sur Nouveau, puis en spécifiant le nom du nouveau projet de politique. Cliquez ensuite sur Terminer.
    2. Spécifiez le coffre-fort à utiliser lors de la recherche du connecteur. Par défaut, les informations d'identification utilisées lors de la découverte des connecteurs sont stockées dans un coffre-fort de répertoire externe, qui est un App Connect Enterprise coffre-fort pouvant être utilisé par n'importe quel serveur d'intégration. Vous pouvez également stocker les informations d'identification dans un coffre-fort du serveur d'intégration, qui est créé dans le répertoire de travail du serveur d'intégration et ne peut être utilisé que par ce serveur d'intégration spécifique.
      Pour spécifier le coffre-fort à utiliser pour stocker les informations d'identification, suivez les étapes décrites dans la section Utilisation de l'assistant de découverte du connecteur de l'une des rubriques suivantes :
    3. Dans le champ Clé du coffre-fort, entrez la clé du coffre-fort utilisée pour accéder aux informations d'identification stockées dans le coffre-fort. La clé du coffre-fort doit comporter au moins 8 caractères.
    4. Facultatif : par défaut, l'emplacement et la clé du coffre-fort spécifiés sont enregistrés comme préférences dans la boîte à outils afin que les valeurs soient prédéfinies lorsque vous lancez Connector Discovery. Si vous ne souhaitez pas que les préférences soient enregistrées, désélectionnez Enregistrer dans les préférences du coffre-fort.
  5. Cliquez sur Lancer la découverte pour démarrer l'assistant de découverte du connecteur pour le connecteur Databricks.
    La fenêtre Connector Discovery s'affiche. Si des connexions Databricks existantes (comptes) sont disponibles, une liste de ces connexions s'affiche. S'il n'y a pas de connexions existantes, l'état du connecteur Databricks s'affiche comme Not connected.
    • Si une ou plusieurs connexions Databricks (comptes) sont disponibles, procédez comme suit :
      1. Sélectionnez la connexion (compte) que vous souhaitez utiliser en cliquant dessus.
      2. Cliquez sur le type d'objet souhaité, puis sélectionnez l'action que vous souhaitez effectuer sur cet objet. Par exemple, pour créer un hub d'événements dans Databricks, cliquez sur <Nom de votre table>, puis sur Récupérer l'enregistrement <Nom de votre table>.
    • S'il n'existe aucune connexion (compte), procédez comme suit :
      1. Cliquez sur le type d'objet souhaité, puis sélectionnez l'action que vous souhaitez effectuer sur cet objet. Par exemple, pour récupérer un enregistrement de table dans Databricks, cliquez sur <Nom de votre table>, puis sur Récupérer l'enregistrement <Nom de votre table>.
      2. Cliquez sur Connexion.
        Une fenêtre s'affiche dans laquelle vous devez saisir les informations de connexion de votre compte Databricks. Entrez les informations suivantes dans l'assistant de connexion :
        • Nom du compte : donnez à votre compte un nom significatif qui vous aidera à l'identifier.
        • ID client : indiquez l'identifiant client unique attribué à votre application lors de son enregistrement auprès de Microsoft Entra ID pour accéder à l'instance Databricks.
        • Secret client : spécifiez le secret client utilisé pour authentifier votre application auprès de Microsoft Entra ID afin d'accéder à l'instance Databricks.
        • Hôte URL : Entrez l'hôte URL de l'espace de travail Databricks (par exemple, https:// <databricks-instance>. azuredatabricks.net ).
        • Chemin d'accès : entrez le chemin d'accès à l'entrepôt SQL de l'espace de travail Databricks.
        • Nom du catalogue : entrez le nom souhaité pour le catalogue dans l'espace de travail Databricks.
        • Nom du schéma : entrez le nom du schéma souhaité dans le catalogue de l'espace de travail Databricks.
        • Nom du proxy : sélectionnez ou spécifiez le nom du proxy que vous souhaitez App Connect utiliser pour transmettre les appels du connecteur. Ce champ n'est obligatoire que si les appels doivent passer par un proxy. Lorsque vous utilisez la boîte à outils « IBM App Connect Enterprise », le nom du proxy doit être indiqué sous la forme suivante : {PolicyProjectName}:HTTPProxyPolicyName
      3. Cliquez sur Connexion.

      Pour plus d'informations sur la manière d'identifier ces détails de connexion, consultez la section « Comment utiliser IBM App Connect avec Databricks » dans la documentation sur la livraison continue (CD) de IBM App Connect in containers.

  6. Définissez les propriétés requises du connecteur dans l'assistant.
  7. Lorsque vous avez terminé de définir les propriétés dans l'assistant Connector Discovery, cliquez sur Save.
    Les valeurs des propriétés que vous définissez dans l'assistant sont renvoyées au nœud « Databricks Request » dans le kit d'outils « IBM App Connect Enterprise ».
  8. Une fois la recherche terminée et les valeurs des propriétés enregistrées, quittez l'assistant Connector Discovery en cliquant sur le X dans le coin supérieur droit de la fenêtre.
  9. Revenir à la modification du nœud « Databricks Request » dans l 'outil « IBM App Connect Enterprise ».
    Les propriétés du connecteur qui ont été définies dans l'assistant Connector Discovery (à l'étape 6 ) sont désormais visibles dans le nœud Databricks Request. L'onglet Basic affiche les valeurs des propriétés Action et Object que vous avez définies dans l'assistant. Par exemple, si vous avez sélectionné <Nom de votre table> > Récupérer l'enregistrement <Nom de votre table> dans l'assistant, les propriétés suivantes sont visibles dans l'onglet Général du nœud :
    • Action - getAllRows
    • Objet - <Your table name>

    Les valeurs des propriétés Action et Objet sont affichées en lecture seule. Si vous souhaitez modifier ces valeurs, vous pouvez le faire en cliquant à nouveau sur Lancer la recherche de connecteurs et en définissant de nouvelles valeurs dans l'assistant de recherche de connecteurs. Vous pouvez modifier d'autres propriétés (le cas échéant) en cliquant sur Modifier à côté de la propriété.

    La propriété Schema base name spécifie le nom de base des fichiers de schéma qui décrivent le format des messages de requête et de réponse envoyés et reçus par le connecteur Databricks. Le nom de base du schéma est défini automatiquement lors de la première exécution de la découverte pour le nœud, et il est basé sur le nom du flux actuel et le nom du nœud. Si vous définissez cette propriété manuellement avant d'exécuter la découverte pour la première fois, la valeur que vous avez définie sera utilisée. Si vous renommez les schémas après leur découverte, vous devez modifier cette propriété afin qu'elle corresponde au nom de base du schéma utilisé par les schémas renommés dans le projet. Si vous modifiez cette propriété après la découverte, vous devez soit renommer les noms de schéma pour qu'ils correspondent, soit relancer la découverte.

    En fonction de l'action sélectionnée lors de la découverte, l'assistant Connector Discovery génère soit un schéma de requête et un schéma de réponse, soit un schéma de réponse uniquement. Un schéma de requête n'est généré que si l'action et l'objet sélectionnés nécessitent un message de requête. Le schéma de requête généré est utilisé pour la validation du message de requête. Si l'action était RETRIEVE ou DELETE, seul le schéma de réponse est renvoyé par le connecteur.

    Les fichiers de schéma générés sont ajoutés au projet et peuvent être utilisés par un nœud de mappage pour transformer les données d'entrée ou de sortie. Le nom complet du fichier du schéma est dérivé du nom de base du schéma (tel que gen/MyMessageFlow.Databricks_Request), suivi du suffixe ou response.schema.json request.schema.json. Vous pouvez ouvrir le schéma en cliquant sur Ouvrir le schéma de requête ou Ouvrir le schéma de réponse.

  10. Vérifiez que les paramètres de propriété du nœud Databricks Request sont corrects, puis enregistrez le flux de messages.
  11. Dans l'onglet Connexion du nœud Databricks Request, sélectionnez la stratégie qui contient les détails de l'identité de sécurité à utiliser pour la connexion. La police a un type de Databricks.
    Pour plus d'informations, consultez la politique Databricks.
  12. Facultatif : définissez la propriété Timeout ( Délai d'attente) dans l'onglet Connection (Connexion ) pour spécifier le temps (en secondes) pendant lequel le nœud attend que Databricks traite l'opération.
  13. L'onglet Filtre du nœud Databricks Request contient des propriétés qui contrôlent la manière dont le flux de messages sélectionne les données. Les valeurs initiales de ces propriétés sont tirées des valeurs de propriété qui ont été définies pour le connecteur Databricks dans l'assistant Connector Discovery (comme décrit à l'étape 6 ). Si vous revenez ensuite à l'assistant Connector Discovery et modifiez les valeurs de certaines propriétés (en ajoutant de nouvelles conditions, par exemple), ces mises à jour sont répercutées dans les propriétés définies sur le nœud.

    Les propriétés Options de filtre contrôlent les objets sur lesquels opérer lorsque le nœud Databricks Request s'exécute. Les propriétés Limite du filtre contrôlent le nombre maximal d'éléments à récupérer et l'action à entreprendre si la limite est dépassée.

    Vous pouvez modifier les valeurs de ces propriétés dans l'onglet Filtre du nœud, en cliquant sur Modifier à côté de la valeur que vous souhaitez modifier dans la section Options de filtre, puis en modifiant les valeurs de propriété qui ont été définies dans la section Limite de filtre.

    Les valeurs de propriété peuvent être soit des valeurs textuelles, soit des expressions ESQL ou XPATH qui sont résolues à partir du contenu du message transmis au nœud Databricks Request lors de son exécution.

  14. Dans l'onglet Demande, définissez la propriété Emplacement des données pour spécifier l'emplacement dans l'arborescence des messages entrants qui contient les données d'objet à créer dans Databricks. Ces données constituent la requête envoyée depuis le nœud Databricks Request vers le système Databricks.
  15. Dans l'onglet Résultat, définissez la propriété Emplacement des données de sortie pour spécifier l'emplacement dans l'arborescence des messages de sortie qui contient les données de l'enregistrement créé dans Databricks.
  16. Par défaut, les messages de requête sont validés par rapport au schéma de requête généré lors de la découverte du connecteur. Vous pouvez désactiver la validation des requêtes ou modifier les paramètres de validation à l'aide des propriétés Validation du nœud Databricks Request.
  17. Enregistrer le flux de messages.