Accueil Big Data Détection des anomalies In-Stream avec Amazon OpenSearch Ingestion et Amazon OpenSearch Serverless

Détection des anomalies In-Stream avec Amazon OpenSearch Ingestion et Amazon OpenSearch Serverless

0
Détection des anomalies In-Stream avec Amazon OpenSearch Ingestion et Amazon OpenSearch Serverless


Apprentissage automatique non supervisé l’analyse est devenue un outil puissant pour Détection d’une anomalie dans le paysage actuel riche en données, en particulier avec le volume croissant de données générées par les machines. La détection des anomalies dans le flux offre des informations en temps réel sur les anomalies de données, permettant une réponse proactive. Amazon OpenSearch sans serveur se concentre sur une évolutivité et une gestion transparentes des charges de travail de recherche ; Ingestion d’Amazon OpenSearch complète cela en fournissant une solution robuste pour la détection d’anomalies sur les données indexées.

Dans cet article, nous proposons une solution utilisant OpenSearch Ingestion qui vous permet d’effectuer une détection d’anomalies dans le flux dans votre propre environnement AWS.

Détection des anomalies In-Stream avec OpenSearch Ingestion

OpenSearch Ingestion rend le processus de détection des anomalies dans le flux simple et à moindre coût. La détection des anomalies In-Stream vous permet d’économiser sur l’indexation et d’éviter d’avoir recours à des ressources considérables pour gérer le Big Data. Il permet aux organisations d’utiliser les ressources appropriées au moment opportun, de gérer efficacement des données volumineuses et d’économiser de l’argent. L’utilisation de transitaires homologues et de processeurs agrégés peut rendre les choses plus complexes et plus coûteuses ; OpenSearch Ingestion réduit ces problèmes.

Examinons un cas d’utilisation montrant une configuration YAML d’OpenSearch Ingestion pour la détection d’anomalies dans le flux.

Vue d’ensemble de la solution

Dans cet exemple, nous passons en revue la configuration d’OpenSearch Ingestion à l’aide d’un détecteur d’anomalies forestières à coupe aléatoire pour surveiller le nombre de journaux sur une période de 5 minutes. Nous indexons également les journaux bruts pour fournir une démonstration complète du flux de données entrant. Si votre cas d’utilisation nécessite l’analyse de journaux bruts, vous pouvez rationaliser le processus en contournant le pipeline initial et en vous concentrant directement sur la détection des anomalies dans le flux, en indexant uniquement les anomalies identifiées.

Le diagramme suivant illustre notre architecture de solution.

La configuration décrit deux pipelines d’ingestion OpenSearch. Le premier, sans pipeline publicitaire, ingère les données HTTP, les horodate et les transmet à la fois au pipeline publicitaire et à un index OpenSearch, non-index publicitaire. Le second, ad-pipeline, reçoit ces données, effectue une agrégation basée sur l’ID dans une fenêtre de 5 minutes et effectue une détection des anomalies. Les résultats sont stockés dans l’index ad-anomaly-index. Cette configuration présente le traitement des données, la détection des anomalies et le stockage au sein d’OpenSearch Service, améliorant ainsi les capacités d’analyse.

Mettre en œuvre la solution

Effectuez les étapes suivantes pour configurer la solution :

  1. Créer un rôle de pipeline.
  2. Créer une collection.
  3. Créer un pipeline dans lequel vous spécifiez le rôle de pipeline.

Le pipeline assume ce rôle afin de signer les requêtes au point de terminaison de la collection OpenSearch Serverless. Spécifiez les valeurs des clés dans la configuration de pipeline suivante :

  • Pour sts_role_arnspécifiez l’Amazon Resource Name (ARN) du rôle de pipeline que vous avez créé.
  • Pour hostsspécifiez le point de terminaison de la collection que vous avez créée.
  • Ensemble serverless à vrai.
version: "2"
# 1st pipeline
non-ad-pipeline:
  source:
    http:
      path: "/${pipelineName}/test_ingestion_path"
  processor:
    - date:
        from_time_received: true
        destination: "@timestamp"
  sink:
    - pipeline:
        name: "ad-pipeline"
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        index: "non-ad-index"
        
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
# 2nd pipeline
ad-pipeline:
  source:
    pipeline:
      name: "non-ad-pipeline"
  processor:
    - aggregate:
        identification_keys: ["id"]
        action:
          count:
        group_duration: "300s"
    - anomaly_detector:
        keys: ["value"] # value will have sum of logs
        mode:
          random_cut_forest:
            output_after: 200 
  sink:
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
        index: "ad-anomaly-index"

Pour un guide détaillé sur les paramètres requis et les éventuelles limitations, voir Plugins et options pris en charge pour les pipelines d’ingestion Amazon OpenSearch.

  1. Après avoir mis à jour la configuration, confirmez la validité des paramètres de votre pipeline en choisissant Valider le pipeline.

Une validation réussie affichera un message indiquant « Validation de la configuration du pipeline réussie. comme le montre la capture d’écran suivante.

Si la validation échoue, reportez-vous à Dépannage du service Amazon OpenSearch pour le dépannage et les conseils.

Estimation des coûts pour l’ingestion OpenSearch

Vous n’êtes facturé que pour le nombre de Ingestion d’unités de calcul OpenSearch (OCU d’ingestion) qui sont alloués à un pipeline, que des données transitent ou non par le pipeline. OpenSearch Ingestion s’adapte immédiatement à vos charges de travail en augmentant ou en réduisant la capacité du pipeline en fonction de l’utilisation. Pour un aperçu des dépenses, reportez-vous à Ingestion d’Amazon OpenSearch.

Le tableau suivant présente les coûts mensuels approximatifs basés sur les débits et les besoins de calcul spécifiés. Supposons que le fonctionnement se déroule de 8h00 à 20h00 en semaine, avec un coût de 0,24 USD par OCU et par heure.

La formule serait : Coût total/mois = Exigence OCU * Prix OCU * Heures/Jour * Jours/Mois.

Débit Calcul requis (OCU) Coût total/mois (USD)
1 Gbit/s dix 576
10 Gbit/s 100 5760
50 Gbit/s 500 28800
100 Gbit/s 1000 57600
500 Gbit/s 5000 288000

Nettoyer

Lorsque vous avez fini d’utiliser la solution, supprimez les ressources que vous avez créées, y compris le rôle de pipeline, le pipeline et la collection.

Résumé

Avec OpenSearch Ingestion, vous pouvez explorer la détection des anomalies dans le flux avec OpenSearch Service. Le cas d’utilisation présenté dans cet article montre comment OpenSearch Ingestion simplifie le processus, en obtenant plus avec moins de ressources. Il présente la capacité du service à analyser les taux de journalisation, à générer des notifications d’anomalies et à permettre une réponse proactive aux anomalies. Avec OpenSearch Ingestion, vous pouvez améliorer l’efficacité opérationnelle et améliorer les capacités de gestion des risques en temps réel.

Laissez vos réflexions et questions dans les commentaires.


à propos des auteurs

Rupesh Tiwari, un architecte de solutions AWS, se spécialise dans la modernisation des applications en mettant l’accent sur l’analyse des données, l’OpenSearch et l’IA générative. Il est connu pour créer des solutions évolutives et sécurisées qui exploitent la technologie cloud pour obtenir des résultats commerciaux transformateurs, tout en consacrant également du temps à l’engagement communautaire et au partage d’expertise.

Muthu Pitchamani est un spécialiste de la recherche chez Amazon OpenSearch Service. Il crée des applications et des solutions de recherche à grande échelle. Muthu s’intéresse aux thèmes des réseaux et de la sécurité et est basé à Austin, au Texas.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici