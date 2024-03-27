L'intérêt croissant pour le calcul et la divulgation des émissions de GES de scope 3 a mis en lumière les méthodes de calcul des émissions. L’une des méthodes de calcul des émissions de Scope 3 les plus courantes est la méthode basée sur les dépenses, dont la mise en œuvre peut être chronophage et gourmande en ressources. Cet article explore une méthode innovante pour rationaliser l'estimation des émissions de GES de scope 3 en exploitant l'IA et les grands modèles linguistiques (LLM) afin de classer les données relatives aux transactions financières et de les aligner sur les facteurs d'émission basés sur les dépenses.
Les émissions de scope 3, également appelées émissions indirectes, englobent les émissions de gaz à effet de serre (GES) qui se produisent dans la chaîne de valeur d’une entreprise et, en tant que telles, ne sont pas sous son contrôle opérationnel ou sa propriété directe. En termes plus simples, ces émissions proviennent de sources externes, telles que les émissions associées aux fournisseurs et aux clients, et se situent au-delà des activités de l'entreprise.
Une étude du CDP réalisée en 2022 a révélé que, pour les entreprises qui rendent compte au CDP, les émissions produites par leur chaîne d'approvisionnement représentent en moyenne 11,4 fois plus d'émissions que leurs émissions opérationnelles.
La même étude a montré que 72 % des entreprises répondant au CDP ne déclaraient que leurs émissions opérationnelles (scope 1 et/ou 2). Certaines entreprises tentent d’estimer les émissions de scope 3 en recueillant des données auprès des fournisseurs et en classant manuellement les données, mais leurs progrès sont entravés par des défis tels que l'importance de leur base de fournisseurs, la profondeur de leurs chaînes d'approvisionnement, la complexité des processus de collecte de données et les ressources considérables nécessaires.
L’une des approches permettant d’estimer les émissions de scope 3 consiste à exploiter les données des transactions financières (par exemple, les dépenses) comme indicateur de substitution des émissions associées aux achats de biens et/ou de services. La conversion de ces données financières en inventaire des émissions de GES nécessite des informations sur l'impact des émissions de GES du produit ou du service acheté.
L’US Environmentally-Extended Input-Output (USEEIO) est un cadre d'évaluation du cycle de vie (LCA) qui suit les flux économiques et environnementaux des biens et services aux États-Unis. L'USEEIO propose un jeu de données et une méthodologie complets qui fusionnent l’analyse économique des IO avec les données environnementales afin d’estimer les conséquences environnementales associées aux activités économiques. Au sein de l’USEEIO, les biens et services sont classés en 66 catégories de dépenses, appelées classes de marchandises, en fonction de leurs caractéristiques environnementales communes. Ces catégories de produits sont associées à des facteurs d'émission utilisés pour estimer les impacts environnementaux à partir des données relatives aux dépenses.
Le jeu de données Eora MRIO (Multi-region input-output) est un ensemble de facteurs d'émission basé sur les dépenses, mondialement reconnu, qui documente les transferts intersectoriels entre 15 909 secteurs dans 190 pays. L'ensemble de facteurs Eora a été modifié afin de s'aligner sur la classification USEEIO, qui comprend 66 classifications sommaires par pays. Cela implique de cartographier les 15 909 secteurs répertoriés dans les catégories Eora26 et les classifications sectorielles nationales plus détaillées avec les 66 catégories de dépenses de l'USEEIO.
C’est là que les LLM entrent en jeu. Ces dernières années, des progrès remarquables ont été réalisés dans l'élaboration de modèles linguistiques de base complets pour le traitement automatique du langage naturel (NLP). Ces innovations ont démontré des performances supérieures à celles des modèles d'apprentissage automatique (ML) conventionnels, en particulier dans les scénarios où les données étiquetées sont rares. L'exploitation des capacités de ces grands modèles NLP pré-entraînés, combinée à des techniques d'adaptation de domaine qui utilisent efficacement des données limitées, offre un potentiel significatif pour relever le défi lié à la prise en compte de l'impact environnemental de scope 3.
Notre approche consiste à affiner les modèles de fondation afin de reconnaître les classes de produits Environmentally-Extended Input-Output (Entrées-sorties respectueuses de l'environnement ou EEIP) des bons de commande ou des écritures comptables rédigés en langage naturel. Nous calculons ensuite les émissions associées aux dépenses à l'aide des facteurs d'émission EEIO (émissions par dollar dépensé) provenant de Supply Chain GHG Emission Factors for US Commodities and Industries pour les jeux de données centrés sur les États-Unis, et de Eora MRIO (Multi-region input-output) pour les jeux de données mondiaux. Ce cadre permet de rationaliser et de simplifier le processus de calcul des émissions de scope 3 pour les entreprises.
La figure 1 illustre le cadre utilisé pour l'estimation des émissions de scope 3 à l'aide d'un modèle linguistique à grande échelle. Ce cadre des exigences comprend quatre modules distincts : préparation des données, adaptation de domaine, classification et calcul des émissions.
Nous avons mené des expériences approfondies impliquant plusieurs modèles linguistiques de pointe, notamment roberta-base, bert-base-uncased et distilroberta-base-climate-f. De plus, nous avons exploré des modèles classiques non fondés basés sur les approches de vectorisation TF-IDF et Word2Vec. Notre objectif était d'évaluer le potentiel des modèles fondés (FM) dans l'estimation des émissions de scope 3 en utilisant les enregistrements des transactions financières comme indicateur des biens et services. Les résultats expérimentaux indiquent que les LLM affinés présentent des améliorations significatives par rapport à l'approche de classification zero-shot. De plus, ils ont surpassé les techniques classiques d'exploration de texte telles que TF-IDF et Word2Vec, offrant des performances équivalentes à celles de la classification par des experts du secteur.
L’utilisation de LLM dans le processus d’estimation des émissions de scope 3 est une nouvelle approche prometteuse.
Comme expliqué précédemment, les données sur les dépenses sont plus facilement disponibles dans une entreprise et constituent un indicateur courant de la quantité de biens/services. Cependant, des défis tels que la reconnaissance et la cartographie des produits peuvent sembler difficiles à relever. Mais, pourquoi ?
C’est là que les modèles de fondation basés sur l’apprentissage profond pour le NLP peuvent être efficaces sur un large éventail de tâches de classification NLP lorsque la disponibilité des données étiquetées est insuffisante ou limitée. L'exploitation de grands modèles de NLP pré-entraînés avec adaptation au domaine avec des données limitées peut potentiellement faciliter le calcul des émissions de scope 3.
En conclusion, le calcul des émissions du scope 3 avec le soutien des LLM représente une avancée significative dans la gestion des données pour la durabilité. Les résultats prometteurs obtenus grâce à l'utilisation de LLM avancés soulignent leur potentiel pour accélérer les évaluations de l'encombrement. L'intégration pratique dans des logiciels tels que IBM Envizi ESG Suite peut simplifier le processus tout en accélérant l'obtention d'informations pertinentes.
