L’une des approches permettant d’estimer les émissions de scope 3 consiste à exploiter les données des transactions financières (par exemple, les dépenses) comme indicateur de substitution des émissions associées aux achats de biens et/ou de services. La conversion de ces données financières en inventaire des émissions de GES nécessite des informations sur l'impact des émissions de GES du produit ou du service acheté.

L’US Environmentally-Extended Input-Output (USEEIO) est un cadre d'évaluation du cycle de vie (LCA) qui suit les flux économiques et environnementaux des biens et services aux États-Unis. L'USEEIO propose un jeu de données et une méthodologie complets qui fusionnent l’analyse économique des IO avec les données environnementales afin d’estimer les conséquences environnementales associées aux activités économiques. Au sein de l’USEEIO, les biens et services sont classés en 66 catégories de dépenses, appelées classes de marchandises, en fonction de leurs caractéristiques environnementales communes. Ces catégories de produits sont associées à des facteurs d'émission utilisés pour estimer les impacts environnementaux à partir des données relatives aux dépenses.

Le jeu de données Eora MRIO (Multi-region input-output) est un ensemble de facteurs d'émission basé sur les dépenses, mondialement reconnu, qui documente les transferts intersectoriels entre 15 909 secteurs dans 190 pays. L'ensemble de facteurs Eora a été modifié afin de s'aligner sur la classification USEEIO, qui comprend 66 classifications sommaires par pays. Cela implique de cartographier les 15 909 secteurs répertoriés dans les catégories Eora26 et les classifications sectorielles nationales plus détaillées avec les 66 catégories de dépenses de l'USEEIO.

C’est là que les LLM entrent en jeu. Ces dernières années, des progrès remarquables ont été réalisés dans l'élaboration de modèles linguistiques de base complets pour le traitement automatique du langage naturel (NLP). Ces innovations ont démontré des performances supérieures à celles des modèles d'apprentissage automatique (ML) conventionnels, en particulier dans les scénarios où les données étiquetées sont rares. L'exploitation des capacités de ces grands modèles NLP pré-entraînés, combinée à des techniques d'adaptation de domaine qui utilisent efficacement des données limitées, offre un potentiel significatif pour relever le défi lié à la prise en compte de l'impact environnemental de scope 3.

Notre approche consiste à affiner les modèles de fondation afin de reconnaître les classes de produits Environmentally-Extended Input-Output (Entrées-sorties respectueuses de l'environnement ou EEIP) des bons de commande ou des écritures comptables rédigés en langage naturel. Nous calculons ensuite les émissions associées aux dépenses à l'aide des facteurs d'émission EEIO (émissions par dollar dépensé) provenant de Supply Chain GHG Emission Factors for US Commodities and Industries pour les jeux de données centrés sur les États-Unis, et de Eora MRIO (Multi-region input-output) pour les jeux de données mondiaux. Ce cadre permet de rationaliser et de simplifier le processus de calcul des émissions de scope 3 pour les entreprises.

La figure 1 illustre le cadre utilisé pour l'estimation des émissions de scope 3 à l'aide d'un modèle linguistique à grande échelle. Ce cadre des exigences comprend quatre modules distincts : préparation des données, adaptation de domaine, classification et calcul des émissions.