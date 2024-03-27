El creciente interés por el cálculo y la divulgación de las emisiones de GEI de alcance 3 ha puesto de relieve los métodos de cálculo de las emisiones. Una de las metodologías de cálculo de alcance 3 más comunes que utilizan las organizaciones es el método basado en los gastos, cuya implementación puede consumir mucho tiempo y recursos. Este artículo explora una forma innovadora de agilizar la estimación de las emisiones de GEI de alcance 3 aprovechando la IA y los modelos de lenguaje de gran tamaño (LLM) para ayudar a categorizar los datos de transacciones financieras y alinearlos con los factores de emisiones basados en el gasto.
Las emisiones de alcance 3, también denominadas emisiones indirectas, abarcan las emisiones de gases de efecto invernadero (GEI) que se producen en la cadena de valor de una organización y, como tales, no están bajo su control operativo directo o propiedad. En términos más sencillos, estas emisiones proceden de fuentes externas, como las emisiones asociadas a proveedores y clientes, y están más allá de las operaciones centrales de la empresa.
Un estudio de CDP de 2022 reveló que, para las empresas que informan a CDP, las emisiones que se producen en su cadena de suministro representan una media de 11,4 veces más emisiones que sus emisiones operativas.
El mismo estudio mostró que el 72 % de las empresas que respondieron a CDP declararon únicamente sus emisiones operativas (alcance 1 o 2). Algunas empresas intentan estimar las emisiones de alcance 3 recopilando datos de los proveedores y categorizando manualmente los datos, pero el progreso se ve obstaculizado por retos como la gran base de proveedores, la profundidad de las cadenas de suministro, los complejos procesos de recopilación de datos y las importantes necesidades de recursos.
Un enfoque para estimar las emisiones de alcance 3 es aprovechar los datos de transacciones financieras (por ejemplo, el gasto) como proxy de las emisiones asociadas a bienes o servicios adquiridos. La conversión de estos datos financieros en un inventario de emisiones de GEI requiere información sobre el impacto de las emisiones de GEI del producto o servicio adquirido.
El US Environmentally-Extended Input-Output (USEEIO) es un marco de evaluación del ciclo de vida (LCA) que rastrea los flujos económicos y ambientales de bienes y servicios dentro de los Estados Unidos. El USEEIO ofrece un conjunto de datos y una metodología completos que fusionan el análisis económico de OI con datos medioambientales para estimar las consecuencias medioambientales asociadas a las actividades económicas. Dentro del USEEIO, los bienes y servicios se categorizan en 66 categorías de gasto, denominadas clases de mercancías, basadas en sus características ambientales comunes. Estas clases de productos básicos están asociadas a factores de emisión utilizados para estimar los impactos ambientales utilizando datos de gasto.
El conjunto de datos Eora MRIO (Multi-region input-output) es un conjunto de factores de emisión basados en el gasto reconocido a nivel mundial que documenta las transferencias intersectoriales entre 15 909 sectores en 190 países. El conjunto de factores Eora se ha modificado para alinearse con la categorización USEEIO de 66 clasificaciones resumidas por país. Esto implica mapear los 15 909 sectores que se encuentran en las categorías de Eora26 y clasificaciones sectoriales nacionales más detalladas a las categorías de gastos de la USEEIO 66.
Aquí es donde entran en juego los LLM. En los últimos años, se han logrado avances notables en la creación de amplios modelos lingüísticos básicos para el procesamiento del lenguaje natural (PNL). Estas innovaciones han demostrado un gran rendimiento en comparación con los modelos convencionales de machine learning (ML), sobre todo en escenarios en los que escasean los datos etiquetados. Aprovechar las capacidades de estos grandes modelos de PLN preentrenados, combinados con técnicas de adaptación de dominio que hacen un uso eficiente de datos limitados, presenta un potencial significativo para abordar el desafío asociado con la contabilidad del impacto ambiental de alcance 3.
Nuestro enfoque consiste en ajustar los modelos fundacionales para reconocer las clases de materias primas de Entrada-Salida ambientalmente ampliadas (EEIO) de órdenes de compra o entradas de libro mayor escritas en lenguaje natural. Posteriormente, calculamos las emisiones asociadas al gasto utilizando los factores de emisión EEIO (emisiones por dólar gastado) obtenidos de Supply Chain GHG Emission Factors for US Commodities and Industries para conjuntos de datos centrados en Estados Unidos, y el Eora MRIO (Multi-region input-output) para conjuntos de datos globales. Este marco ayuda a agilizar y simplificar el proceso para que las empresas calculen las emisiones de alcance 3.
La figura 1 ilustra el marco para la estimación de emisiones de alcance 3 empleando un modelo de lenguaje grande. Este marco consta de cuatro módulos distintos: preparación de los datos, adaptación del dominio, clasificación y cálculo de emisiones.
Realizamos extensos experimentos con varios LLM de última generación, como roberta-base, bert-base-uncased y distilroberta-base-climate-f. Además, exploramos modelos clásicos no fundacionales basados en enfoques de vectorización TF-IDF y Word2Vec. Nuestro objetivo era evaluar el potencial de los modelos fundacionales (FM) para estimar las emisiones de alcance 3 utilizando los registros de transacciones financieras como proxy de bienes y servicios. Los resultados experimentales indican que los LLM ajustados presentan mejoras significativas con respecto al enfoque de clasificación zero-shot. Además, superaron a las técnicas clásicas de minería de textos como TF-IDF y Word2Vec, ofreciendo un rendimiento a la par con la clasificación de expertos en dominios.
Emplear un LLM en el proceso de estimación de las emisiones de alcance 3 es un nuevo enfoque prometedor..
Como se explicó anteriormente, los datos de gastos están más disponibles en una organización y son un indicador común de la cantidad de bienes/servicios. Sin embargo, retos como el reconocimiento y la cartografía de productos básicos pueden parecer difíciles de abordar. ¿Por qué?
Aquí es donde los modelos fundacionales basados en deep learning para PLN pueden ser eficientes en una amplia gama de tareas de clasificación de PLN cuando la disponibilidad de datos etiquetados es insuficiente o limitada. El aprovechamiento de grandes modelos PNL preentrenados con adaptación al dominio con datos limitados tiene potencial para apoyar el cálculo de las emisiones de alcance 3.
En conclusión, calcular las emisiones de alcance 3 con el apoyo de LLM representa un avance significativo en la gestión de datos para la sostenibilidad. Los resultados prometedores del empleo de LLM avanzados destacan su potencial para acelerar las evaluaciones de la huella de GEI. La integración práctica en software como IBM Envizi ESG Suite puede simplificar el proceso al tiempo que aumenta la velocidad de obtención de conocimientos.
