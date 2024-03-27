O crescente interesse no cálculo e na divulgação das emissões de GEE do escopo 3 lançou os holofotes sobre os métodos de cálculo de emissões. Uma das metodologias de cálculo do escopo 3 mais comuns que as organizações utilizam é o método baseado em gastos, que pode consumir muito tempo e recursos para implementar. Este artigo explora uma maneira inovadora de simplificar a estimativa das emissões de GEE do escopo 3, aproveitando a IA e os grandes modelos de linguagem (LLMs) para ajudar a categorizar os dados de transações financeiras e alinhá-los aos fatores de emissões baseados em gastos.
As emissões do Escopo 3, também chamadas de emissões indiretas, abrangem as emissões de gases de efeito estufa (GEE) que ocorrem na cadeia de valor de uma organização e, portanto, não estão sob seu controle operacional direto ou propriedade. Em termos mais simples, essas emissões surgem de fontes externas, como emissões associadas a fornecedores e clientes, e estão além das operações principais da empresa.
Um estudo do CDP de 2022 constatou que, para empresas que reportam ao CDP, as emissões que ocorrem em sua cadeia de suprimentos representam em média 11,4 vezes mais emissões do que suas emissões operacionais.
O mesmo estudo mostrou que 72% das empresas que responderam ao CDP relataram apenas suas emissões operacionais (Escopo 1 e/ou 2). Algumas empresas tentam estimar as emissões do Escopo 3 coletando dados de fornecedores e categorizando manualmente os dados, mas o progresso é prejudicado por desafios como grande base de fornecedores, profundidade das cadeias de suprimentos, processos complexos de coleta de dados e exigências de recursos substanciais.
Uma abordagem para estimar as emissões do escopo 3 é aproveite dados de transações financeiras (por exemplo, gastos) como substitutos para emissões associadas a bens e/ou serviços adquiridos. A conversão desses dados financeiros em inventário de emissões de GEE requer informações sobre o impacto das emissões de GHG do produto ou serviço adquirido.
O Input-Output Ambientalmente Estendido dos EUA (USEEIO) é um framework de avaliação do ciclo de vida (LCA) que rastreia fluxos econômicos e ambientais de bens e serviços dentro dos Estados Unidos. A USEEIO oferece um conjunto de dados abrangente e uma metodologia que mescla a análise econômica de IO com dados ambientais para estimar as consequências ambientais associadas às atividades econômicas. Dentro da USEEIO, os bens e serviços são categorizados em 66 categorias, referidas como classes de commodities, com base em suas características ambientais comuns. Essas classes de commodities estão associadas a fatores de emissão usados para estimar impactos ambientais usando dados de despesas.
O conjunto de dados Eora MRIO (input-output multirregional) é um conjunto de fatores de emissão baseados em gastos reconhecidos globalmente que documenta as transferências intersetoriais entre 15.909 setores em 190 países. O conjunto de fatores Eora foi modificado para se alinhar à categorização USEEIO de 66 classificações resumidas por país. Isso envolve mapear os 15.909 setores encontrados nas categorias Eora26 e classificações de setores nacionais mais detalhadas para as categorias de gastos do USEEIO.
É aqui que os LLMs entram em ação. Nos últimos anos, avanços notáveis foram alcançados na elaboração de modelos de linguagem de base abrangentes para processamento de linguagem natural (PLN). Essas inovações demonstraram um forte desempenho em comparação com os modelos convencionais de aprendizado de máquina (ML), particularmente em cenários com escassez de dados rotulados. Capitalizar os recursos desses grandes modelos de PLN pré-treinados, combinado com técnicas de adaptação de domínio que fazem uso eficiente de dados limitados, apresenta um potencial significativo para enfrentar o desafio associado à contabilização do impacto ambiental do Escopo 3.
Nossa abordagem envolve o ajuste fino modelos de base para reconhecer classes de mercadorias de Entrada-Saída Ambientalmente Estendidas (EEIO) de pedidos de compra ou lançamentos contábeis escritos em linguagem natural. Em seguida, calculamos as emissões associadas aos gastos usando os fatores de emissão EEIO (emissões por dólar gasto) provenientes do Fatores de Emissão de Gases de Efeito Estufa da Cadeia de Suprimentos para Commodities e Setores dos EUA para conjuntos de dados centrados nos EUA, e o Eora MRIO (Multi-região input-input) para conjuntos de dados globais. Esse framework ajuda a simplificar o processo para as empresas calcularem as emissões do escopo 3.
A figura 1 ilustra o framework para a estimativa de emissões do escopo 3 empregando um grande modelo de linguagem. Esse framework compreende quatro módulos distintos: preparação de dados, adaptação de domínio, classificação e computação de emissão.
Conduzimos experimentos extensivos envolvendo vários LLMs de ponta, incluindo roberta-base, bert-base-uncased e distilroberta-base-climate-f. Além disso, exploramos modelos clássicos não-fundação baseados em abordagens de vetorização TF-IDF e Word2Vec. Nosso objetivo era avaliar o potencial dos modelos de base (FM) na estimativa das emissões do escopo 3 usando registros de transações financeiras como indicadores para bens e serviços. Os resultados experimentais indicam que os LLMs ajustados apresentam melhorias significativas em relação à abordagem de classificação zero-shot. Além disso, eles superaram as técnicas clássicas de mineração de texto, como TF-IDF e Word2Vec, proporcionando um desempenho equivalente à classificação de especialistas em domínio.
Empregar LLMs no processo de estimativa de emissões do Escopo 3 é uma nova abordagem promissora.
Conforme explicado anteriormente, os dados de gastos estão mais prontamente disponíveis em uma organização e são um indicador comum da quantidade de bens/serviços. No entanto, desafios como reconhecimento e mapeamento de commodities podem parecer difíceis de lidar. Por quê?
É aqui que os modelos de base baseados em deep learning para PLN podem ser eficientes em uma ampla gama de tarefas de classificação de PLN quando a disponibilidade de dados rotulados é insuficiente ou limitada. O uso de grandes modelos de PNL pré-treinados com adaptação de domínio com dados limitados tem potencial para auxiliar no cálculo de emissões do escopo 3.
Concluindo, o cálculo das emissões do escopo 3 com o apoio de LLMs representa um avanço significativo no gerenciamento de dados para a sustentabilidade. Os resultados promissores do emprego de LLMs avançados destacam seu potencial para acelerar as avaliações da pegada de carbono de GEE. A integração prática com softwares como o IBM Envizi ESG Suite pode simplificar o processo e aumentar a velocidade do insight.
