Das zunehmende Interesse an der Berechnung und Offenlegung von Scope-3-Treibhausgasemissionen hat die Emissionsberechnungsmethoden in den Fokus gerückt. Eine der gängigsten Scope-3-Berechnungsmethoden, die Unternehmen verwenden, ist die ausgabenbasierte Methode, deren Implementierung zeitaufwändig und ressourcenintensiv sein kann. Dieser Artikel erkundet eine innovative Methode zur Optimierung der Schätzung der Scope 3 GHG-Emissionen mithilfe von KI und Large Language Models (LLMs), um Finanztransaktionsdaten zu kategorisieren und an den ausgabenbasierten Emissionsfaktoren abzugleichen.
Scope-3-Emissionen, auch indirekte Emissionen genannt, umfassen Treibhausgasemissionen (THG), die in der Wertschöpfungskette eines Unternehmens auftreten und somit nicht unter dessen direkter operativer Kontrolle oder Eigentum stehen. Einfacher ausgedrückt: Diese Emissionen stammen aus externen Quellen, wie z. B. Emissionen im Zusammenhang mit Lieferanten und Kunden, und liegen außerhalb der Kerntätigkeit des Unternehmens.
Eine CDP-Studie aus dem Jahr 2022 ergab, dass für Unternehmen, die an CDP berichten, die Emissionen in ihrer Lieferkette im Durchschnitt 11,4-mal höher sind als ihre operativen Emissionen.
Dieselbe Studie zeigte, dass 72 % der an der CDP-Umfrage teilnehmenden Unternehmen nur ihre betrieblichen Emissionen (Scope 1 und/oder 2) angaben. Einige Unternehmen versuchen, Scope-3-Emissionen abzuschätzen, indem sie Daten von Lieferanten sammeln und Daten manuell kategorisieren, aber der Fortschritt wird durch Herausforderungen wie eine große Lieferantenbasis, die Tiefe der Lieferketten, komplexe Datenerfassungsprozesse und einen erheblichen Ressourcenbedarf behindert.
Ein Ansatz zur Schätzung von Scope-3-Emissionen besteht darin, Finanztransaktionsdaten (zum Beispiel Ausgaben) als Indikator für Emissionen im Zusammenhang mit gekauften Gütern und/oder Dienstleistungen zu nutzen. Die Umwandlung dieser Finanzdaten in einen Bestand an THG-Emissionsdaten erfordert Informationen über die Auswirkungen der THG-Emissionen des erworbenen Produkts oder der Dienstleistung.
Das US Environmentally-Extended Input-Output (USEEIO) ist ein Framework zur Lebenszyklusbewertung (LCA), das die ökonomischen und ökologischen Ströme von Gütern und Dienstleistungen innerhalb der Vereinigten Staaten nachzeichnet. USEEIO bietet einen umfassenden Datensatz und eine Methodik, die ökonomische Input-Output-Analysen mit Umweltdaten verknüpft, um die mit wirtschaftlichen Aktivitäten verbundenen Umweltfolgen abzuschätzen. Innerhalb von USEEIO werden Waren und Dienstleistungen anhand ihrer gemeinsamen Umweltmerkmale in 66 categories, sogenannte Warenklassen, eingeteilt. Diese Rohstoffklassen sind mit Emissionsfaktoren verknüpft, die zur Schätzung der Umweltauswirkungen anhand von Ausgabendaten verwendet werden.
Der Eora MRIO (Multi-region input-output) Datensatz ist ein weltweit anerkannter ausgabenbasierter Emissionsfaktorensatz, der die intersektoralen Transfers zwischen 15.909 Sektoren in 190 Ländern dokumentiert. Der Eora-Faktorensatz wurde modifiziert, um ihn an die USEEIO-Kategorisierung von 66 zusammenfassenden Klassifizierungen pro Land anzupassen. Dies beinhaltet die Zuordnung der 15.909 Sektoren, die in den Eora26 categories und detaillierteren nationalen Sektorklassifizierungen enthalten sind, zu den USEEIO 66 spend categories.
Hier kommen LLMs ins Spiel. In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Entwicklung umfangreicher Grundlagen-Sprachmodelle für natürliche Sprachverarbeitung (NLP) erzielt. Diese Innovationen haben im Vergleich zu herkömmlichen Modellen des maschinellen Lernens (ML) eine starke Leistung gezeigt, insbesondere in Szenarien, in denen gelabelte Daten knapp sind. Die Nutzung der Funktionen dieser großen, vortrainierten NLP-Modelle in Kombination mit Techniken zur Domänenanpassung, die eine effiziente Nutzung begrenzter Daten ermöglichen, birgt ein erhebliches Potenzial für die Bewältigung der Herausforderung, die mit der Bilanzierung der Umweltauswirkungen von Scope 3 verbunden ist.
Unser Ansatz besteht darin, Foundation-Modelle so abzustimmen, dass sie Environmentally-Extended Input-Output (EEIO)-Warenklassen von Bestellungen oder Hauptbucheinträgen erkennen, die in natürlicher Sprache verfasst sind. Anschließend berechnen wir die mit den Ausgaben verbundenen Emissionen unter Verwendung von EEIO-Emissionsfaktoren (Emissionen pro ausgegebenem Dollar), die aus Supply Chain GHG Emission Factors for US Commodities and Industries für US-zentrierte Datensätze und dem Eora MRIO (Multi-region input-output) für globale Datensätze stammen. Mit diesem Framework können Unternehmen die Berechnung der Scope-3-Emissionen vereinfachen und optimieren.
Abbildung 1 veranschaulicht das Framework für die Schätzung von Scope-3-Emissionen anhand eines großen Sprachmodells. Dieses Rahmenwerk umfasst vier verschiedene Module: Datenvorbereitung, Domänenanpassung, Klassifikation und Emissionsberechnung.
Wir führten umfangreiche Experimente mit mehreren hochmodernen LLMs durch, darunter roberta-base, bert-base-uncased und distilroberta-base-climate-f. Zusätzlich erkundeten wir nicht-fundamentale klassische Modelle, die auf TF-IDF- und Word2Vec-Vektorisierungsansätzen basieren. Unser Ziel war es, das Potenzial von Foundation Models (FM) bei der Schätzung von Scope-3-Emissionen anhand von Finanztransaktionsdatensätzen als Ersatz für Waren und Dienstleistungen zu beurteilen. Die experimentellen Ergebnisse deuten darauf hin, dass feinabgestimmte LLMs deutliche Verbesserungen gegenüber dem Zero-Shot-Klassifizierungsansatz aufweisen. Darüber hinaus übertrafen sie klassische Text-Mining-Techniken wie TF-IDF und Word2Vec und erzielten eine Leistung, die mit der Klassifizierung durch Experten vergleichbar ist.
Der Einsatz von LLMs bei der Schätzung von Scope-3-Emissionen ist ein vielversprechender neuer Ansatz..
Wie bereits erklärt, sind Ausgabendaten in einem Unternehmen leichter verfügbar und ein gängige Annäherung an die Menge der Waren/Dienstleistungen. Herausforderungen wie Rohstofferkennung und -kartierung können jedoch schwer zu bewältigen erscheinen. Aber warum ist das so?
Hier können auf Deep Learning basierende Foundation Models für NLP bei einer breiten Palette von NLP-Klassifizierungsaufgaben effizient sein, wenn nicht ausreichend gelabelte Daten zur Verfügung stehen. Große, vortrainierte NLP-Modelle mit Domänenanpassung mit begrenzten Daten können die Berechnung der Scope-3-Emissionen unterstützen.
Zusammenfassend lässt sich sagen, dass die Berechnung der Scope-3-Emissionen mit Unterstützung von LLMs einen bedeutenden Fortschritt in der Datenverwaltung für die Nachhaltigkeit darstellt. Die vielversprechenden Ergebnisse des Einsatzes fortschrittlicher LLMs unterstreichen deren Potenzial zur Beschleunigung von Treibhausgas-Fußabdruckbewertungen. Die praktische Integration in Software wie die IBM Envizi ESG Suite kann den Prozess vereinfachen und gleichzeitig die Geschwindigkeit der Erkenntnisgewinnung erhöhen.
