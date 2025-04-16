Als Nächstes verwenden wir torchaudiodio.load() , um die Audiodatei als Tensor zu laden und die Samplerate zu extrahieren.

Außerdem müssen wir die zurückgegebene Wellenform von Stereoton in Monoton umwandeln. Dies gelingt uns, indem wir mit „torch.mean()“ den Durchschnitt der Stereo-Tonkanäle bilden.

#Resulting waveform and sample rate waveform, sample_rate = torchaudio.load(audio_path, normalize=True) # convert from stereo to mono mono_waveform = torch.mean(waveform, dim=0, keepdim=True) # confirm the waveform is mono assert mono_waveform.shape[0] == 1 # mono

Als nächstes müssen wir das Monosignal auf die Abtastrate des Modells (16 kHz) umrechnen. Dafür können wir die Resampling-API von Torchaudio verwenden.

# Resample the mono waveform to the model's sample rate resample_transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000) resampled_waveform = resample_transform(mono_waveform)

Schließlich können wir die neu abgetastete Wellenform in Stücke gleicher Größe aufteilen, um sie ins Modell einzuspeisen und die Schlussfolgerung zu erleichtern.

Wir verwenden torch.split() , um die gesamte neu abgetastete Wellenform in Abschnitte von 30 Sekunden und eine Abschnittsgröße von 30 Sekunden * 16 kHz aufzuteilen. Dieser Schritt liefert uns eine Liste von Wellenformen, sogenannten „Chunks“, die jeweils 30 Sekunden Audiodaten enthalten. Wir werden jeden Teil in das Modell einspeisen, um daraus Rückschlüsse zu ziehen.

# Define the desired chunk size chunk_size_seconds = 30 chunk_size_samples = chunk_size_seconds * 16000 # Split the waveform into chunks of equal size chunks = torch.split(resampled_waveform, chunk_size_samples, dim=1)

Schritt 5: Laden und Instanziieren des Granite-Sprachmodells

Jetzt können wir mit der Instanziierung unseres Sprachmodells beginnen.

Wir stellen zuerst unser Torch-Gerät auf CPU ein. Wenn das Gerät auf GPU eingestellt ist, kann es beim Ausführen dieses Notebooks zu Speichermangel-Fehlern kommen, die CPU sollte jedoch in Ihrem watsonx.ai Notebook einwandfrei funktionieren. Wir können dann unseren Prozessor und Tokenizer für das Modell einrichten.

device = 'cpu' model_name = "ibm-granite/granite-speech-3.3-8b" speech_granite_processor = AutoProcessor.from_pretrained( model_name, trust_remote_code=True) tokenizer = speech_granite_processor.tokenizer

Wenn Sie Ihr Notebook auf der watsonx.ai-Plattform betreiben, müssen Sie möglicherweise auch den folgenden Code ausführen, um die Datei adapter_config.json manuell zu bearbeiten. Dadurch wird ein Fehler beim Laden des Modells vermieden.

adapter_config_file = hf_hub_download(model_name, 'adapter_config.json') #load the existing config file and print it with open(adapter_config_file, 'r') as file: data = json.load(file) #remove key, value pairs in config file throwing error keys_to_delete = ['layer_replication', 'loftq_config', 'megatron_config', 'megatron_core', 'use_dora', 'use_rslora'] for key in keys_to_delete: if key in data: del data[key] # write the updated config file back to disk with open(adapter_config_file, 'w') as file: json.dump(data, file, indent=4) with open(adapter_config_file, 'r') as file: data = json.load(file)

Großartig! Jetzt können wir das Modell endlich laden! Wir verwenden AutoModelForSpeechSeq2Seq aus der transformers -Bibliothek und die Methode from_pretrained , um das Modell zu laden.

speech_granite = AutoModelForSpeechSeq2Seq.from_pretrained(model_name, trust_remote_code=True).to(device)

Schritt 6: Erstellen eines ASR-Systems mit dem Granite-Sprachmodell

Nachdem wir das Modell geladen und die Audiodaten vorbereitet haben, können wir es verwenden, um aus Sprache Text zu generieren.

Wir beginnen damit, einen Prompt für das Modell zu erstellen, um die Audiodaten zu transkribieren. Wir verwenden tokenizer.apply_chat_template() , um den Prompt in ein Format zu konvertieren, das dem Modell zugeführt werden kann.

chat = [ { "role": "system", "content": "Knowledge Cutoff Date: April 2025.

Today's Date: April 16, 2025.

You are Granite, developed by IBM. You are a helpful AI assistant", }, { "role": "user", "content": "<|audio|>can you transcribe the speech into a written format?", } ] text = tokenizer.apply_chat_template( chat, tokenize=False, add_generation_prompt=True )

Dann können wir eine leere Liste generated_texts einrichten, um den generierten Text aus jedem Audio-Eingabeabschnitt zu sammeln.

Wir richten eine „for“-Schleife ein, um jeden Audioabschnitt zu durchlaufen und ihn zur Generierung an das Modell zu übergeben. Hier werden wir den Fortschritt der Schleife auch mithilfe einer tqdm -Fortschrittsanzeige verfolgen.

Die Eingaben des Modells werden durch den zuvor eingerichteten speech_granite_processor erzeugt. Der Prozessor nimmt den „Text“ und das „Chunk“ als Eingabe und gibt eine verarbeitete Version der Audiodaten zurück, die das Modell verwenden kann.

Die Modellausgaben werden mithilfe der generate -Methode des Sprachmodells produziert. Von dort aus verwenden wir den Tokenizer , um die Ausgaben in für Menschen lesbaren Text umzuwandeln und die Transkription jedes Abschnitts in unserer Liste zusammenhängend zu speichern.

generated_texts = [] for chunk in tqdm(chunks, desc="Generating transcript..."): model_inputs = speech_granite_processor( text, chunk, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device) # Generate model_outputs = speech_granite.generate( **model_inputs, max_new_tokens=1000, num_beams=1, do_sample=False, min_length=1, top_p=1.0, repetition_penalty=1.0, length_penalty=1.0, temperature=1.0, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id,) num_input_tokens = model_inputs["input_ids"].shape[-1] new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0) output_text = tokenizer.batch_decode( new_tokens, add_special_tokens=False, skip_special_tokens=True)[0] generated_texts.append(output_text)

Da die Block-Transkripte derzeit einzelne Zeichenfolgen in einer Liste sind, werden wir sie mit einem Leerzeichen dazwischen verbinden, um ein zusammenhängendes vollständiges Transkript zu erstellen.

full_transcript = " ".join(generated_texts)

Schritt 7: Das Granite-Instruct-Modell für die Zusammenfassung verwenden

Da wir nun ein vollständiges Transkript haben, verwenden wir dasselbe Modell, um es zusammenzufassen. Wir können direkt von Granite-speech-3.3-8b auf das Granite-3.3-8B-Instruct-Modell zugreifen, indem wir es einfach mit einem Textprompt aufrufen, die das Token <|audio|> nicht enthält.

Wir richten einen neuen Prompt ein, um dieses Modell anzuweisen, eine Zusammenfassung des vollständigen Transkripts zu erstellen. Wir können erneut tokenizer.apply_chat_template() verwenden., um den Prompt zur Modellinferenz zu konvertieren.

conv = [{"role": "user", "content": f"Compose a single, unified summary of the following transcript. Your response should only include the unified summary. Do not provide any further explanation. Transcript:{full_transcript}"}] text = tokenizer.apply_chat_template(conv, tokenize=False, add_generation_prompt=True)

Wir werden erneut speech_granite_processor verwenden, um unsere Eingaben zu erstellen, führen diesmal aber keine Audiodatei zu.

model_inputs = speech_granite_processor( text, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device)

Wir werden die Ausgabe von speech_granite.generate() als Tensor erhalten. Wir können diese Ausgabe mithilfe von tokenizer.decode() in Text umwandeln. Und unsere Abschlusszusammenfassung ausgeben!

output = speech_granite.generate( **model_inputs, max_new_tokens= 2000, # concise summary ) summary = tokenizer.decode(output[0, model_inputs["input_ids"].shape[1]:], skip_special_tokens=True) print(summary)

Ausgabe: