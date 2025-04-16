接下来，我们将使用 torchaudiodio.load() 将音频文件加载为张量并提取采样率。我们还需要将返回的波形从立体声转换为单声道。我们可以通过使用 torch.mean() 取立体声声道的平均值来实现。

#Resulting waveform and sample rate waveform, sample_rate = torchaudio.load(audio_path, normalize=True) # convert from stereo to mono mono_waveform = torch.mean(waveform, dim=0, keepdim=True) # confirm the waveform is mono assert mono_waveform.shape[0] == 1 # mono

接下来，我们需要对单声道波形进行重采样，达到模型的采样率：16 khz。我们可以使用 torchaudio 的重采样 API 来完成此操作。

# Resample the mono waveform to the model's sample rate resample_transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000) resampled_waveform = resample_transform(mono_waveform)

最后，我们可以将重采样的波形分割为大小相等的区块，以便更轻松地输入模型进行推理。

我们将使用 torch.split() 把完整的重采样波形分割成 30 秒的区块，并且每个区块的采样点数等于 30 秒乘以 16 khz。这一步将为我们提供一个波形列表，即“区块”，其中每个区块包含 30 秒的音频数据。我们会将每个区块输入模型以进行推理。

# Define the desired chunk size chunk_size_seconds = 30 chunk_size_samples = chunk_size_seconds * 16000 # Split the waveform into chunks of equal size chunks = torch.split(resampled_waveform, chunk_size_samples, dim=1)

##第 5 步：加载并实例化 Granite 语音模型

现在我们可以开始实例化我们的语音模型了。我们首先将 Torch 设备设置为 CPU。如果设备设置为 GPU，在运行此笔记本时可能会遇到内存不足错误，但 CPU 在您的 watsonx.ai 笔记本上应该可以正常工作。然后，我们可以为模型设置处理器和分词器。

device = 'cpu' model_name = "ibm-granite/granite-speech-3.3-8b" speech_granite_processor = AutoProcessor.from_pretrained( model_name, trust_remote_code=True) tokenizer = speech_granite_processor.tokenizer

如果您在 watsonx.ai 平台上运行笔记本时，可能还需要运行以下代码来手动编辑 adapter_config.json 文件。这样将避免在加载模型时出错。

adapter_config_file = hf_hub_download(model_name, 'adapter_config.json') #load the existing config file and print it with open(adapter_config_file, 'r') as file: data = json.load(file) #remove key, value pairs in config file throwing error keys_to_delete = ['layer_replication', 'loftq_config', 'megatron_config', 'megatron_core', 'use_dora', 'use_rslora'] for key in keys_to_delete: if key in data: del data[key] # write the updated config file back to disk with open(adapter_config_file, 'w') as file: json.dump(data, file, indent=4) with open(adapter_config_file, 'r') as file: data = json.load(file)

很好，现在我们终于可以加载模型了！我们将使用 transformers 库中的 AutoModelForSpeechSeq2Seq 和 from_pretrained 方法来加载模型。

speech_granite = AutoModelForSpeechSeq2Seq.from_pretrained(model_name, trust_remote_code=True).to(device)

第 6 步：使用 Granite 语音模型创建 ASR 系统

现在，我们已加载了模型并准备好音频数据，可以使用它来将语音生成文本了。首先，我们将为模型创建提示，以转录音频数据。我们将使用 tokenizer.apply_chat_template() 将提示转换为可以输入模型的格式。

chat = [ { "role": "system", "content": "Knowledge Cutoff Date: April 2025.

Today's Date: April 16, 2025.

You are Granite, developed by IBM. You are a helpful AI assistant", }, { "role": "user", "content": "<|audio|>can you transcribe the speech into a written format?", } ] text = tokenizer.apply_chat_template( chat, tokenize=False, add_generation_prompt=True )

然后，我们可以设置一个空列表 generated_texts ，用于收集每个音频输入区块生成的文本。我们设置了一个 for 循环来迭代每个音频区块，并将其传递给模型用于生成。在这里，我们还将使用 tqdm 进度条跟踪循环的进度。模型输入是通过我们之前建立的 speech_granite_processor 创建的。处理器将 text 和 chunk 作为输入，并返回音频数据的处理版本以供模型使用。

模型输出是使用语音模型的 generate 方法生成的。接着，我们使用 tokenizer 将模型输出转换为人类可读的文本，并将每个区块的转录文本存储到我们的 generated_texts 列表中。

generated_texts = [] for chunk in tqdm(chunks, desc="Generating transcript..."): model_inputs = speech_granite_processor( text, chunk, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device) # Generate model_outputs = speech_granite.generate( **model_inputs, max_new_tokens=1000, num_beams=1, do_sample=False, min_length=1, top_p=1.0, repetition_penalty=1.0, length_penalty=1.0, temperature=1.0, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id,) num_input_tokens = model_inputs["input_ids"].shape[-1] new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0) output_text = tokenizer.batch_decode( new_tokens, add_special_tokens=False, skip_special_tokens=True)[0] generated_texts.append(output_text)

由于区块的转录文本目前是列表中的单个字符串，我们会用空格将这些字符串连接起来，形成一个连贯的完整文字稿。

full_transcript = " ".join(generated_texts)

第 7 步：使用 Granite 指令模型进行总结

现在我们有了完整的文字稿，我们将使用相同的模型对其进行总结。我们可以访问 Granite-3.3-8B-Instruct 模型，即通过调用不包含 <|audio|> 令牌的文本提示直接从 Granite-speech-3.3-8b 来实现。我们将设置一个新提示，以指示该模型生成完整记录的摘要。我们可以再次使用 tokenizer.apply_chat_template() 来转换用于模型推理的提示。

conv = [{"role": "user", "content": f"Compose a single, unified summary of the following transcript. Your response should only include the unified summary. Do not provide any further explanation. Transcript:{full_transcript}"}] text = tokenizer.apply_chat_template(conv, tokenize=False, add_generation_prompt=True)

我们将再次使用 speech_granite_processor 来创建模型输入，但这次我们不会传入任何音频文件。

model_inputs = speech_granite_processor( text, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device)

我们将接收来自 speech_granite.generate() 的作为张量的输出。我们可以通过使用 tokenizer.decode() 将此输出转换为文本。然后打印我们的最终摘要！

output = speech_granite.generate( **model_inputs, max_new_tokens= 2000, # concise summary ) summary = tokenizer.decode(output[0, model_inputs["input_ids"].shape[1]:], skip_special_tokens=True) print(summary)

输出：