다음으로 torchaudiodio.load() 를 사용해 오디오 파일을 텐서로 로드하고 샘플링 속도를 추출합니다.

또한 반환된 파형을 스테레오 사운드에서 모노 사운드로 변환해야 합니다. 이를 위해 torch.mean() 을 사용하여 스테레오 사운드 채널의 평균을 계산하면 됩니다.

#Resulting waveform and sample rate waveform, sample_rate = torchaudio.load(audio_path, normalize=True) # convert from stereo to mono mono_waveform = torch.mean(waveform, dim=0, keepdim=True) # confirm the waveform is mono assert mono_waveform.shape[0] == 1 # mono

다음으로, 모노 파형을 모델의 샘플링 속도인 16kHz로 리샘플링해야 합니다. 이를 위해 torchaudio의 리샘플링 API를 사용할 수 있습니다.

# Resample the mono waveform to the model's sample rate resample_transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000) resampled_waveform = resample_transform(mono_waveform)

마지막으로, 리샘플링된 파형을 동일한 크기의 청크로 나누어 모델에 입력하면, 추론이 보다 수월해집니다.

torch.split() 을 사용해 리샘플링된 전체 파형을 30초 단위 청크로 분할하며, 각 청크의 샘플 수는 30초 * 16kHz로 설정합니다. 이 단계에서는 각 파형의 chunks 목록을 얻을 수 있으며, 각 청크에는 30초간의 오디오 데이터가 포함되어 있습니다. 각 청크를 모델에 입력하여 추론을 수행합니다.

# Define the desired chunk size chunk_size_seconds = 30 chunk_size_samples = chunk_size_seconds * 16000 # Split the waveform into chunks of equal size chunks = torch.split(resampled_waveform, chunk_size_samples, dim=1)

5단계: Granite 음성 모델 로드 및 인스턴스화

이제 음성 모델 인스턴스화를 시작할 수 있습니다.

먼저 torch device를 CPU로 설정합니다. 장치가 GPU로 설정된 경우 이 노트북을 실행할 때 메모리 부족 오류가 발생할 수 있지만, CPU는 watsonx.ai 노트북에서 정상적으로 작동할 것입니다. 그 후 모델에 사용할 프로세서와 토크나이저를 설정할 수 있습니다.

device = 'cpu' model_name = "ibm-granite/granite-speech-3.3-8b" speech_granite_processor = AutoProcessor.from_pretrained( model_name, trust_remote_code=True) tokenizer = speech_granite_processor.tokenizer

watsonx.ai 플랫폼에서 노트북을 실행하는 경우, 다음 코드를 실행하여 `adapter_config.json' 파일을 수동으로 편집해야 할 수도 있습니다. 이렇게 하면 모델을 로드할 때 오류가 발생하지 않습니다.

adapter_config_file = hf_hub_download(model_name, 'adapter_config.json') #load the existing config file and print it with open(adapter_config_file, 'r') as file: data = json.load(file) #remove key, value pairs in config file throwing error keys_to_delete = ['layer_replication', 'loftq_config', 'megatron_config', 'megatron_core', 'use_dora', 'use_rslora'] for key in keys_to_delete: if key in data: del data[key] # write the updated config file back to disk with open(adapter_config_file, 'w') as file: json.dump(data, file, indent=4) with open(adapter_config_file, 'r') as file: data = json.load(file)

좋습니다. 이제 모델을 로드할 수 있습니다! transformers 라이브러리의 AutoModelForSpeechSeq2Seq 와 from_pretrained 메서드를 사용하여 모델을 로드하겠습니다.

speech_granite = AutoModelForSpeechSeq2Seq.from_pretrained(model_name, trust_remote_code=True).to(device)

6단계: Granite 음성 모델로 ASR 시스템 만들기

모델을 로드하고 오디오 데이터를 준비했으니, 이제 이를 사용하여 음성에서 텍스트를 생성할 수 있습니다.

먼저 모델이 오디오 데이터를 전사할 수 있는 프롬프트를 생성하는 것으로 시작하겠습니다. tokenizer.apply_chat_template() 을 사용해 프롬프트를 모델에 입력할 수 있는 형식으로 변환합니다.

chat = [ { "role": "system", "content": "Knowledge Cutoff Date: April 2025.

Today's Date: April 16, 2025.

You are Granite, developed by IBM. You are a helpful AI assistant", }, { "role": "user", "content": "<|audio|>can you transcribe the speech into a written format?", } ] text = tokenizer.apply_chat_template( chat, tokenize=False, add_generation_prompt=True )

그런 다음, 빈 목록 generated_texts 를 설정하여 각 오디오 입력 청크에서 생성된 텍스트를 수집할 수 있습니다.

각 오디오 청크를 반복하고 모델에 전달하여 생성하도록 for 반복문을 설정했습니다. 여기에서는 tqdm 진행률 표시줄을 사용하여 반복문의 진행 상황도 확인합니다.

모델 입력은 이전에 설정한 speech_granite_processor 를 통해 생성됩니다. 프로세서는 text 와 chunk 를 입력으로 받아, 모델이 사용할 오디오 데이터를 처리한 버전을 반환합니다.

모델 출력은 음성 모델의 generate 메서드를 사용하여 생성됩니다. 그런 다음 tokenizer 를 사용하여 모델 아웃풋을 사람이 읽을 수 있는 텍스트로 변환하고, 각 청크의 전사본을 generated_texts 목록에 저장합니다.

generated_texts = [] for chunk in tqdm(chunks, desc="Generating transcript..."): model_inputs = speech_granite_processor( text, chunk, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device) # Generate model_outputs = speech_granite.generate( **model_inputs, max_new_tokens=1000, num_beams=1, do_sample=False, min_length=1, top_p=1.0, repetition_penalty=1.0, length_penalty=1.0, temperature=1.0, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id,) num_input_tokens = model_inputs["input_ids"].shape[-1] new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0) output_text = tokenizer.batch_decode( new_tokens, add_special_tokens=False, skip_special_tokens=True)[0] generated_texts.append(output_text)

청크 전사본은 현재 목록의 개별 문자열이므로 문자열을 사이에 공백으로 연결하여 하나의 일관된 전체 전사본을 만듭니다.

full_transcript = " ".join(generated_texts)

7단계: Granite instruct 모델을 사용하여 요약하기

전체 스크립트를 작성했으니, 이제 동일한 모델을 사용하여 요약하겠습니다. < |audio| > 토큰을 포함하지 않는 텍스트 프롬프트로 호출하면 Granite-speech-3.3-8b를 통해 Granite-3.3-8B-Instruct 모델에 직접 액세스할 수 있습니다.

이 모델에 전체 전사본의 요약을 생성하도록 지시하는 새 프롬프트를 설정합니다. tokenizer.apply_chat_template()`를 다시 사용해 모델 추론을 위한 프롬프트를 변환합니다.

conv = [{"role": "user", "content": f"Compose a single, unified summary of the following transcript. Your response should only include the unified summary. Do not provide any further explanation. Transcript:{full_transcript}"}] text = tokenizer.apply_chat_template(conv, tokenize=False, add_generation_prompt=True)

speech_granite_processor 를 다시 사용하여 모델 입력을 생성하되, 이번에는 오디오 파일을 전달하지 않습니다.

model_inputs = speech_granite_processor( text, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device)

speech_granite.generate() 의 아웃풋을 텐서로 받습니다. tokenizer.decode() 를 사용하여 이 출력을 텍스트로 변환하고 최종 요약을 출력할 수 있습니다!

output = speech_granite.generate( **model_inputs, max_new_tokens= 2000, # concise summary ) summary = tokenizer.decode(output[0, model_inputs["input_ids"].shape[1]:], skip_special_tokens=True) print(summary)

아웃풋: