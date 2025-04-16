بعد ذلك، سنستخدم 'torchaudiodio.load()` لتحميل الملف الصوتي على هيئة موتر واستخراج معدل العينة.

سنحتاج أيضًا إلى تحويل الشكل الموجي الناتج من صوت الاستريو إلى صوت أحادي. ويمكننا فعل ذلك بأخذ متوسط قنوات صوت الاستريو باستخدام "torch.mean()".

#Resulting waveform and sample rate waveform, sample_rate = torchaudio.load(audio_path, normalize=True) # convert from stereo to mono mono_waveform = torch.mean(waveform, dim=0, keepdim=True) # confirm the waveform is mono assert mono_waveform.shape[0] == 1 # mono

بعد ذلك، نحتاج إلى إعادة تشكيل الشكل الموجي الأحادي إلى معدل العينة في النموذج: 16 كيلو هرتز. يمكننا استخدام واجهة برمجة التطبيقات الخاصة بإعادة التشكيل في torchaudio لتحقيق ذلك.

# Resample the mono waveform to the model's sample rate resample_transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000) resampled_waveform = resample_transform(mono_waveform)

وأخيرًا، يمكننا تقسيم الشكل الموجي المعاد تشكيله إلى أجزاء متساوية الحجم لدمجها في النموذج لتسهيل الاستنتاج.

سنستخدم 'torch.split()' لتقسيم الشكل الموجي المعاد تشكيله بالكامل إلى أجزاء من 30 ثانية ويكون حجم عينة كل جزء يساوي 30 ثانية * 16 كيلو هرتز. ستقدم لنا هذه الخطوة قائمة بالأشكال الموجية، "الأجزاء"، كل منها يحتوي على 30 ثانية من البيانات الصوتية. سندمج كل جزء في النموذج من أجل الاستنتاج.

# Define the desired chunk size chunk_size_seconds = 30 chunk_size_samples = chunk_size_seconds * 16000 # Split the waveform into chunks of equal size chunks = torch.split(resampled_waveform, chunk_size_samples, dim=1)

الخطوة 5: تحميل وإنشاء نسخة من نموذج الكلام من Granite

الآن يمكننا البدء في إنشاء نسخة من نموذج الكلام.

سنعيّن أولاً جهاز torch ليعمل على وحدة المعالجة المركزية. إذا كان الجهاز مضبوطًا على وحدة معالجة الرسومات، فقد تواجه أخطاء نفاد الذاكرة عند تشغيل هذا الدفتر، لكن يجب أن تعمل وحدة المعالجة المركزية بشكل جيد على دفتر watsonx.ai. يمكننا بعد ذلك إعداد المعالج والرمز الخاص بالنموذج.

device = 'cpu' model_name = "ibm-granite/granite-speech-3.3-8b" speech_granite_processor = AutoProcessor.from_pretrained( model_name, trust_remote_code=True) tokenizer = speech_granite_processor.tokenizer

في حال تشغيل دفتر ملاحظاتك على منصة watsonx.ai، قد تحتاج أيضًا إلى تشغيل التعليمات البرمجية التالية لتعديل ملف 'adapter_config.json' يدويًا. سيؤدي هذا إلى تجنب حدوث خطأ عند تحميل النموذج.

adapter_config_file = hf_hub_download(model_name, 'adapter_config.json') #load the existing config file and print it with open(adapter_config_file, 'r') as file: data = json.load(file) #remove key, value pairs in config file throwing error keys_to_delete = ['layer_replication', 'loftq_config', 'megatron_config', 'megatron_core', 'use_dora', 'use_rslora'] for key in keys_to_delete: if key in data: del data[key] # write the updated config file back to disk with open(adapter_config_file, 'w') as file: json.dump(data, file, indent=4) with open(adapter_config_file, 'r') as file: data = json.load(file)

رائع، الآن يمكننا أخيرًا تحميل النموذج! سنستخدم "AutoModelForSpeechSeq2Seq" من مكتبة "transformers" وطريقة "from_pretrained" لتحميل النموذج.

speech_granite = AutoModelForSpeechSeq2Seq.from_pretrained(model_name, trust_remote_code=True).to(device)

الخطوة 6: إنشاء نظام التعرف التلقائي على الكلام باستخدام نموذج الكلام من Granite

الآن بعد تحميل النموذج وتجهيز البيانات الصوتية، يمكننا استخدامه لتوليد نص من الكلام.

سوف نبدأ بإنشاء موجِّه للنموذج لتفريغ البيانات الصوتية. سنستخدم 'tokenizer.apply_chat_template()' لتحويل الموجِّه إلى تنسيق يمكن إدخاله في النموذج.

chat = [ { "role": "system", "content": "Knowledge Cutoff Date: April 2025.

Today's Date: April 16, 2025.

You are Granite, developed by IBM. You are a helpful AI assistant", }, { "role": "user", "content": "<|audio|>can you transcribe the speech into a written format?", } ] text = tokenizer.apply_chat_template( chat, tokenize=False, add_generation_prompt=True )

ثم، يمكننا إعداد قائمة فارغة 'generated_texts' لجمع النص المُنشَأ من كل جزء من المدخلات الصوتية.

لقد أعددنا حلقة "for" لعرض كل جزء صوتي وتمريره إلى النموذج من أجل التوليد. وعندئذٍ، سنتتبع أيضًا تقدم الحلقة باستخدام شريط تقدم "tqdm".

تُنشأ إدخالات النموذج من خلال 'speech_granite_processor' الذي أنشأناه سابقًا. يأخذ المعالج text و chunk كمدخلات ويعيد النسخة المعالجة من البيانات الصوتية ليستخدمها النموذج.

تُنتج مخرجات النموذج باستخدام طريقة "generate" من نموذج الكلام. وعندئذٍ، نستخدم 'tokenizer' لتحويل مخرجات النماذج إلى نص يمكن للبشر قراءته وتخزين تفريغات كل جزء في قائمة 'generated_texts'.

generated_texts = [] for chunk in tqdm(chunks, desc="Generating transcript..."): model_inputs = speech_granite_processor( text, chunk, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device) # Generate model_outputs = speech_granite.generate( **model_inputs, max_new_tokens=1000, num_beams=1, do_sample=False, min_length=1, top_p=1.0, repetition_penalty=1.0, length_penalty=1.0, temperature=1.0, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id,) num_input_tokens = model_inputs["input_ids"].shape[-1] new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0) output_text = tokenizer.batch_decode( new_tokens, add_special_tokens=False, skip_special_tokens=True)[0] generated_texts.append(output_text)

بما أن النسخ النصية للأجزاء هي حاليًا سلاسل فردية في قائمة، سنربط السلاسل معًا مع وجود مسافة بينها لتكوين نسخة نصية كاملة متماسكة.

full_transcript = " ".join(generated_texts)

الخطوة 7: استخدام نموذج تعليمات Granite من أجل التلخيص

الآن بعد أن حصلنا على نسخة نصية كاملة، سنستخدم النموذج نفسه لتلخيصها. يمكننا الوصول إلى نموذج Granite-3.3-8B-Instruct مباشرةً من Granite-speech-3.3-8b ببساطة عن طريق استدعائه عبر موجِّه نصي لا يحتوي على رمز '<|audio|>'.

سنجهز موجِّهًا جديدًا لتوجيه هذا النموذج إلى توليد ملخص للنسخة النصية كاملة. يمكننا استخدام "tokenizer.apply_chat_template()" مرة أخرى لتحويل الموجِّه من أجل استنتاج النموذج.

conv = [{"role": "user", "content": f"Compose a single, unified summary of the following transcript. Your response should only include the unified summary. Do not provide any further explanation. Transcript:{full_transcript}"}] text = tokenizer.apply_chat_template(conv, tokenize=False, add_generation_prompt=True)

سنستخدم 'speech_granite_processor' مرة أخرى لإنشاء إدخالات النموذج، لكننا لن نمرر أي ملف صوتي هذه المرة.

model_inputs = speech_granite_processor( text, device=device, # Computation device; returned tensors are put on CPU return_tensors="pt", ).to(device)

سنتلقى الإخراج من “speech_granite.generate()' على شكل موتر. يمكننا تحويل هذا الإخراج إلى نص باستخدام "tokenizer.decode()". واطبع ملخصنا النهائي!

output = speech_granite.generate( **model_inputs, max_new_tokens= 2000, # concise summary ) summary = tokenizer.decode(output[0, model_inputs["input_ids"].shape[1]:], skip_special_tokens=True) print(summary)

النتيجة: