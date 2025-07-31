이제 추론을 실행할 차례입니다. 추론은 PyTorch를 사용하여 텍스트 생성을 위한 model.generate() 메서드를 제공하는 HuggingFace 생성을 통해 뒷받침됩니다.

이 튜토리얼에서는 기본 모델에 MedReason 데이터 세트에서 가져온 의료 관련 질문을 하는 방법을 보여 줍니다. 기본 모델은 대규모의 다양한 데이터 세트에서 학습된 범용 모델이기 때문에 이 질문에 답하지 못하는 것은 당연합니다.

먼저 추론 구성을 설정합니다.

# setup inference configurations args = dict( model_name_or_path="ibm-granite/granite-3.3-2b-instruct", # use IBM Granite 3.3 2b instruct model template="granite3", # set to the same one used in training, template for constructing prompts infer_backend="huggingface" # choices： [huggingface, vllm] ) # create inference config file to run with llama factory with open("inference_config.yaml", "w", encoding="utf-8") as file: yaml.dump(args, file, indent=2)

이제 챗봇에게 MedReason 데이터 세트의 질문 중 하나를 물어봅니다.

from llamafactory.chat import ChatModel chat_model = ChatModel(args) messages = [] # run inference chatbot question = ''' A 1-year-old girl is brought to a neurologist due to increasing seizure frequency over the past 2 months. She recently underwent a neurology evaluation which revealed hypsarrhythmia on electroencephalography (EEG) with a mix of slow waves, multifocal spikes, and asynchrony. Her parents have noticed the patient occasionally stiffens and spreads her arms at home. She was born at 38-weeks gestational age without complications. She has no other medical problems. Her medications consist of lamotrigine and valproic acid. Her temperature is 98.3\u00b0F (36.8\u00b0C), blood pressure is 90/75 mmHg, pulse is 94/min, and respirations are 22/min. Physical exam reveals innumerable hypopigmented macules on the skin and an irregularly shaped, thickened, and elevated plaque on the lower back. Which of the following is most strongly associated with this patient's condition?" "A": "Cardiac rhabdomyoma", "B": "Glaucoma", "C": "Optic glioma", "D": "Polyostotic fibrous dysplasia" '''

질문을 사용하여 새 메시지를 만들어 기본 모델에 전달합니다.

messages.append({"role": "user", "content": question}) response = "" for new_text in chat_model.stream_chat(messages): response += new_text print(response) messages.append({"role": "assistant", "content": response})

다음은 기본 Granite 3.3 모델의 샘플 아웃풋입니다.

사용자:

응답:

The most strongly associated condition with this patient's condition is "C": "Optic glioma". The patient's symptoms of hypsarrhythmia on EEG, seizure frequency increase, and the presence of hypopigmented macules and a thickened plaque on the lower back are indicative of a neurological disorder. Optic glioma is a type of brain tumor that can present with these symptoms, including seizures and visual disturbances. Option A, "Cardiac rhabdomyoma", typically presents with cardiac involvement and is not associated with the described EEG findings or skin manifestations. Option B, "Glaucoma", is an eye disease that can lead to vision loss but is not associated with the EEG findings or skin lesions described. Option D, "Polyostotic fibrous dysplasia", is a bone disorder characterized by multiple bone lesions and is not associated with the neurological symptoms and EEG findings presented. Therefore, based on the clinical presentation, the most likely diagnosis is an optic glioma.

데이터 세트의 올바른 응답은 다음과 같습니다.

answer: Cardiac rhabdomyoma

따라서 기본 모델은 올바른 답을 생성하지 않습니다.

LoRA 미세 조정된 어댑터로 추론

기본 모델과 LoRA 조정된 어댑터로 실행하여 결과를 비교합니다. 그런 다음 동일한 질문을 통해 법률 데이터 세트를 사용하여 모델이 의료 문제를 더 잘 이해하고 이에 대한 답을 얻을 수 있는 방법을 살펴봅니다.

동일한 세션에서 LoRA를 수행한 경우 다음 셀이 필요하지 않습니다. 하지만 Jupyter Notebook으로 돌아가 재학습을 원하지 않는 경우 COS 인스턴스에서 미세 조정된 어댑터를 다운로드할 수 있습니다.

download_file_cos(credentials, "granite3_lora.zip", "granite3_lora.zip") !unzip granite3_lora.zip

이제 어댑터를 통합할 수 있도록 ChatModel에 대한 옵션을 구성합니다.

# setup inference configurations args = dict( model_name_or_path="ibm-granite/granite-3.3-2b-instruct", # use IBM Granite 3.3 2b instruct model adapter_name_or_path="granite3_lora", # load the saved LoRA adapters template="granite3", # set to the same one used in training, template for constructing prompts finetuning_type="lora", # which fine-tuning technique used in training infer_backend="huggingface" # choices： [huggingface, vllm] ) # create inference config file to run with llama factory with open("inference_config.yaml", "w", encoding="utf-8") as file: yaml.dump(args, file, indent=2) from llamafactory.chat import ChatModel chat_model = ChatModel(args)

이제 미세 조정된 모델에 대해 동일한 추론 과제를 테스트할 수 있습니다.

질문을 사용하여 새 메시지를 만들고 미세 조정된 모델에 전달합니다.

messages.append({"role": "user", "content": question}) response = "" for new_text in chat_model.stream_chat(messages): response += new_text print(response) messages.append({"role": "assistant", "content": response}) Cardiac rhabdomyoma

미세 조정된 모델의 샘플 아웃풋:

사용자:

응답:

Cardiac rhabdomyoma

이번에는 학습된 어댑터 덕분에 모델이 정답을 생성했습니다.

한 가지 주목할 점은 모델이 더 이상 추론으로 응답하지 않는다는 것입니다. 이 결과는 LoRa에 사용된 데이터 세트가 예상 모델 아웃풋으로 정답만 가지고 있기 때문입니다. LoRA 미세 조정은 새로운 정보를 제공할 뿐만 아니라 모델에 응답 방법을 지시하는 데에도 사용할 수 있습니다.