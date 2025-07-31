Es ist an der Zeit, die Inferenz durchzuführen. Die Inferenz wird durch die HuggingFace-Generierung unterstützt, die eine „model.generate()“- Methode zur Textgenerierung mittels PyTorch bereitstellt.

Dieses Tutorial zeigt, wie man dem Basismodell eine medizinische Frage aus dem MedReason-Datensatz stellt. Wahrscheinlich kann das Basismodell diese Frage nicht beantworten, da es sich um ein Modell mit allgemeinem Verwendungszweck handelt, das mit großen und heterogenen Datensätzen trainiert wurde.

Richten Sie zunächst die Inferenzkonfigurationen ein:

# setup inference configurations args = dict( model_name_or_path="ibm-granite/granite-3.3-2b-instruct", # use IBM Granite 3.3 2b instruct model template="granite3", # set to the same one used in training, template for constructing prompts infer_backend="huggingface" # choices： [huggingface, vllm] ) # create inference config file to run with llama factory with open("inference_config.yaml", "w", encoding="utf-8") as file: yaml.dump(args, file, indent=2)

Jetzt stellen Sie dem Chatbot eine der Fragen aus dem MedReason-Datensatz:

from llamafactory.chat import ChatModel chat_model = ChatModel(args) messages = [] # run inference chatbot question = ''' A 1-year-old girl is brought to a neurologist due to increasing seizure frequency over the past 2 months. She recently underwent a neurology evaluation which revealed hypsarrhythmia on electroencephalography (EEG) with a mix of slow waves, multifocal spikes, and asynchrony. Her parents have noticed the patient occasionally stiffens and spreads her arms at home. She was born at 38-weeks gestational age without complications. She has no other medical problems. Her medications consist of lamotrigine and valproic acid. Her temperature is 98.3\u00b0F (36.8\u00b0C), blood pressure is 90/75 mmHg, pulse is 94/min, and respirations are 22/min. Physical exam reveals innumerable hypopigmented macules on the skin and an irregularly shaped, thickened, and elevated plaque on the lower back. Which of the following is most strongly associated with this patient's condition?" "A": "Cardiac rhabdomyoma", "B": "Glaucoma", "C": "Optic glioma", "D": "Polyostotic fibrous dysplasia" '''

Erstellen Sie einen neuen Prompt mit der Frage und übergeben Sie ihn an das Basismodell:

messages.append({"role": "user", "content": question}) response = "" for new_text in chat_model.stream_chat(messages): response += new_text print(response) messages.append({"role": "assistant", "content": response})

Hier sehen Sie die Beispielausgabe des Granite 3.3-Basismodells:

Benutzer:

Antwort:

The most strongly associated condition with this patient's condition is "C": "Optic glioma". The patient's symptoms of hypsarrhythmia on EEG, seizure frequency increase, and the presence of hypopigmented macules and a thickened plaque on the lower back are indicative of a neurological disorder. Optic glioma is a type of brain tumor that can present with these symptoms, including seizures and visual disturbances. Option A, "Cardiac rhabdomyoma", typically presents with cardiac involvement and is not associated with the described EEG findings or skin manifestations. Option B, "Glaucoma", is an eye disease that can lead to vision loss but is not associated with the EEG findings or skin lesions described. Option D, "Polyostotic fibrous dysplasia", is a bone disorder characterized by multiple bone lesions and is not associated with the neurological symptoms and EEG findings presented. Therefore, based on the clinical presentation, the most likely diagnosis is an optic glioma.

Die korrekte Antwort aus dem Datensatz lautet:

answer: Cardiac rhabdomyoma

Das Basismodell liefert also nicht die richtige Antwort.

Inferenz mit dem feinabgestimmten LoRA-Adapter

Wir vergleichen die Ergebnisse, indem wir sie mit dem Basismodell und dem LoRA-optimierten Adapter ausführen. Anschließend stellen wir dieselbe Frage, um zu sehen, inwiefern die Anpassung an den Rechtsdatensatz es dem Modell ermöglichte, medizinische Fragen besser zu verstehen und zu beantworten.

Die folgende Zelle ist nicht erforderlich, wenn Sie LoRA in derselben Sitzung ausgeführt haben. Wenn Sie jedoch zum Jupyter Notebook zurückkehren und das Training nicht erneut durchführen möchten, können Sie die feinabgestimmten Adapter von Ihrer COS-Instanz herunterladen.

download_file_cos(credentials, "granite3_lora.zip", "granite3_lora.zip") !unzip granite3_lora.zip

Jetzt konfigurieren Sie die Optionen für das ChatModel, damit es die Adapter einbezieht.

# setup inference configurations args = dict( model_name_or_path="ibm-granite/granite-3.3-2b-instruct", # use IBM Granite 3.3 2b instruct model adapter_name_or_path="granite3_lora", # load the saved LoRA adapters template="granite3", # set to the same one used in training, template for constructing prompts finetuning_type="lora", # which fine-tuning technique used in training infer_backend="huggingface" # choices： [huggingface, vllm] ) # create inference config file to run with llama factory with open("inference_config.yaml", "w", encoding="utf-8") as file: yaml.dump(args, file, indent=2) from llamafactory.chat import ChatModel chat_model = ChatModel(args)

Jetzt können wir dieselbe Denkaufgabe auch dem feinabgestimmten Modell stellen:

messages = [] # run inference chatbot question = ''' A 1-year-old girl is brought to a neurologist due to increasing seizure frequency over the past 2 months. She recently underwent a neurology evaluation which revealed hypsarrhythmia on electroencephalography (EEG) with a mix of slow waves, multifocal spikes, and asynchrony. Her parents have noticed the patient occasionally stiffens and spreads her arms at home. She was born at 38-weeks gestational age without complications. She has no other medical problems. Her medications consist of lamotrigine and valproic acid. Her temperature is 98.3\u00b0F (36.8\u00b0C), blood pressure is 90/75 mmHg, pulse is 94/min, and respirations are 22/min. Physical exam reveals innumerable hypopigmented macules on the skin and an irregularly shaped, thickened, and elevated plaque on the lower back. Which of the following is most strongly associated with this patient's condition?" "A": "Cardiac rhabdomyoma", "B": "Glaucoma", "C": "Optic glioma", "D": "Polyostotic fibrous dysplasia" '''

Erstellen Sie ein neues Prompt mit der Frage und leiten sie an das feinabgestimmte Modell weiter:

messages.append({"role": "user", "content": question}) response = "" for new_text in chat_model.stream_chat(messages): response += new_text print(response) messages.append({"role": "assistant", "content": response}) Cardiac rhabdomyoma

Beispielausgabe aus dem feinabgestimmten Modell:

Benutzer:

Antwort:

Cardiac rhabdomyoma

Diesmal erzeugte das Modell dank des trainierten Adapters tatsächlich die richtige Antwort.

Ein Aspekt, den es zu beachten gilt: Das Modell reagiert nicht mehr mit seiner Schlussfolgerung. Dieses Ergebnis ist darauf zurückzuführen, dass der für LoRA verwendete Datensatz als erwartete Modellausgabe nur die richtige Antwort enthält. Die LoRA-Feinabstimmung kann nicht nur dazu verwendet werden, neue Informationen zu liefern, sondern auch, um dem Modell Anweisungen zu geben, wie es reagieren soll.