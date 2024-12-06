Carica ora il modello di recupero per la R del RAG. Usa ColBERTv2 per caricare gli estratti dal set di dati Wikipedia 2017. ColBert è un modello di recupero rapido e accurato, che consente una ricerca scalabile basata su BERT su grandi raccolte di testo in decine di millisecondi. ColBERT è semplicemente una delle tante opzioni che possono essere utilizzate per recuperare informazioni da un database vettoriale. È paragonabile ad altri database vettoriali come Qdrant, Milvus, Pinecone, Chroma o Weaviate.

I database vettoriali conterranno un insieme specifico di informazioni a cui il modello linguistico potrà accedere rapidamente. In questo caso, utilizzerà una serie di abstract di Wikipedia 2017 per fornire un'ampia gamma di dati che il tuo modello linguistico potrà utilizzare durante la generazione. Questa combinazione di ColBert e del set di dati Wiki 17 è particolarmente utile, perché una versione è ospitata gratuitamente dal team di DSpy per essere utilizzata da chiunque. Fornisce l'accesso a un'ampia gamma di informazioni senza richiedere di inserire dati o creare un proprio sistema di database vettoriale. Uno svantaggio di questo set di dati è che non contiene nulla sugli eventi successivi al 2017, tuttavia ai fini della dimostrazione è molto utile.

Se vuoi eseguire una versione di ColBERT con i tuoi dati o un set di dati aggiornato, qui trovi dei tutorial utili.

Carica quindi il set di dati HotPotQA e dividilo in set di addestramento e test che puoi usare per testare la tua catena di recupero. HotpotQA è un set di dati di risposta alle domande che contiene domande naturali e multi-hop, con una forte supervisione dei fatti di supporto, al fine di fornire sistemi di risposta alle domande più spiegabili.

colbertv2_wiki17_abstracts = dspy.ColBERTv2(url=’http://20.102.90.50:2017/wiki17_abstracts’)

dspy.configure(rm=colbertv2_wiki17_abstracts)