Implementa l'agentic chunking per ottimizzare gli input LLM con Langchain e watsonx.ai

Autore

Lead AI Advocate

Che cos'è l'agentic chunking?

Il modo in cui i modelli linguistici elaborano e segmentano il testo sta cambiando dal tradizionale approccio statico a un processo migliore e più reattivo. A differenza del tradizionale chunking a dimensione fissa, che suddivide documenti di grandi dimensioni in punti fissi, l'agentic chunking utilizza tecniche basate sull'AI per analizzare i contenuti in un processo dinamico e per determinare il modo migliore per segmentare il testo.

L'agentic chunking utilizza metodi di suddivisione del testo basati sull'AI, suddivisione in blocchi ricorsiva e metodi di sovrapposizione dei blocchi, che funzionano contemporaneamente per perfezionare la capacità di suddivisione in blocchi, preservando i collegamenti tra idee importanti e ottimizzando le finestre contestuali in tempo reale. Con l'agentic chunking, ogni chunk è arricchito con metadati per migliorare la precisione del recupero e l'efficienza complessiva del modello. Ciò è particolarmente importante nelle applicazioni RAG, dove la segmentazione dei dati può impattare direttamente sulla qualità del recupero e sulla coerenza della risposta. Il contesto significativo viene preservato in tutte le parti più piccole, il che rende questo approccio incredibilmente importante per i chatbot, le basi di conoscenza e i casi d'uso dell'AI generativa (gen AI). Framework come Langchain o LlamaIndex migliorano ulteriormente l'efficienza del recupero, rendendo questo metodo altamente efficace.

Elementi chiave dell'agentic chunking

1. Strategia di suddivisione adattiva: scegliere dinamicamente il metodo di suddivisione in blocchi migliore in base al tipo di contenuto, all'intento alla base della query e alle esigenze di recupero per garantire una segmentazione efficace.

2. Dimensionamento dinamico dei blocchi: modifica delle dimensioni dei blocchi in tempo reale considerando la struttura semantica e il contesto, invece di attenersi a limiti fissi di token.

3. Sovrapposizione che preserva il contesto: valutare in modo intelligente la sovrapposizione tra i blocchi per mantenere intatta la coerenza ed evitare la perdita di informazioni essenziali, migliorando così l'efficienza di recupero.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Vantaggi dell'agentic chunking rispetto ai metodi tradizionali

L'agentic chunking offre vantaggi rispetto al chunking tradizionale:

a. Mantiene il contesto: conserva le informazioni essenziali senza interruzioni inutili.

b. Dimensionamento intelligente: regola i confini dei blocchi in base al significato e all'importanza.

c. Ottimizzato per le query: perfeziona continuamente i blocchi in modo che corrispondano a domande specifiche.

d. Recupero efficiente: migliora i sistemi di ricerca e RAG riducendo al minimo la frammentazione non necessaria.

In questo tutorial, sperimenterai una strategia di agentic chunking utilizzando il modello IBM Granite-3.0-8B-Instruct ora disponibile su watsonx.ai. L'obiettivo generale è quello di eseguire un chunking efficiente per implementare efficacemente la RAG.

Prerequisito

È necessario un account IBM Cloud per creare un progetto watsonx.ai.

Passaggi

Passaggio 1: configura il tuo ambiente

Sebbene sia possibile scegliere tra diversi strumenti, questo tutorial illustra come configurare un account IBM per l'utilizzo di un Jupyter Notebook.

Accedi a watsonx.ai utilizzando il tuo account IBM Cloud.
Crea un progetto watsonx.ai.
Puoi ottenere l'ID del tuo progetto dall'interno del tuo progetto. Clicca sulla scheda Gestisci. Quindi, copia l'ID del progetto dalla sezione Dettagli della pagina Generali. Per questo tutorial ti serve questo ID.
Crea un Jupyter Notebook.

Questo passaggio apre un ambiente notebook in cui potrai incollare il codice da questo tutorial. In alternativa, puoi scaricare questo notebook sul tuo sistema locale e caricarlo nel tuo progetto watsonx.ai come asset. Per visualizzare altri tutorial su Granite, visita l'IBM Granite Community. Questo Jupyter Notebook insieme ai set di dati utilizzati sono disponibili su GitHub.

Passaggio 2: configura un'istanza di watsonx.ai Runtime e una chiave API

Crea un'istanza di servizio watsonx.ai Runtime (seleziona l'area geografica appropriata e scegli il piano Lite, che è un'istanza gratuita).
Genera una chiave API.
Associa l'istanza del servizio watsonx.ai Runtime al progetto che hai creato in watsonx.ai.

Passaggio 3: installa e importa le librerie pertinenti e configura le tue credenziali

Per questo tutorial avrai bisogno di alcune librerie e moduli. Assicurarsi di importare i seguenti elementi e, se non sono installati, una rapida installazione tramite pip risolverà il problema.

Nota, questo tutorial è stato creato utilizzando Python 3.12.7

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

import getpass
import requests
from bs4 import BeautifulSoup
from langchain_ibm import WatsonxLLM
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain.schema import SystemMessage, HumanMessage
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.prompts import ChatPromptTemplate
from langchain.vectorstores import Chroma
from langchain.tools import tool
from langchain.agents import AgentExecutor
from langchain.memory import ConversationBufferMemory
from transformers import AutoTokenizer
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.chains.combine_documents import create_stuff_documents_chain

Per impostare le nostre credenziali, abbiamo bisogno del "WATSONX_APIKEY" e del "WATSONX_PROJECT_ID". Imposteremo anche l'URL che funge da endpoint dell'API.

load_dotenv(os.getcwd()+"/.env", override=True)
credentials = {
"url": "https://us-south.ml.cloud.ibm.com",
"apikey": os.getenv("WATSONX_APIKEY", ""),
}
project_id = os.getenv("PROJECT_ID", "")

Passaggio 4: inizializza il modello linguistico.

Per questo tutorial, consigliamo di utilizzare il modello IBM Granite-3.0-8B-Instruct come LLM per ottenere risultati simili. Puoi utilizzare liberamente il modello AI che preferisci. I modelli di base disponibili tramite watsonx sono disponibili qui.

llm = WatsonxLLM(
    model_id="ibm/granite-3-8b-instruct",
    url=credentials.get("url"),
    apikey=credentials.get("apikey"),
    project_id=project_id,
    params={
        GenParams.DECODING_METHOD: "greedy",
        GenParams.TEMPERATURE: 0,
        GenParams.MIN_NEW_TOKENS: 5,
        GenParams.MAX_NEW_TOKENS: 250,
        GenParams.STOP_SEQUENCES: ["Human:", "Observation"],
    },
)

Passaggio 5: carica il tuo documento

Questa funzione estrae il contenuto testuale dalla pagina dell'articolo esplicativo di IBM sul machine learning. Questa funzione rimuove gli elementi HTML indesiderati (script, stili) e restituisce un testo pulito e leggibile.

def get_text_from_url(url):
  response = requests.get(url)
  if response.status_code != 200:
  raise ValueError(f"Failed to fetch the page, status code: {response.status_code}")
  soup = BeautifulSoup(response.text, "html.parser")
for script in soup(["script", "style"]):
  script.decompose()
  return soup.get_text(separator="\n", strip=True)

url = "https://www.ibm.com/it-it/think/topics/machine-learning"
web_text = get_text_from_url(url)
web_text

Invece di utilizzare un metodo di chunking a lunghezza fissa, abbiamo utilizzato un LLM per dividere il testo in base al significato. Questa funzione utilizza un LLM per suddividere in modo intelligente il testo in blocchi semanticamente significativi in base agli argomenti.

def agentic_chunking(text):
  """
  Dynamically splits text into meaningful chunks using LLM.
  """
  system_message = SystemMessage(content="You are an AI assistant helping to split text into meaningful chunks based on topics.")

  human_message = HumanMessage(content=f"Please divide the following text into semantically different, separate and meaningful chunks:\n\n{text}")

  response = llm.invoke([system_message, human_message]) # LLM returns a string
  return response.split("\n\n") # Split based on meaningful sections

chunks = agentic_chunking(web_text)
chunks

Stampiamo i blocchi per comprendere meglio la loro struttura di output.

for i, chunk in enumerate(chunks,1):
print(f"Chunk {i}:\n{chunk}\n{'-'*40}")

Ottimo! I blocchi sono stati creati correttamente dagli agenti nell'output.

Passaggio 6: crea un database vettoriale

Ora che abbiamo sperimentato l'agentic chunking del testo, passiamo alla nostra implementazione RAG.

Per questo tutorial, scegliamo i blocchi prodotti dagli agenti e li convertiamo in embedding. Un database vettoriale open source che possiamo utilizzare è Chroma DB. Possiamo accedere facilmente alle funzionalità Chroma attraverso il pacchetto langchain_chroma. Inizializziamo il nostro database vettoriale Chroma, forniamogli il nostro embedding e aggiungiamo i nostri documenti prodotti tramite agentic chunking.

embeddings_model = HuggingFaceEmbeddings(model_name="ibm-granite/granite-embedding-30m-english")

Crea un database vettoriale Chroma

vector_db = Chroma(
collection_name="example_collection",
embedding_function=embeddings_model
)

Converti ogni blocco di testo in un oggetto documento

documents = [Document(page_content=chunk) for chunk in chunks]

Aggiungi i documenti al database vettoriale.

vector_db.add_documents(documents)

Passaggio 7: struttura il modello di prompt

Ora possiamo creare un modello di prompt per il nostro LLM. Questo modello ci consente di porre più domande mantenendo una struttura di prompt coerente. Inoltre, possiamo integrare il nostro archivio vettoriale come retriever, finalizzando il framework RAG.

prompt_template = """<|start_of_role|>user<|end_of_role|>Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.
{context}
Question: {input}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>"""
qa_chain_prompt = PromptTemplate.from_template(prompt_template)
combine_docs_chain = create_stuff_documents_chain(llm, qa_chain_prompt)
rag_chain = create_retrieval_chain(vector_db.as_retriever(), combine_docs_chain)

Fase 8: prompt della catena RAG

Utilizzando questi blocchi agentici nel workflow RAG, iniziamo una query utente. Innanzitutto, possiamo promptare strategicamente il modello senza alcun contesto aggiuntivo dal database vettoriale che abbiamo creato per verificare se il modello utilizza le sue conoscenze integrate o se utilizza realmente il contesto RAG. Utilizzando l'articolo esplicativo del machine learning di IBM, poniamo ora la domanda.

output = llm.invoke("What is Model optimization process")
output

Chiaramente, il modello non è stato addestrato sulle informazioni sul processo di ottimizzazione del modello e, senza strumenti o informazioni esterni, non può fornirci le informazioni corrette. La modello genera allucinazioni. Ora, proviamo a fornire la stessa query alla catena RAG con i blocchi agentici che abbiamo creato.

rag_output = rag_chain.invoke({"input": "What is Model optimization process?"})
rag_output['answer']

Ottimo! Il modello Granite ha utilizzato correttamente i blocchi RAG agentici come contesto per fornirci informazioni corrette sul processo di ottimizzazione del modello preservando la coerenza semantica.

Riepilogo

In questo tutorial, abbiamo generato informazioni pertinenti più piccole utilizzando gli agenti AI nel processo di suddivisione in blocchi e costruito una pipeline di retrieval-augmented generation (RAG).

Questo metodo migliora il recupero delle informazioni e l'ottimizzazione della finestra di contesto utilizzando l'intelligenza artificiale e l'elaborazione del linguaggio naturale (PNL). Semplifica i blocchi di dati per migliorare l'efficienza di recupero sfruttando modelli linguistici di grandi dimensioni (LLM) come i modelli GPT di OpenAI per risultati migliori.

Principali tendenze tecnologiche strategiche per il 2025: agentic AI

Scarica questa ricerca di Gartner per scoprire le potenziali opportunità e i rischi dell'agentic AI per i leader IT e come prepararsi per questa prossima ondata di innovazione.

Risorse

Agenti: watsonx Developer Hub

Inizia a creare e distribuire agenti utilizzando watsonx.ai.

Rapporto Omdia sull'intelligenza potenziata: l'impatto degli agenti AI

Scopri come sbloccare il pieno potenziale della gen AI con gli agenti AI.

Guida all'acquisto degli agenti AI 2025

Immergiti in questa guida completa che analizza i principali casi d'uso, le funzionalità di base e i consigli dettagliati per aiutarti a scegliere le soluzioni giuste per la tua attività.

Tutorial InstructLab

Dai forma all'AI generativa contribuendo agli LLM in modo aperto e accessibile.

Community AI IBM

Unisciti alla community di architect e builder AI per imparare, condividere idee e interagire con gli altri.

Reinventa la produttività aziendale con agenti e assistenti AI

Esplora la differenza tra agenti e assistenti AI e scopri come possono essere un punto di svolta per la produttività aziendale.

Uno sguardo al 2024: innovazioni nel campo dei modelli, degli agenti, dell'hardware e dei prodotti AI

Il 2025 sarà l'anno degli agenti AI? Nell'episodio di oggi di Mixture of Experts, esaminiamo i modelli, gli agenti, l'hardware e le release dei prodotti AI con alcuni dei principali esperti del settore.

Come gli agenti AI reinventeranno la produttività

Scopri come utilizzare l'AI per aumentare la creatività e l'efficienza. Inizia ad adattarti a un futuro che implica la collaborazione a stretto contatto con gli agenti AI.

Soluzioni correlate

Sviluppo di agenti AI IBM

Consenti agli sviluppatori di creare, distribuire e monitorare agenti AI con lo studio IBM watsonx.ai.

Esplora watsonx.ai

Agenti e assistenti AI di IBM

Migliora la produttività con uno dei set di funzionalità più completi del settore che aiuta le aziende a creare, personalizzare e gestire agenti e assistenti AI.

Scopri gli agenti AI

IBM Granite

Ottieni un risparmio sui costi di oltre il 90% con i modelli più piccoli e aperti di Granite, progettati per l'efficienza degli sviluppatori. Questi modelli pensati per le imprese offrono prestazioni eccellenti rispetto ai benchmark di sicurezza e in un'ampia gamma di attività aziendali, dalla cybersecurity alla RAG.

Esplora Granite

Prossimi passi

Automatizza i tuoi workflow complessi e migliora la produttività con uno dei set di funzionalità più completi del settore che aiuta le aziende a creare, personalizzare e gestire agenti e assistenti AI.

Esplora lo sviluppo di agenti watsonx.ai

Scopri watsonx Orchestrate