O prompting multimodal com cadeia de pensamentos expande a estrutura do prompting com cadeia de pensamentos para incorporar entradas de diversas modalidades, como texto e imagens, permitindo que o modelo processe e integre diferentes tipos de informações para tarefas complexas de raciocínio.6

Por exemplo, ao apresentar uma imagem de uma praia lotada e perguntar: "Essa praia provavelmente é popular no verão?", um modelo que utiliza prompting multimodal com cadeia de pensamentos poderia analisar pistas visuais (incluindo ocupação da praia, condições climáticas e outros fatores), juntamente com seu conhecimento textual sobre popularidade sazonal, para formular uma resposta detalhada, como: "A praia está lotada, indicando alta popularidade, o que provavelmente aumentará ainda mais no verão."



Essas variantes do prompting com cadeia de pensamentos não apenas demonstram a flexibilidade e adaptabilidade dessa abordagem, mas também sugerem um vasto potencial para futuros avanços na capacidade de raciocínio e resolução de problemas da IA.