Tabela de variâncias



Em cada etapa t, a imagem é ligeiramente deslocada de sua iteração na etapa anterior (pela média), e é adicionado ruído a essa versão deslocada da imagem (de acordo com a variância). A magnitude de cada deslocamento e a adição de ruído são determinados pelo valor de β t : como β t aumenta de acordo com a tabela de variâncias, a taxa de difusão aumenta constantemente como resultado. β é sempre um valor entre 0 e 1: portanto, 0 < β 1 < β 2 < … < β T < 1.

Escolher uma tabela de variâncias específica para β é uma consideração importante. Geralmente é definida manualmente como um hiperparâmetro, seja fixado a um valor constante ou procedendo de acordo com alguma fórmula com um valor inicial e final predeterminados para β. No artigo do DDPM, Ho et al usaram uma tabela linear com 1.000 etapas em que β 1 = 10-4 e β T = 0,02. Pesquisas posteriores descobriram melhorias no desempenho e na eficiência com outros tipos de tabelas, como uma tabela de cossenos,[1] ou tornando a tabela em si outro parâmetro aprendido.[2]

O valor de β t determina a média e a variância do ruído gaussiano adicionado na etapa t.

A média μ do ruído gaussiano adicionado na etapa de tempo t, μ t , é calculada como μ t = ( 1 - β t ) X t - 1 . Em linguagem simples, a média do ruído adicionado em cada etapa t é simplesmente uma versão em escala da imagem da etapa anterior, xt-1. O tamanho de βt determina o quanto essa média se desvia da etapa anterior: quando βt é muito pequeno, esse deslocamento é muito pequeno, pois ( 1 - β t ) ≈ ( 1 - 0 ) ≈ 1 — e o ruído adicionado, assim, se assemelharão muito à imagem original. À medida que o valor de β t aumenta, esse deslocamento se torna mais significativo.





Resumindo, em cada etapa t, a imagem é ligeiramente deslocada de sua iteração na etapa anterior (de acordo com a média), e o ruído é adicionado a essa versão deslocada da imagem (de acordo com a variância). A magnitude de cada deslocamento e a adição de ruído são determinadas pelo valor de β t : à medida que β t aumenta de acordo com a tabela de variâncias, a taxa de difusão aumenta constantemente como resultado.

Como a adição de ruído gaussiano começa gradualmente, e o ruído em si é sempre derivado da estrutura essencial da imagem original na etapa anterior, as qualidades essenciais da imagem original são retidas por muitas etapas. Isso permite que o modelo aprenda de forma significativa os padrões e a estrutura da distribuição de dados original durante o processo de difusão reversa.