nó Amostra

É possível utilizar os nós Amostra para selecionar um subconjunto de registros para análise ou para especificar uma proporção de registros a serem descartados. Vários tipos de amostra são suportados, incluindo amostras estratificadas, em cluster e não aleatórias (estruturadas)..

A amostragem pode ser utilizada por vários motivos:

  • Para melhorar o desempenho ao estimar modelos em um subconjunto dos dados. Os modelos que são estimados de uma amostra geralmente são tão precisos quanto os modelos derivados do conjunto de dados completo. E eles podem ser ainda mais precisos se você puder usar o desempenho melhorado para experimentar mais métodos do que você poderia tentar de outra forma.
  • Para selecionar grupos de registros ou transações relacionados para análise, como selecionar todos os itens em um carrinho de compras on-line (ou de uma cesta de mercado), ou todas as propriedades em uma vizinhança específica.
  • Para identificar unidades ou casos para inspeção aleatória no interesse de garantia de qualidade, de prevenção da fraude ou de segurança.
Nota: se você simplesmente deseja particionar dados em amostras de treinamento e de teste para fins de validação, um nó de Partição poderá ser utilizado. Para obter mais informações, consulte Nó de Partição

Tipos de amostras

Amostras em cluster. Grupos ou clusters de amostra ao invés de unidades individuais. Por exemplo, suponha que você tenha um arquivo de dados com um registro por estudante. Se você agrupar por escola e o tamanho da amostra for 50%, então 50% das escolas serão escolhidas e todos os alunos de cada uma das escolas selecionadas serão escolhidos. Os alunos das outras escolas são ignoradas. Em média, você esperaria que cerca de 50% dos alunos fossem escolhidos, mas como as escolas variam em tamanho, a porcentagem pode não ser exata. Da mesma forma, é possível armazenar em cluster itens do carrinho de compras por ID de transação para assegurar que todos os itens das transações selecionadas sejam mantidos.

Amostras estratificadas. Selecione amostras de modo independente em subgrupos não sobrepostos da população ou em camadas. Por exemplo, é possível assegurar que a amostra de homens e mulheres seja obtida em proporções iguais ou que cada região ou grupo socioeconômico em uma população urbana seja representado. Também é possível especificar um tamanho de amostra diferente para cada estrato (por exemplo, se você achar que um grupo está sub-representado nos dados originais).

Amostragem sistemática ou 1 em n. Quando a seleção aleatória é difícil de obter, as unidades podem ser amostradas sistematicamente (em um intervalo fixo) ou sequencialmente.

Pesos de amostragem. As ponderações de amostragem são calculadas automaticamente ao desenhar uma amostra complexa e quase correspondem à "frequência" que cada unidade amostrada representa nos dados originais. Portanto, a soma das ponderações sobre a amostra deve estimar o tamanho dos dados originais.

Quadro de amostragem

Um quadro de amostragem define a fonte potencial de casos a serem incluídos em uma amostra ou estudo. Às vezes, é possível identificar cada membro de uma população e incluir qualquer um deles em uma amostra, por exemplo, ao amostrar itens que saem da linha de produção. Mais frequentemente, você não é capaz de acessar cada caso possível. Por exemplo, você não pode ter certeza de quem votará em uma eleição até que a eleição aconteça. Nesse caso, você poderia usar o registro eleitoral como seu quadro de amostragem, mesmo que algumas pessoas registradas não votem. E algumas pessoas podem votar apesar de não terem sido listadas no momento em que você verificou o registro. Quem não estiver no quadro de amostragem não tem perspectiva de ter amostra obtida. Se seu quadro de amostragem é próximo o suficiente por natureza da população que você está tentando avaliar é uma questão que deve ser abordada para cada caso real.