Modelo de conteúdo de estatísticas de coluna e modelo de conteúdo de estatísticas pairwise

O modelo de conteúdo de estatísticas de coluna fornece acesso a estatísticas que podem ser calculadas para cada campo (estatísticas univariadas). O modelo de conteúdo de estatísticas pairwise fornece acesso a estatísticas que podem ser calculadas entre pares de campos ou valores em um campo.

Qualquer uma destas medidas estatísticas é possível:

  • Count
  • UniqueCount
  • ValidCount
  • Mean
  • Sum
  • Min
  • Max
  • Range
  • Variance
  • StandardDeviation
  • StandardErrorOfMean
  • Skewness
  • SkewnessStandardError
  • Kurtosis
  • KurtosisStandardError
  • Median
  • Mode
  • Pearson
  • Covariance
  • TTest
  • FTest

Alguns valores são apropriados apenas a partir de estatísticas de coluna única, ao passo que outros são apropriados apenas para estatísticas de pares.

Os nós que produzem esses dados são:

  • O Nó de estatísticas produz estatísticas de coluna e pode produzir estatísticas de pares quando os campos de correlação são especificados
  • O Nó Auditoria de Dados produz estatísticas de coluna e pode produzir estatísticas de pares quando um campo de sobreposição é especificado.
  • O Nó Médias produz estatísticas de pares quando compara pares de campos ou compara os valores de um campo com outros resumos de campo.

Os modelos de conteúdo e as estatísticas disponíveis dependem tanto das capacidades específicas do nó quanto das configurações dentro do nó.

Tabela 1. Métodos para o modelo de conteúdo Estatísticas da coluna
Método Tipos de retornos Descrição
getAvailableStatistics() List<StatisticType> Retorna as estatísticas disponíveis nesse modelo. Nem todos os campos têm necessariamente valores para todas as estatísticas.
getAvailableColumns() List<String> Retorna os nomes das colunas para as quais as estatísticas foram calculadas.
getStatistic(String column, StatisticType statistic) Number Retorna os valores estatísticos associados à coluna.
reset() void Limpa qualquer armazenamento interno associado a este modelo de conteúdo.
Tabela 2. Métodos para o modelo de conteúdo Pairwise Statistics
Método Tipos de retornos Descrição
getAvailableStatistics() List<StatisticType> Retorna as estatísticas disponíveis nesse modelo. Nem todos os campos têm necessariamente valores para todas as estatísticas.
getAvailablePrimaryColumns() List<String> Retorna os nomes de colunas primárias para as quais as estatísticas foram calculadas.
getAvailablePrimaryValues() List<Object> Retorna os valores de colunas primárias para as quais as estatísticas foram calculadas.
getAvailableSecondaryColumns() List<String> Retorna os nomes de colunas secundárias para as quais as estatísticas foram calculadas.
getStatistic(String primaryColumn, String secondaryColumn, StatisticType statistic) Number Retorna os valores estatísticos associados às colunas.
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn, StatisticType statistic) Number Retorna os valores de estatística associados ao valor da coluna primária e da coluna secundária.
reset() void Limpa qualquer armazenamento interno associado a este modelo de conteúdo.

Nós e saídas

Esta tabela lista os nós que criam saídas que incluem este tipo de modelo de conteúdo.

Tabela 3. Nós e saídas
Nome do nó Nome da saída ID do Contêiner Notas
"means" (nó Médias) "means" "columnStatistics"  
"means" (nó Médias) "means" "pairwiseStatistics"  
"dataaudit" (nó Auditoria de Dados) "means" "columnStatistics"  
"statistics" (nó Estatísticas) "statistics" "columnStatistics" Gerado apenas quando campos específicos são examinados.
"statistics" (nó Estatísticas) "statistics" "pairwiseStatistics" Gerado apenas quando campos específicos são correlacionados.

Script de exemplo

from modeler.api import StatisticType
stream = modeler.script.stream()

# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")

# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)

results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
	cols = statscm.getAvailableColumns()
	stats = statscm.getAvailableStatistics()
	print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])

statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
	pcols = statscm.getAvailablePrimaryColumns()
	scols = statscm.getAvailableSecondaryColumns()
	stats = statscm.getAvailableStatistics()
	corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
	print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr