Modelo de conteúdo de estatísticas de coluna e modelo de conteúdo de estatísticas pairwise
O modelo de conteúdo de estatísticas de coluna fornece acesso a estatísticas que podem ser calculadas para cada campo (estatísticas univariadas). O modelo de conteúdo de estatísticas pairwise fornece acesso a estatísticas que podem ser calculadas entre pares de campos ou valores em um campo.
Qualquer uma destas medidas estatísticas é possível:
CountUniqueCountValidCountMeanSumMinMaxRangeVarianceStandardDeviationStandardErrorOfMeanSkewnessSkewnessStandardErrorKurtosisKurtosisStandardErrorMedianModePearsonCovarianceTTestFTest
Alguns valores são apropriados apenas a partir de estatísticas de coluna única, ao passo que outros são apropriados apenas para estatísticas de pares.
Os nós que produzem esses dados são:
- O Nó de estatísticas produz estatísticas de coluna e pode produzir estatísticas de pares quando os campos de correlação são especificados
- O Nó Auditoria de Dados produz estatísticas de coluna e pode produzir estatísticas de pares quando um campo de sobreposição é especificado.
- O Nó Médias produz estatísticas de pares quando compara pares de campos ou compara os valores de um campo com outros resumos de campo.
Os modelos de conteúdo e as estatísticas disponíveis dependem tanto das capacidades específicas do nó quanto das configurações dentro do nó.
| Método | Tipos de retornos | Descrição |
|---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Retorna as estatísticas disponíveis nesse modelo. Nem todos os campos têm necessariamente valores para todas as estatísticas. |
getAvailableColumns() |
List<String> |
Retorna os nomes das colunas para as quais as estatísticas foram calculadas. |
getStatistic(String column, StatisticType statistic) |
Number |
Retorna os valores estatísticos associados à coluna. |
reset() |
void |
Limpa qualquer armazenamento interno associado a este modelo de conteúdo. |
| Método | Tipos de retornos | Descrição |
|---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Retorna as estatísticas disponíveis nesse modelo. Nem todos os campos têm necessariamente valores para todas as estatísticas. |
getAvailablePrimaryColumns() |
List<String> |
Retorna os nomes de colunas primárias para as quais as estatísticas foram calculadas. |
getAvailablePrimaryValues() |
List<Object> |
Retorna os valores de colunas primárias para as quais as estatísticas foram calculadas. |
getAvailableSecondaryColumns() |
List<String> |
Retorna os nomes de colunas secundárias para as quais as estatísticas foram calculadas. |
getStatistic(String primaryColumn, String secondaryColumn, StatisticType
statistic) |
Number |
Retorna os valores estatísticos associados às colunas. |
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn,
StatisticType statistic) |
Number |
Retorna os valores de estatística associados ao valor da coluna primária e da coluna secundária. |
reset() |
void |
Limpa qualquer armazenamento interno associado a este modelo de conteúdo. |
Nós e saídas
Esta tabela lista os nós que criam saídas que incluem este tipo de modelo de conteúdo.
| Nome do nó | Nome da saída | ID do Contêiner | Notas |
|---|---|---|---|
"means" (nó Médias) |
"means" |
"columnStatistics" |
|
"means" (nó Médias) |
"means" |
"pairwiseStatistics" |
|
"dataaudit" (nó Auditoria de Dados) |
"means" |
"columnStatistics" |
|
"statistics" (nó Estatísticas) |
"statistics" |
"columnStatistics" |
Gerado apenas quando campos específicos são examinados. |
"statistics" (nó Estatísticas) |
"statistics" |
"pairwiseStatistics" |
Gerado apenas quando campos específicos são correlacionados. |
Script de exemplo
from modeler.api import StatisticType
stream = modeler.script.stream()
# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")
# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)
results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
cols = statscm.getAvailableColumns()
stats = statscm.getAvailableStatistics()
print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])
statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
pcols = statscm.getAvailablePrimaryColumns()
scols = statscm.getAvailableSecondaryColumns()
stats = statscm.getAvailableStatistics()
corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr