Precisa de ajuda compreender a saída de construção de uma árvore de classificação

votos
0

Eu estou praticando fazer árvores de decisão utilizando o pacote chamado 'árvore'.

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

A saída deste é:

node), split, n, deviance, yval, (yprob)
      * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.508643 353  415.10 MM ( 0.27479 0.72521 )  
     4) LoyalCH < 0.277977 161  112.80 MM ( 0.11180 0.88820 )  
       8) LoyalCH < 0.035047 55    0.00 MM ( 0.00000 1.00000 ) *
       9) LoyalCH > 0.035047 106   96.58 MM ( 0.16981 0.83019 ) *
     5) LoyalCH > 0.277977 192  260.10 MM ( 0.41146 0.58854 )  
      10) PriceDiff < 0.195 84   84.62 MM ( 0.20238 0.79762 )  
        20) SpecialCH < 0.5 67   49.01 MM ( 0.11940 0.88060 ) *
        21) SpecialCH > 0.5 17   23.51 CH ( 0.52941 0.47059 ) *
      11) PriceDiff > 0.195 108  147.30 CH ( 0.57407 0.42593 ) *
   3) LoyalCH > 0.508643 447  348.80 CH ( 0.86801 0.13199 )  
     6) LoyalCH < 0.764572 189  214.20 CH ( 0.74603 0.25397 )  
      12) PriceDiff < -0.165 33   43.26 MM ( 0.36364 0.63636 ) *
      13) PriceDiff > -0.165 156  143.70 CH ( 0.82692 0.17308 )  
        26) PriceDiff < 0.265 86   99.88 CH ( 0.73256 0.26744 ) *
        27) PriceDiff > 0.265 70   30.66 CH ( 0.94286 0.05714 ) *
     7) LoyalCH > 0.764572 258   90.94 CH ( 0.95736 0.04264 ) *

Eu entendo que as linhas com asteriscos na árvore são nós terminais. Eu estou lutando para acompanhar as outras coisas. Usando linha 7 como um exemplo, eu sei que LoyalCH> 0,764572 'é onde as divisões de árvore de decisão e ramos para o nodo terminal, e CH é o valor qualitativo do nó terminal onde os clientes são maiores do que 76,4572% leal ao CH (o dados é pré-carregado com o pacote ISLR, CH é uma marca de suco). Estou assumindo 258 é suposto ser o número de pontos de dados que acabam em que o nó terminal. Eu sei que 90,94 é suposto para descrever bondade de ajuste para o modelo, mas eu estou um pouco confuso sobre o conceito de desvio. É um valor mais elevado do desvio ruim? Does 90,94 indicam que é um ajuste mais fraco? Quanto aos números entre parênteses, estou a entender que 0,95736 é a probabilidade de cada ponto de dados neste ramo escolher CH?

Publicado 19/03/2020 em 22:06
fonte usuário
Em outras línguas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more