Stata: análise de dados e software estatístico Kenneth Higbee, StataCorp Vou ilustrar o que está acontecendo com um exemplo simples, usando regressão. Exploraremos as hipóteses testadas à medida que mudamos o nível base (omitido) quando ocorremos uma interação em um modelo simples de dois fatores. Para este exemplo simples, cada fator tem apenas dois níveis. A conclusão chave é que, apesar do que alguns podem acreditar, o teste de um único coeficiente em um modelo de regressão quando as interações estão no modelo depende da escolha dos níveis de base. Mudando de uma base para outra, muda a hipótese. Além disso, a hipótese de um teste envolvendo um único coeficiente de regressão geralmente não é a mesma que a hipótese testada por um teste ANOVA F de um efeito principal de um fator. Isso pode ser contra-intuitivo à primeira vista, mas é verdade. Pegue os seguintes dados: temos uma tabela 2 vezes 2 com datamdash não balanceado, tamanhos de amostra diferentes (4, 3, 2 e 8) em cada célula. Referiremos a tabela 2 vezes 2 acima e comparamos seus valores e meios com aqueles em outras tabelas de regressão. Essas comparações podem nos ajudar a entender melhor as hipóteses que estão sendo testadas. Letrsquos começa por pensar na matriz de design superdimensionada X. Queremos calcular os coeficientes de regressão b inv (XX) (Xy), mas, devido às colinearidades em X (A1 A2 cons. B1 B2 contras), muitas das colunas de X devem ser omitidas para ter uma matriz de classificação completa que Podemos inverter. Ou a coluna A1 ou A2 precisa ser omitida (ou possivelmente os contras), mas letrsquos não explorar isso agora). A coluna que omitimos corresponde ao que chamamos de nível base para esse fator. Da mesma forma, para B1 e B2mdashone devem ser omitidos para evitar a colinearidade com a constante. Das quatro colunas de X para a interação A by B, três delas devem ser omitidas (dado que estamos mantendo uma das colunas A, uma das colunas B e contras). Poderíamos optar por omitir o primeiro nível de A e B (as colunas A1 e B1 de X) e as colunas correspondentes a AB que coincidem com essas seleções (neste caso, as primeiras 3 colunas da parte de X para AB ). O comando acima é equivalente a Statarsquos padrão de escolher o primeiro nível para ser a base quando você simplesmente digita ou ainda mais sucintamente. Em todos os casos de regressão nesta FAQ, adicione a opção allbaselevels para obter uma tabela de regressão mais detalhada que indique exatamente qual As colunas da matriz X foram omitidas. Depois que o conceito é perfeitamente claro, você pode optar por não usar a opção allbaselevels porque parece excessivamente detalhado. Em vez de escolher A no nível 1 e B no nível 1 para a base, podemos fazer outras três opções para a base: A no nível 1, B no nível 2 A no nível 2, B no nível 1 A no nível 2, B em Nível 2 Você pode obter essas três outras opções com esses comandos: Execute essas quatro regressões, examine os coeficientes e compare-os com os meios mostrados na tabela acima. Letrsquos começam com os níveis de base padrão. Apenas para ser claro sobre quais colunas são descartadas da matriz X que mostramos acima, primeiro digite o comando: então, por uma questão de brevidade aqui, olhamos para uma versão condensada da mesma tabela de regressão. O coeficiente cons, 25,5, corresponde à média da célula A1, B1 em nossa tabela 2 vezes 2. Em outras palavras, a constante na regressão corresponde à célula em nossa tabela 2 vezes 2 para os níveis de base escolhidos (A em 1 e B em 1). Obtemos a média da célula A1, B2 em nossa tabela 2 vezes 2, 26.33333, adicionando o coeficiente cons ao coeficiente 2.B (25.5 0.833333). Obtemos a média da célula A2, B1 na nossa tabela 2 vezes 2, 33, adicionando o coeficiente cons ao coeficiente 2.A (25.5 7.5). Obtemos a média da célula A2, B2 em nossa tabela 2 vezes 2, 49, adicionando o coeficiente cons ao coeficiente 2.A, o coeficiente 2.B e o coeficiente 2.A2.B (25.5 7.5 0.8333 15.1667 ). Letrsquos concentra-se no coeficiente 2.A, que é igual a 7.5. O que corresponde a Ele corresponde à célula A2, B1 menos a célula A1, B1. Olhando para a nossa tabela 2 vezes 2, seria 33 menos 25,5. Quando você olha o teste para esse coeficiente de regressão único, você está testando essa hipótese: com B configurado para 1. Existe uma diferença entre o nível 2 de A e o nível 1 de A. Agora escolha uma das outras três regressões que usa uma combinação de bases diferente para os dois fatores. Nós escolhemos o último. Apenas para ter certeza de que você é claro sobre o que foi omitido da matriz X, digite o comando: então, por brevidade, aqui está a mesma regressão mostrada de forma mais compacta: Aqui, o coeficiente cons, 49, é igual à média para a célula A2, B2 Da nossa mesa 2 vezes 2. Isso corresponde à nossa escolha do nível 2 como nosso nível de base para A e B. Obtemos a média da célula A1, B2, 26.3333, adicionando o coeficiente cons ao coeficiente 1.A, (49 -22.6667). Obtemos a média da célula A2, B1, 33, adicionando o coeficiente cons ao coeficiente 1.B, (49 -16). Recebemos a média da célula A1, B1, 25,5, adicionando todos os quatro coeficientes (49 -22.6667 -16 15.1667) Letrsquos observam de perto o coeficiente 1.A, que é -22.6667. Esse coeficiente corresponde à célula A1, B2 menos a célula A2, B2. De nossa tabela 2 vezes 2, isso seria 26.3333 menos 49. Quando você olha o teste para esse coeficiente de regressão único, você está testando a hipótese: com B ajustado para 2. Existe uma diferença entre o nível 1 de A e o nível 2 de A. A hipótese para o teste do coeficiente 1.A neste modelo não é equivalente à hipótese para o teste do coeficiente 2.A no modelo de regressão anterior. Ambos estão testando A. Mas no primeiro caso, é um teste de A com B definido como 1. Neste segundo caso, é um teste de A com B definido como 2. No primeiro teste, o valor de p foi 0.710. No segundo, o valor p é 0.165. Estes são valores de p diferentes muito diferentes para este conjunto de dados, mas isso não é chocante porque eles estão testando diferentes hipóteses. Eu poderia ilustrar o que os coeficientes representam nas outras duas regressões (onde escolhemos outras combinações dos níveis de A e B para ser a base), mas vou abster-se porque faria uma longa FAQ até mais. O teste ANOVA do efeito principal de A é um teste diferente de ambos os testes de coeficientes mostrados acima. O teste do efeito principal de A dá um valor p de 0,2496. Você obtém o mesmo valor de p para o efeito principal de A, independentemente de você digitar o comando anova como mostrado acima ou escolher diferentes níveis de base. Os seguintes comandos fornecem todos os mesmos testes F: como você obtém o teste F de efeito principal ANOVA para o termo A dos coeficientes de regressão subjacentes. Observe a opção simbólica de teste após anova. Para cada uma das regressões, podemos obter o mesmo teste F para o efeito principal de A como mostrado pela ANOVA acima. Digite os seguintes comandos: Consulte o teste A, tabela simbólica para ver por que os testes acima estão configurados como eles são. Se você não tem certeza de como eu sabia digitar b2.A2.B, use a opção Coeflegend de regredir. Eu admito que usando a combinação linear de coeficientes de regressão b2.A 0.5b2.A2.B (escolhendo a primeira regressão como um exemplo) para produzir o teste F para o efeito principal A rsquos não é óbvio ou intuitivo. Letrsquos olha a álgebra quando os primeiros níveis de A e B são os níveis de base para nossa regressão: você acha que 0,5 (A2, B1 A2, B2) menos 0,5 (A1, B1 A1, B2) é igual a b2.A 0.5b2. A2.B. O teste F em ANOVA para o efeito principal de A é testar a seguinte hipótese: a média da célula significa que quando A é 2 menos a média da célula significa quando A é 1 0. Uma demonstração similar pode ser mostrada para os outros três Modelos de regressão onde outros níveis de base foram selecionados. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata FAQ Como posso usar o comando de margens para entender múltiplas interações na regressão e anova (Stata 11) O comando das margens, novo no Stata 11, pode ser Uma ferramenta muito útil para entender e interpretar as interações. Vamos ilustrar o comando em dois exemplos usando o conjunto de dados hsbdemo. Começaremos com um modelo que tem uma interação categórica por categórica (feminino por prog), juntamente com uma categórica por interação contínua (honras por leitura). Para manter as coisas um pouco simples, as duas interações não têm termos em comum. Começaremos por executar o seguinte modelo de regressão. Como você pode ver, a interação honorc. read é significativa, juntamente com todos os outros testes de grau de liberdade. Existem dois testes de vários graus de liberdade que precisamos seguir ao usar o comando testparm. A interação femaleprog é significativa, juntamente com o teste de dois graus de liberdade para prog. Algumas pessoas podem chamar isso de efeito principal para prog, mas isso não está correto. Uma vez que estamos usando a codificação do indicador (fictício), o teste para prog realmente está testando o efeito do prog quando a fêmea é igual a zero, isto é, entre os homens. Se multiplicarmos a proporção F por prog pelos graus de numerador de liberdade, obtemos um valor escalado como um qui-quadrado. Assim, 2r (F) 17.616468 que é um valor que vamos ver novamente em pouco tempo. Podemos executar o mesmo modelo usando o comando anova. O anova parece ser um pouco diferente porque o modelo está parametrizado de forma diferente, mas é exatamente o mesmo modelo. Observe que a relação F para femaleprog é a mesma do comando testparm e que a relação F para Honorsread é igual ao valor t ao quadrado da saída de regressão ((-.3200391.1112185) 2 (-2.8775707) 2 8.2804133). Em seguida, usaremos estimativas de loja para salvar este modelo antes de usar as margens com a opção de postagem. Estamos finalmente prontos para usar o comando das margens para analisar a interação do feminino. Caso você tenha dificuldade em determinar o que cada uma das linhas na saída acima se refere, você pode redigitar o comando de margens com a opção coeflegend para obter mais informações. Esta sintaxe de margens com a opção desequilibrada produz os quotleast-squares cell meansquot (terminologia SAS), também conhecida como quotestimated margin cell meansquot (terminologia SPSS), mas geralmente conhecida como célula ajustada significa. E, como usamos a opção de postagem, podemos usar o comando de teste para comparar diferenças nos meios celulares ajustados. O valor crítico de F para a taxa de erro por família para esses testes de efeitos principais simples em alfa é igual a .05 é 3.71 que é equivalente a um valor qui-quadrado de 7.42. Usando 7.42 como o valor crítico indica que o teste de diferenças no prog na fêmea 0 (machos) foi significativo e tem o mesmo valor qui-quadrado que calculamos acima no 2r (F). O teste de prog em feminino igual (mulheres) não foi significativo. Devemos acompanhar o teste significativo com as comparações em pares na fêmea igual a zero. Esses testes não incluem ajustes para comparações múltiplas, mas podemos usar o ajuste de Bonferroni dividindo nosso nível alfa pelo número de testes em pares (.053 .0167). Com esse ajuste (reconhecidamente conservador), apenas prog2 vs prog3 feminino0 foi estatisticamente significante. Em seguida, podemos voltar nossa atenção para o categórico significativo por interação contínua, honras por leitura. Se você olhar para a saída de regressão, verá que o coeficiente de leitura foi .369414 com um erro padrão de .0553672. Esse valor. 369414, é a inclinação de escrever em leitura quando as honras são iguais a zero. Podemos obter facilmente a inclinação quando as honras são iguais a uma, adicionando esse coeficiente ao coeficiente para o termo de interação (.369414 -.3200391 .0493749). Podemos verificar esta computação usando o comando de margens depois de usar estimativas de restauração para trazer de volta o nosso modelo de ANOVAregressão. Estes resultados são, na verdade, o mesmo que a nossa computação das encostas acima. Claro que agora também temos erros padrão e intervalos de confiança para ambas as inclinações. Em seguida, calcularemos as margens preditivas para cada 10º valor de 20 a 70 de leitura para cada nível de honras. As margens preditivas para este modelo são as previsões lineares de escrita para os seis valores de leitura para cada nível de honras. Uma vez que este é um modelo linear, cada uma das seis margens preditivas para honras 0 cairá em linha reta, assim como os seis valores para honras 1. Se quisermos representar esses valores como duas linhas, precisaremos dos valores das margens preditivas , Os valores de leitura para os quais os valores foram calculados e o valor das honras a que se aplicam. Os valores para as margens preditivas e para leitura são encontrados em duas matrizes diferentes salvas pelo comando de margens. As margens preditivas são encontradas na matriz r (b) enquanto os valores de leitura são encontrados na matriz r (at) juntamente com algumas outras colunas que descartaremos. Observe que, se usarmos a opção de postagem, as duas matrizes teriam sido e (b) e e (at). Com um pouco de trabalho de matriz, temos as margens preditivas e os valores de leitura na matriz Stata b. Observe o uso do produto Kronecker para obter dois de cada um dos valores de leitura. O loop forvalues adiciona os valores alternativos de honras à matriz b. Terminamos guardando a matriz em dados com o comando svmat seguido pelo nosso comando gráfico twoway. Depois de olhar para o gráfico, você pode estar interessado em testar se as margens preditivas para honras 0 são diferentes dos valores de honras 1 para cada um dos seis valores de leitura. Se tivéssemos usado a opção de postagem, poderíamos ter seguido o teste como um comando pós-estimativa. No entanto, é mais fácil reiniciar o comando de margens para calcular o efeito marginal das honras usando a opção dydx. Como as honras são variáveis categóricas, as margens computarão automaticamente a mudança discreta para nós. Todos os seis desses testes seriam significativos usando um valor crítico ajustado de Bonferroni de .056 .0083. Nosso próximo exemplo será um pouco mais complexo na medida em que tem duas interações categóricas por categóricas (feminino por prog e feminino por honras) com um termo em comum entre eles. Além disso, há uma covariável contínua, matemática. Desta vez, vamos começar com o modelo ANOVA e segui-lo com o modelo de regressão. Como você pode ver, os modelos de regressão e ANOVA produzem os mesmos resultados para as interações e um grau de testes de liberdade. O teste de dois graus de liberdade para prog é diferente dos resultados anova porque a regress usa a codificação do indicador (fictício). Os resultados testparm para prog são realmente o efeito simples de prog quando a fêmea está em seu nível de referência de zero. Usaremos novamente o comando de margens com as opções desejadas e pós para obter os meios de célula ajustados. Agora podemos usar comandos de teste para testar os efeitos principais simples para prog em cada nível feminino. O valor crítico para esses testes de efeitos principais simples é 3.76 para uma taxa de erro por família de .05. Assim, apenas o teste para prog na fêmea0 é estatisticamente significativo. Seguiremos este teste significativo de efeitos principais simples com comparações entre pares entre os níveis de prog. Os valores p ajustados de Bonferroni para prog1 versus prog3 e prog2 versus prog3 são 0,0045 e .0003, respectivamente. A outra comparação em pares não foi significativa sem qualquer ajuste. Em seguida, precisamos examinar a segunda interação no modelo. Para fazer isso, usaremos o comando de restauração de estimativas. Uma vez que as estimativas sejam restauradas, seguiremos a mesma série de etapas que usamos para a primeira interação. Desta vez, o valor crítico para a taxa de erro por família é 5.10, então ambos os testes são estatisticamente significativos. Em vez de executar as margens seguidas pelo teste, poderíamos ter chegado aos mesmos resultados executando margens com honras incluídas na opção dydx. Para variáveis categóricas, a opção dydx calcula alterações discretas. O resultado para esta abordagem é em termos de pontuação z. Ao quadrar os escores z, podemos comparar os resultados com o comando de teste acima. Assim, conclui o exemplo 2. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment