Dilbert vem face-a-face com a incerteza envolvida na geração de números aleatórios. Randomizar e selecionar uma amostra ou sub-amostra de indivíduos de um conjunto de dados são atividades que geralmente precisamos realizar durante a análise de dados. Por exemplo, você pode querer atribuir aleatoriamente seus participantes em grupos de tratamento e controle. Ou, na análise de regressão, você pode querer usar dados de uma sub-amostra selecionada aleatoriamente de seus participantes para desenvolver o modelo de regressão e, em seguida, usar os dados dos demais participantes para validá-lo. Esta publicação irá discutir como realizar aleatorização e amostragem aleatória em STATA. Etapa 1. Atribuindo Números Aleatórios Se estamos alocando participantes para grupos de tratamento ou separando nossa amostra em sub-amostras de desenvolvimento e validação, o primeiro passo é atribuir a cada indivíduo um número aleatório. No entanto, não há nenhuma maneira de realmente simular a aleatoriedade, então o STATA (como todos os outros pacotes de software) usa um gerador de números aleatórios que usa um algoritmo para gerar números 8220random8221. Isso funciona muito bem, mas os números que ele gera serão diferentes sempre que você o usar. Se você deseja que sua análise seja repetidamente repetitiva, começamos por 8220seeding8221 o gerador de números aleatórios com uma sequência conhecida de números (este pode ser seu número de identificação do estudante, aniversário do seu Mom8217 ou seu número de telefone). Re-seedar o gerador com este número resultará exatamente na mesma seqüência de números aleatórios. Se você não se preocupa com a repetibilidade, então você pode pular esta etapa. Conjunto de sementes 03281986 Eu usei o aniversário de Lady Gaga8217s. Tudo o que você usa, anote-o caso precise usar novamente. Agora que nosso gerador de números aleatórios foi sembrado com um número memorável, atribuiremos um número aleatório a cada indivíduo no conjunto de dados. Gen randomNumber runiform () Gere uma nova variável 8220randomNumber8221 (ou o que você quiser chamar) com um valor aleatório entre 0 e 1. Ok, ótimo. Se você abrir o Data Viewer e verificar o seu conjunto de dados, deve haver uma nova variável no final da lista com valores de números decimais entre 0 e 1 para cada indivíduo em seu conjunto de dados. Etapa 2. Classificação Agora que cada indivíduo tem um número aleatório, se classificarmos de acordo com esses valores, os dados serão ordenados em uma ordem aleatória, ou Passo 3a randomizado. Grupos iguais Se você quiser dividir sua amostra em grupos de igual tamanho (nos exemplos acima, isso corresponderia a alocação de participantes em grupos de controle e controle), você pode fazê-lo usando 8220group () 8221 com o comando generate: Gen groupID group (4) Gerar uma nova variável 8220groupID8221 (ou o que quer que você queira chamar) que lhe dirá a que grupo pertence o indivíduo. O número dentro dos suportes do grupo8217s especifica quantos grupos você deseja que sua amostra seja dividida (aqui, eu fiz 4 grupos). Passo 3b. Grupos desiguais Há também instâncias em que você não deseja grupos de tamanhos iguais. Nos exemplos acima, isso corresponderia ao cenário em que você deseja usar a maioria dos seus dados para desenvolver um modelo de regressão e a parte restante para testar o modelo. O uso do 8220group () 8221 não funcionará neste caso. Em vez disso, diremos ao STATA que aloque os primeiros 30 indivíduos ordenados aleatoriamente para o nosso grupo de desenvolvimento eo restante para o nosso grupo de validação (eu fiz 30, mas você pode especificar qualquer número que você deseja que sua amostra seja): desenvolvimento de bytes de gene e grupo 30 de setembro Gerar uma variável binária (that8217s o que a opção 8220byte8221 faz) nomeou 8220developmentGroup8221 (ou o que quer que você queira chamar) que será zero para os primeiros 30 indivíduos no conjunto de dados. 8220n8221 é uma abreviatura STATA para 8220each individual no conjunto de dados começando com o first8221. Etapa 4. Salvando e Usando Sub-amostras em Diferentes Conjuntos de Dados Esta etapa é opcional e provavelmente é mais útil para o desenvolvimento de modelos de regressão, onde você gostaria de se livrar de sua sub-amostra de validação, crie seu modelo usando seu sub - Amostra e, em seguida, coloque sua sub-amostra de validação posteriormente para validação. Preserve Preserva o conjunto de dados completo, para que possamos voltar a isso depois, mantenha se developmentGroup 1 Mantiver os indivíduos que estão no grupo de validação e descarta toda a sub-amostra do grupo de desenvolvimento do conjunto de dados. Save validationGroup Salva a sub-amostra de validação em seu próprio arquivo validationGroup. dta, que podemos usar mais tarde. Restaurar Nos traz de volta ao conjunto completo de dados que nós conservamos8221, se o grupo de desenvolvimento 0 Mantém os indivíduos que estão no grupo de desenvolvimento. Save developmentGroup Salva a sub-amostra de desenvolvimento em seu próprio arquivo developmentGroup. dta. Use developmentGroup Use este arquivo para desenvolver o modelo de regressão. O impede de alterar permanentemente seu conjunto de dados completo. 8230 Execute um modelo de validação de uso de modelagem Depois de chegar ao seu modelo final e estiver pronto para usar o comando 8220predict8221, recorde seu grupo de validação. Isso permitirá que você preveja valores de variáveis dependentes para seus participantes de sub-amostra de validação usando o modelo que você criou com seus participantes de sub-amostra de desenvolvimento. O objetivo desta publicação foi fornecer uma explicação direta de como amostrar aleatoriamente um conjunto de dados sem substituição usando STATA. Espero que você ache isso útil8230 Happy Stats-ingStata: Análise de Dados e Software Estatístico Eu tenho um conjunto de dados, e eu desejo tomar uma ou mais subamostrações aleatórias. Como posso fazer isso na Stata First, passamos pela solução quando esse é o problema todo. Em seguida, nós indicamos soluções quando a amostragem deve ser feita em cada um de um conjunto de categorias. Existem duas questões gerais: 1. A amostra deve ser tomada com ou sem substituição. Se a amostra for tomada com reposição, cada observação do conjunto de dados pode aparecer na amostra de forma alguma, uma vez ou mais de uma vez. O que você deseja pode ser algum comando de remoção de inicialização ou similar, por exemplo, bootstrap ou bsample. Se a amostra for feita sem substituição, cada observação do conjunto de dados pode aparecer na amostra de forma alguma ou uma vez. O resto deste FAQ é baseado no pressuposto de que você está amostragem sem substituição e que o número de observações na memória é suficientemente grande para que você escolha uma ou mais amostras do tamanho especificado. O exemplo do comando Stata codifica uma abordagem para escolher uma amostra sem substituição. A preocupação aqui é com a explicação de idéias básicas suficientes para que você possa produzir suas próprias amostras aleatórias, conforme desejado em Stata, com uma combinação de comandos elementares da Stata. 2. As observações já são rotuladas por identificadores únicos Esses identificadores geralmente serão códigos de números inteiros ou de cadeias que especificam uma observação específica, como a gravação de uma determinada pessoa ou organização em seu conjunto de dados. Os identificadores não são essenciais para todos os problemas, mas você precisará deles, por exemplo, sempre que estiver escolhendo algumas observações de um grande conjunto de dados para um estudo mais aprofundado. Subconjugando o conjunto de dados, sem subdivisão adicional por categorias Você deseja usar todo o conjunto de dados, ou apenas parte Se você quiser usar apenas parte, configure uma variável de indicador que sinaliza a parte que deseja usar, por exemplo, a condição no O lado direito da tarefa será verdadeiro para as observações serem usadas. A variável de indicador resultante OK será 1 se e somente se as observações satisfizerem a condição indicada (e 0 caso contrário). Pode ser necessário um cuidado se os dados em falta estiverem presentes: para variáveis numéricas, os valores em falta são superiores a qualquer outro valor numérico, de modo que a idade gt 40 inclui as idades que faltavam. Portanto, devemos estipular a idade de condição extra lt. Na geração da variável indicador. Este comando gera um conjunto de números de pseudorandom a partir de uma distribuição uniforme em 0,1). Se você deseja documentar seus resultados, ou se você se preocupa com a reprodutibilidade precisa dos resultados, então você definirá a semente explicitamente. Veja gerar e funções. Arrastrar aleatoriamente seus dados aleatoriamente e subdividir em grupos. Você pode ordenar as observações na memória ordenando os números aleatórios que acabaram de ser gerados: você agora está em posição de escolher uma amostra aleatória. Por exemplo, suponha que você queira uma amostra de tamanho 100. Esta pode ser a primeira 100 ou as últimas 100 observações, por exemplo, se a amostragem for apenas de observações que estão OK. Como acima, então, se desejar duas ou mais subamuestas aleatórias distintas, você pode ampliar essa abordagem. Por exemplo, se você deseja que dois grupos de igual tamanho criem uma variável com duas categorias, 1 e 2, com números aproximadamente iguais em cada categoria. Esses valores indicam as subconjuntos 1 e 2. Claramente, se o número de observações for uniforme, isso pode ser feito exatamente, enquanto que, se for estranho, as duas subamostra serão diferentes em 1. Nos dados, um bloco de observações para o qual Grupo é 1 é seguido por um bloco para qual grupo é 2. Para ver isso Para três ou mais grupos, use o número necessário no lugar de 2. Com resultados semelhantes. Para o caso mais complicado em que, para ser selecionado, as observações de amostra também devem estar OK. Se você quer grupos de tamanho desigual, então a definição usará o número de observação n. Se você tivesse 1.000 observações e quisesse subdividir em subamostra de 200 e 800, então a declaração poderia ser n gt 200 é falso (0) para as primeiras 200 observações e verdadeiro (1) para o resto. A adição de 1 produz uma variável categórica com os valores 1 e 2. Subconectando o conjunto de dados e as categorias também O problema mais complicado considerado aqui é ilustrado por este exemplo: Queremos trabalhar com pessoas para quem idade 40 (e não está faltando ). Nós temos homens e mulheres e queremos subdividir cada gênero em dois grupos iguais. Mais uma vez, talvez precisemos ter cuidado com o fato de o gênero estar faltando. Juntando todas as idéias, chegamos várias idéias do Stata estão sendo usadas aqui. Selecionar primeiro OK segrega todas as observações que não queremos usar. A classificação em segundo lugar do gênero assegura uma subdivisão posterior em igualdade de gênero. A classificação em última análise aleatória alegra os nossos dados nessas categorias. Finalmente, gerar a variável categórica dentro de cada grupo de gênero produz a divisão aleatória. Como resultado dessas afirmações, existem duas classificações dos dados, por gênero e por grupo. Para mais de dois grupos, substitua 2 na última declaração pelo número necessário. Em todos esses exemplos, os comandos da Stata produziram variáveis que identificam as observações em cada subamostra. Normalmente, o próximo passo é realizar cálculos para essas subamostra. Por exemplo, os cálculos para a amostra definida pela variável de amostra especificam se o exemplo 1 ou, de forma mais concisa, se insemple. Da mesma forma, os cálculos para as duas ou mais amostras definidas pelo grupo de variáveis podem usar qualificadores, como se o grupo 1 ou o grupo 2.
No comments:
Post a Comment