Para perguntas rápidas, envie um email para dataprinceton. edu. Não há appts. Necessário durante as horas de caminhada. Nota: o laboratório DSS está aberto enquanto o Firestone estiver aberto, sem compromissos necessários para usar os computadores do laboratório para sua própria análise. Usando Variáveis Dummy Eu uso dados automáticos neste exemplo. No prompt de comando, digite In this data, foreign é uma variável dummy, que contém resultados binários. A variável tem um valor de 1 para modelo estrangeiro e 0 para modelo doméstico. Eu tenho outra variável categórica, classificação de reparo, que eu estou interessado em ver o efeito no mpg. A classificação de reparo, chamada rep78, varia de 1 a 5, 1 sendo mais reparos e 5 sendo menos reparos. Aqui, a classificação de reparo pode ser tratada como um valor contínuo, mas como ela tem apenas cinco valores e considero isso como uma variável categórica, eu farei de cada valor uma variável dummy. Este tipo de situação é mais comum com variáveis como etnia ou ocupação, onde a atribuição de número é bastante arbitrária ea quantidade não tem significado. Uma maneira fácil de criar uma variável dummy a partir de uma variável de categoria múltipla como esta rep78 é usar o comando tabulate. Cria cinco manequins, um por cada valor de rep78. Você pode ver as novas variáveis que o Stata criou ao deslocar a janela variável para a parte inferior. Observe que a tabulação mostra o total como 69, quando o número total de registros é 74. Resulta que cinco carros têm suas avaliações de reparação faltando. Stata cai casos com valores faltantes completamente ao executar regressões. Assim, no próximo modelo, você pode ver que o caso total usado na análise é 69. Das cinco categorias, eu posso incluir quatro categorias, menos uma, do que o número total de categorias, no modelo, como um deles será Uma categoria de referência. Os coeficientes serão interpretados em referência à categoria excluída. Previsto MPG 27.36 - 6.36REPAIR1 - 8.24REPAIR2 - 7.93REPAIR3 - 5.70REPAIR4 Os coeficientes de reparação estão em referência à classificação de reparo 5. Assim, os carros com classificação de reparo 1 produzem cerca de 6,36 menos mpg do que os carros com classificação de reparação 5, classificação de reparo 2 Custa cerca de 8,23 mpg menos do que classificação de reparo 5, e assim por diante. Faz sentido que os carros com melhor classificação de reparo utilizem menos gás: devem ser construídos para serem mais eficientes. Cada manequim é 0 ou 1, então, para calcular o mpg previsto, você pode conectar 1 à classificação para a qual deseja obter uma estimativa e 0 para outros. Quando um carro tem uma classificação de reparação 5, o mpg previsto é 27,36. Quando um carro tem uma classificação de reparação 1, o mpg previsto é 27.36-6.36 21. Algumas pessoas estão confusas quando eu lhes digo para excluir uma categoria para torná-lo em um grupo de referência. Se você tem apenas um conjunto de manequins e quer incluir todos eles, você pode ajustar um modelo com todos os manequins, mas diga a Stata que já existe uma constante. Eu não recomendo usar isso se você tiver vários conjuntos de variáveis dummy, como estado civil (único, casado, divorciado, etc.) E etnia (branco, preto, hispânico, asiático, etc.), porque a interpretação da intercepção Torna-se confuso. Desta vez, os coeficientes são previstos mpg para cada classificação de reparo em vez de diferença em referência à categoria excluída. Observe que o coeficiente de reparo5 é 27.36, que calculamos a partir do acima. O coeficiente de reparo1 é 21, novamente, o mesmo que na computação que obtivemos do modelo acima. Então, os resultados são os mesmos de qualquer maneira. Mais informações sobre o uso de variáveis dummy em uma regressão, consulte Regressão linear e Tutorial do Stata. Copie 2007 The Truestees of Princeton University. Todos os direitos reservados. Dataprinceton. edu Esta página foi atualizada pela última vez em 28 de agosto de 2008NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Módulo de Aprendizado Stata Usando IF com comandos Stata Este módulo mostra o uso de se com comandos Stata comuns. Permite usar o arquivo de dados automático. Para este módulo, vamos nos concentrar nas variáveis make, rep78, foreign, mpg e price. Podemos usar o comando Keep para manter apenas essas cinco variáveis. Vamos fazer uma tabela de rep78 por estrangeiros para examinar as histórias de reparação dos carros estrangeiros e domésticos. Suponhamos que queremos nos concentrar apenas nos carros com histórico de reparos de quatro ou melhores. Podemos usar se o sufixo para fazer isso. Vamos fazer a tabela acima usando as opções de coluna e nofreq. A coluna de comando solicita porcentagens de coluna enquanto o comando nofreq suprime as freqüências celulares. Note que colum n e nofreq vêm após a vírgula. Estas são opções no comando tabular e as opções precisam ser colocadas após uma vírgula. O uso de if não está limitado ao comando tabulate. Aqui, usamos isso com o comando de lista. Você viu que algumas das observações tinham um valor de 39. 39 para rep78. Estes são valores faltantes. Por exemplo, o valor de rep78 para o AMC Spirit está faltando. Stata trata um valor faltante como infinito positivo, o maior número possível. Então, quando dissemos a lista se rep78 gt 4, Stata incluiu as observações onde rep78 era. 39 também. Se quisermos incluir apenas as observações válidas (não faltantes) que são maiores ou iguais a 4, podemos fazer o seguinte para dizer a Stata que queremos apenas observações onde rep78 gt 4 e rep78 não estão faltando. Este código também produzirá a mesma saída que acima. Podemos usar se com a maioria dos comandos da Stata. Aqui, obtem estatísticas resumidas de preço para carros com histórico de reparos de 1 ou 2. Observe que o duplo igual () representa IS IGAL TO eo pipe () representa OR. Uma maneira mais simples de dizer isso seria. Da mesma forma, podemos fazer isso para carros com histórico de reparos de 3, 4 ou 5. Além disso, podemos usar esse código para designar uma variedade de valores. Aqui está um resumo do preço para os valores de 3 a 5 em rep78. Vamos simplificar isso, dizendo rep78 gt 3. Você viu o erro que cometemos Nós, acidentalmente, incluímos os valores perdidos, porque nós esquecemos de excluí-los. Nós realmente precisávamos dizer. Tomando uma amostra aleatória Também é possível tomar uma amostra aleatória simples de seus dados usando o comando da amostra. Esta informação pode ser encontrada na nossa página de Perguntas frequentes sobre STATA: como posso desenhar uma amostra aleatória dos meus dados. A maioria dos comandos do Stata podem ser seguidos por if. Por exemplo, resumir se rep78 é igual a 2 Resumir se rep78 for maior ou igual a 2 Resumir se rep78 maior do que 2 Resumir se rep78 menor ou igual a 2 Resumir se rep78 menos de 2 Resumir se rep78 não é igual a 2 Se expressões podem ser conectadas Com para o amplificador OU para AND Os valores ausentes são representados como 39. 39 e são o maior valor possível. Portanto, quando os valores estão faltando, tenha cuidado com comandos como para omitir valores faltantes, use O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment