Friday 18 August 2017

R Glm Predict Binário Opções


Depois de ter as probabilidades previstas, cabe a você o limite que você gostaria de usar Você pode escolher o limite para otimizar a sensibilidade, especificidade ou qualquer medida mais importante no contexto da aplicação algumas informações adicionais seriam úteis aqui para um Resposta mais específica Você pode querer olhar para as curvas ROC e outras medidas relacionadas à classificação optimal. Edit Para esclarecer esta resposta um pouco vou dar um exemplo A resposta real é que o corte ideal depende de quais propriedades do classificador são importantes em O contexto da aplicação Seja Y o valor verdadeiro para a observação i, e seja a classe prevista Algumas medidas comuns de desempenho são. 1 Sensibilidade P hat i 1 Yi 1 - a proporção de 1 s que são correctamente identificados como tal. 2 Especificidade P hat i 0 Yi 0 - a proporção de 0 s que são correctamente identificados como tal. Por exemplo, se o seu classificador visava avaliar um teste de diagnóstico para uma doença grave que tem uma cura relativamente segura, a sensibilidade é muito mais importante que a especificidade Em outro caso, se a doença fosse relativamente menor eo tratamento fosse arriscado, a especificidade seria mais importante para o controle. Para problemas de classificação geral, é considerado bom otimizar conjuntamente a sensibilidade e especificação - por exemplo, você pode usar o classificador que minimiza Sua distância euclidiana do ponto 1,1. Delta poderia ser ponderada ou modificada de outra forma para refletir uma medida mais razoável de distância de 1,1 no contexto da aplicação - distância euclidiana de 1,1 foi escolhida aqui arbitrariamente para fins ilustrativos Em qualquer caso, todas estas quatro medidas Poderia ser o mais apropriado, dependendo da aplicação. Baixo é um exemplo simulado que usa a predição de um modelo de regressão logística para classificar O ponto de corte é variado para ver que corte dá o melhor classificador sob cada uma destas três medidas. Neste exemplo os dados vêm de um Modelo de regressão logística com três preditores ver o código R abaixo do gráfico Como você pode ver neste exemplo, o ponto de corte ótimo depende de qual dessas medidas é mais importante - isto é totalmente dependente da aplicação. dit 2 P Yi 1 hat i 1 e P Yi 0 Hat i 0, as taxas verdadeira-positiva e negativa-verdadeira observam que estas NÃO são as mesmas que a sensibilidade e especificidade também podem ser medidas úteis de desempenho Por exemplo, se você estivesse tentando projetar um Diagnóstico de quando um surto de doença ocorreria no futuro, uma alta taxa verdade-positiva seria muito desejável, uma vez que isso significaria que, se um surto vai acontecer, você é muito provável de prever que vai ocorrer e você pode implementar Alguma intervenção O código poderia ser modificado para calcular estes em vez disso - eu deixarei isso para você. Modelos Lineares Gerados em R, Parte 3 Traçando Probabilidades Previsíveis. Por David Lillis, Ph D. No nosso último artigo, aprendemos sobre ajuste de modelo em Generalized Modelos lineares em dados binários usando o comando glm Continuamos com o mesmo glm no conjunto de dados mtcars regredindo a variável vs sobre o peso e deslocamento do motor. Agora queremos traçar o nosso modelo, juntamente com os dados observados. No entanto, correu um modelo Com múltiplos preditores, pode ajudar a interpretação para traçar a probabilidade predita que vs 1 contra cada preditor separadamente Então, primeiro, nós ajustamos um glm para apenas um de nossos preditores, wt. Para traçar o nosso modelo, precisamos de uma gama de valores de peso Para o qual produzir valores ajustados Esta gama de valores que podemos estabelecer a partir da gama real de valores de wt. Uma gama de valores de wt entre 0 e 6 seria ideal Então, criamos uma seqüência de valores entre 0 e 6 em incrementos de 0 01 Juntando um número tão grande de pontos estreitamente espaçados dará uma aparência suave ao nosso modelo. Agora usamos a função predizer para criar o modelo para todos os valores de xweight. We pode fazer o mesmo para deslocamento. Podemos ver que para ambos Preditores, existe uma relação negativa entre a probabilidade de que vs 1 ea variável preditora. À medida que o preditor aumenta, a probabilidade diminui. Isso não foi tão difícil. Em nosso próximo artigo, vamos examinar outras aplicações da função glm. David Lillis ensinou R a muitos pesquisadores e estatísticos Sua empresa, Sigma Estatísticas e Pesquisa Limited fornece tanto on-line instrução e face-a-face oficinas sobre R e serviços de codificação em R David tem um doutorado em aplicada estatista Ics. Want para aprender R s função GLM Nesta oficina de seis horas você vai aprender como usar glm para especificar logística Os comprimentos das variáveis ​​diferem, e quando eu olhar na minha regressão i fundo 4366 observações excluídas devido a missingnes e tenho 5156 observação, assim como eu posso adicionar os valores ajustados a mydata cordially. Coefficients em um glm polinomial com família binomial e ajustar uma curva para espalhar plot. I têm usado glm com erro quasibinomial para olhar para o efeito da produtividade e densidade inicial na proporção De emigração de insetos A produtividade não teve qualquer efeito e cheguei ao seguinte modelo final Model5 glm y. NF NF2, quasibinomial Preciso usar este modelo para ajustar uma curva ao meu gráfico de dispersão para mostrar o efeito quadrático da densidade inicial na proporção Emigrating O que eu li foi usar os coeficientes da tabela de resumo deste modelo para fazer a linha Coeficientes Estimativa Std Erro t valor Pr t Intercepto 1 47047 0 89089 1 651 0 1104 NF -0 87076 0 41867 -2 080 0 047 2 NF2 0 06405 0 03056 2 096 0 0456.I olhou para este exemplo que você forneceu em sua página e eu queria saber como você pode plotar curva em scatter plot quando você tiver efeito quadrático da mesma variável no meu caso NF2 Quando eu tento Siga o que você fez para o seu exemplo Eu continuo recebendo o seguinte erro xy - prever model5, lista NF x, tipo resposta Erro em newdata, objeto xlev xlevels comprimento variável encontrado para NF2.When usar os coeficientes e fazer esta equação ProEmig 1 470466 - 0 870759NF 0 064054NF2 não se encaixa em meus dados corretamente. NF - seq 0, 12, por 0 1 linhas NF, 1 470466- 0 870759NF 0 064054NF 2 parcela NF, ProEmig, principal Modelo Polinomial, xlab NF, ylab ProEmig. Eu li algo sobre volta transformar os coeficientes, mas não tenho certeza se a razão que eu não estou recebendo a linha correta é porque eu preciso para a transformação e se sim como vou fazer que estou realmente confuso para fazer a linha e eu Apreciar qualquer ajuda e sugestão Obrigado. Yhanks para o seu apoio que eu preciso Uma solução Se eu quiser considerar duas variabiles no meu modelo, como posso fazer o enredo tenho felicidade dipendent preditores amigos renda. Como pode ser visto, cada uma das cinco primeiras escolhas tem uma função de variância associada para binomial a variância binomial m 1- M e uma ou mais opções de funções de link para binomial o logit, probit ou log-log. Anpendal contanto que você quiser o link padrão, tudo que você tem que especificar é o nome da família Se você quiser um link alternativo, você deve adicionar Um argumento de link Por exemplo, para fazer os probits que você usa. A última família na lista, quase está lá para permitir a montagem de modelos definidos pelo usuário por quase-verossimilhança máxima.5 2 Regressão Logística. Nós ilustraremos modelos de regressão logística apropriados usando o uso de contraceptivos Dados mostrados abaixo. Os dados estão disponíveis na seção de conjuntos de dados do site para o meu curso de modelos lineares generalizados Visita para ler uma breve descrição e siga o link para. Claro que os dados podem ser baixados diretamente do RI especificado o Cabeçalho como TRUE porque, caso contrário, não teria sido óbvio que a primeira linha do arquivo tem os nomes das variáveis ​​Não há nomes de linha especificados, portanto, as linhas serão numeradas de 1 a 16 Cuse de impressão para ter certeza de que os dados foram obtidos Tudo bem, então torná-lo seu dataset padrão. Vamos primeiro tentar um modelo aditivo simples onde o uso de contraceptivos depende da idade, educação e wantsMore. There são algumas coisas para explicar aqui Primeiro, a função é chamada glm e eu atribuí o seu valor a um Objeto chamado lrfit para ajuste de regressão logística O primeiro argumento da função é uma fórmula de modelo, que define a resposta eo preditor linear. Com dados binomiais a resposta pode ser um vetor ou uma matriz com duas colunas. Se a resposta é um vetor ele Pode ser numérico com 0 para falha e 1 para sucesso, ou um fator com o primeiro nível representando falha e todos os outros representando sucesso Nestes casos R gera um vetor de uns para representar os denominadores binomiais. Alt A resposta pode ser uma matriz onde a primeira coluna é o número de sucessos ea segunda coluna é o número de falhas Nesse caso R adiciona as duas colunas em conjunto para produzir o denominador binomial correto. Como a última abordagem é claramente o direito Um para nós eu usei a função cbind para criar uma matriz ligando os vetores de coluna contendo os números usando e não usando contracepção. Seguindo o símbolo especial. Que separa a resposta dos preditores, temos uma fórmula modelo padrão de Wilkinson-Rogers. Como os três preditores são variáveis ​​categóricas, eles são tratados automaticamente como fatores, como você pode ver, inspecionando os resultados. Recorde que R classifica os níveis de um fator em ordem alfabética Por causa da idade Da mesma forma, alta é a célula de referência para a educação porque alta vem antes de baixo Finalmente, R escolheu não como a base para wantsMore. If você está descontente com estes Escolhas que você pode usar relevel para mudar a categoria de base, ou 2 definir suas próprias variáveis ​​de indicador Eu usarei esta última abordagem definindo indicadores para mulheres com educação superior e mulheres que não querem mais filhos. Agora tente o modelo novamente. O desvio residual De 29 92 em 10 df é altamente significativo. Portanto, precisamos de um modelo melhor Um dos meus favoritos introduz uma interação entre a idade e desejo para mais filhos. Observe como R construído os termos de interação automaticamente e até mesmo veio com etiquetas sensíveis para eles O desvio do modelo de 12 63 em 7 df não é significativo no nível convencional de cinco por cento, por isso não temos nenhuma evidência contra este modelo. Para obter informações mais detalhadas sobre este ajuste tente o resumo function. R segue o costume popular de sinalizar Coeficientes significativos com uma, duas ou três estrelas, dependendo de seus valores de p Tente plot lrfit Você obtém os mesmos gráficos de um modelo linear, mas adaptado a um modelo linear generalizado, por exemplo, os resíduos plotados São resíduos de desvio a raiz quadrada da contribuição de uma observação para o desvio, com o mesmo sinal que o residual bruto. As funções que podem ser usadas para extrair resultados do ajuste incluem. residuals ou resid para o residual de desvio. Os valores ajustados estimados probabilidades. predict para o preditor linear estimado logits. coef ou coeficientes para os coeficientes, e. deviance para o desvio. Algumas destas funções têm argumentos opcionais, por exemplo, você pode extrair cinco tipos diferentes de resíduos, chamados deviance, Pearson, resposta de resposta - valor ajustado, trabalhando a variável dependente de trabalho no algoritmo IRLS - preditor linear e parcial uma matriz de resíduos de trabalho formada por omissão de cada termo no modelo Você especifica o que você deseja usando o argumento de tipo, por exemplo, resíduos Lrfit, digite pearson.5 3 Atualizando Models. If você deseja modificar um modelo que você pode considerar usando a atualização de função especial Por exemplo, para largar a idade noMor E a interação em nosso modelo que se poderia usar. O primeiro argumento é o resultado de um ajuste e o segundo uma fórmula de atualização. O detentor de lugar. Separa a resposta dos preditores e o ponto refere-se ao lado direito da fórmula original. Aqui podemos simplesmente remover idade noMore Alternativamente, pode-se dar uma nova fórmula como o segundo argumento. A função de atualização pode ser usada para ajustar o mesmo modelo para diferentes conjuntos de dados, usando os dados de argumento para especificar um novo quadro de dados Outro argumento útil é subconjunto para Ajuste o modelo a uma subamostra diferente Esta função trabalha com modelos lineares assim como modelos lineares generalizados. Se você planeia ajustar uma seqüência de modelos você encontrará a função de anova útil Dada uma série de modelos aninhados, calculará a mudança no deviance Entre eles Try. Adding a interação reduziu o desvio em 17 288 à custa de 3 d f. Se o argumento para anova é um único modelo, a função irá mostrar a mudança no desvio obtido adicionando cada um E na ordem listada na fórmula do modelo, assim como ocorreu para os modelos lineares. Como isso requer a montagem de tantos modelos quanto termos na fórmula, a função pode levar algum tempo para completar seus cálculos. A função anova permite especificar Um teste opcional As escolhas usuais serão F para modelos lineares e Chisq para modelos lineares generalizados Adicionando o teste de parâmetros Chisq adiciona valores p ao lado das desvios No nosso caso. Podemos ver que todos os termos foram altamente significativos quando foram introduzidos no Model.5 4 Model Selection. Uma ferramenta muito poderosa em R é uma função para regressão stepwise que tem três features. It notável trabalha com modelos lineares generalizados, de modo que fará regressão logística stepwise, ou stepwise regressão de Poisson. Ele entender sobre os modelos hierárquicos , Assim que considerará somente adicionar interações somente após incluir os efeitos principais correspondentes nos modelos, e. Compreende termos que envolvem mais do que um grau de liberdade, assim que ele L manter juntos as variáveis ​​dummy que representam os efeitos de um factor. A idéia básica do procedimento é começar a partir de um determinado modelo que poderia muito bem ser o modelo nulo e tomar uma série de etapas, quer excluir um termo já no modelo ou adicionar um Termo de uma lista de candidatos para inclusão, chamados o âmbito da pesquisa e definido, é claro, por um modelo de fórmula. Seleção de termos para exclusão ou inclusão é baseada em Akaike s critério de informação AIC R define AIC as.2 maximizada log - Probabilidade 2 número de parâmetros. S-Plus define-o como o desvio menos o dobro do número de parâmetros no modelo As duas definições diferem por uma constante, então as diferenças no AIC são as mesmas nos dois ambientes O procedimento pára quando o critério AIC não pode ser melhorado. Este trabalho é feito chamando um par de funções, add1 e drop1 que consideram adicionar ou deixar cair um termo de um modelo Estas funções podem ser muito úteis na seleção de modelo, e ambos aceitam um argumento de teste como anova. Consider primeiro drop1 Para o nosso modelo de regressão logística. Obviamente, não podemos deixar cair nenhum destes termos Note que R considerou deixar cair o principal efeito da educação e da idade por não querer mais interação, mas não analisou os principais efeitos da idade ou não quer mais, porque um Não deixaria cair estes efeitos principais ao reter a interação. A função da irmã add1 requer um espaço para definir os termos adicionais a ser considerados. Neste exemplo nós consideraremos todas as possíveis interações de dois fator. Nenhuma das duas interações de fator faltante é significativa por si mesma no nível convencional de cinco por cento No entanto, elas são conjuntamente significativas Note que o modelo com a idade por interação de educação tem um AIC menor do que o modelo de partida. Uma busca automática Aqui nós o deixamos pesquisar em um escopo definido por todas as interações de dois fatores. A função de passo produz a saída de rastreio detalhada que supressed O objeto retornado, entretanto, inclui um componente de anova que resume a pesquisa. Como você pode ver, O procedimento automatizado introduziu, uma a uma, todas as três interações remanescentes de dois fatores, para produzir um AIC final de 99 9. Este é um exemplo onde AIC, ao exigir uma melhoria de desvio de apenas 2 por parâmetro, pode ter levado a sobrecarregar os dados. Alguns analistas preferem uma penalidade mais elevada por parâmetro Em particular, usando log n em vez de 2 como um multiplicador produz BIC, o critério de informação bayesiano No nosso log de exemplo 1607 7 38, A redução de desvio de 7 38 por parâmetro adicional A função step aceita k como um argumento, com default 2 Você pode verificar que especificar k log 1607 leva a um modelo muito mais simples não só não são novas interações introduzidas, mas o principal efeito da educação é Mesmo que seja significativo.2017 Germ n Rodr guez, Universidade de Princeton. Generalized Linear Models. See ajuda glm para outras opções de modelagem Consulte a família de ajuda para outras funções de link permitidas para cada família Três subtipos de modelos lineares generalizados serão abrangidos aqui regressão logística , Regressão de poisson e análise de sobrevivência. Regressão logística. A regressão logística é útil quando você está predizendo um resultado binário a partir de um conjunto de variáveis ​​preditoras contínuas. É freqüentemente preferível à análise da função discriminante por causa de suas suposições menos restritivas. Regressão Logística onde F é um fator binário e x1-x3 são preditores contínuos fit - glm F. x1 x2 x3, dados mydata, família binomial resumo ajuste resultados de exibição confint fit 95 IC para os coeficientes exp coef fit exponentiated coeficientes exp confint fit 95 CI Para os coeficientes exponenciais predizem o ajuste, tipo de resposta os valores preditos os resíduos ajustados, o tipo deviance residuals. x, dados mydata exibirá o gráfico de densidade condicional do resultado binário F na variável contínua x. Poisson Regression. Poisson regressão é útil quando prediz uma variável de resultado Representando contagens de um conjunto de variáveis ​​preditoras contínuas. Poisson Regressão onde contagem é uma contagem e x1-x3 são preditores contínuos fit - glm count. x1 x2 x3, dados mydata, família poisson resumo ajuste exibir resultados Se você tiver overdispersion ver se o desvio residual é muito maior do que graus de liberdade, você pode Quer usar quasipoisson em vez de poisson. Survival Analysis. Survival análise também chamado de análise de histórico de eventos ou análise de confiabilidade abrange um conjunto de técnicas para modelar o tempo para um evento Data pode ser censurado direito - o evento pode não ter ocorrido até o final do Estudo ou podemos ter informações incompletas sobre uma observação, mas sabemos que até um certo tempo o evento não tinha ocorrido, por exemplo, o participante deixou de estudar na semana 10, mas estava vivo naquela época. Enquanto os modelos lineares generalizados são tipicamente analisados ​​usando o glm , A análise de sobrevivência é normalmente realizada usando funções do pacote de sobrevivência O pacote de sobrevivência pode lidar com um e dois problemas de amostra, modo de falha paramétrica acelerada Ls e o modelo de riscos proporcionais de Cox. Os dados são tipicamente inseridos no formato hora de início tempo de parada e status 1 evento ocorreu, 0 evento não ocorreu Alternativamente, os dados podem estar no formato tempo para evento e status 1 evento ocorreu, 0 Evento não ocorreu Um status 0 indica que a observação é direita cencored Os dados são empacotados em um Surv objeto através da função Surv antes de mais analyses. survfit é usado para estimar uma distribuição de sobrevivência para um ou mais grupos survdiff testes para diferenças nas distribuições de sobrevivência Entre dois ou mais grupos coxph modelos a função de perigo em um conjunto de variáveis ​​de previsão. Mayo Clinic Lung Cancer sobrevivência da biblioteca de dados. Aprender sobre o conjunto de dados ajuda pulmão. Criar um Surv objeto survobj - com pulmão, Surv tempo, status. Plot sobrevivência distribuição da amostra total Kaplan-Meier estimador fit0 - sobreviver survobj.1, dados pulmão resumo fit0 plot fit0, xlab Sobrevivência Tempo em dias, ylab Sobrevivendo, yscale 100, principal Sobrevivência Distribuição Global. Compare as distribuições de sobrevivência de homens e mulheres fit1 - sobreviver survobj. Traçar as distribuições de sobrevivência por complice de sexo fit1, xlab Tempo de Sobrevivência em Dias, ylab Sobrevivendo, yscale 100, col c vermelho, azul, principal Survival Distribuições por Sexo lenda topright, título Sexo, c Masculino, Feminino, preencher c vermelho, azul. Teste para a diferença entre as curvas de sobrevivência masculina e feminina teste de logrank survdiff survobj. Prever a sobrevivência masculina a partir da idade e pontuações médicas MaleMod - coxph survobj. Dados pulmão, subconjunto sexo 1. exibir resultados MaleMod. Avaliar a assunção de riscos proporcionais. See artigo de Thomas Lumley s R sobre o pacote de sobrevivência para obter mais informações Outras fontes boas incluem Mai Zhou s Use R Software para fazer a análise de sobrevivência e simulação e M J Crawley s capítulo sobre a análise de sobrevivência. Eu tenho uma pequena lista de proteínas P1, P2, P3 que predizem uma meta de duas classes T, digamos câncer não-cancerígeno Vamos dizer ainda que eu sei que eu posso Construir um modelo de regressão logística simples em R. data df Y, o binômio familiar Y é o conjunto de dados das Proteínas. Isto funciona bem T é um vetor de fatores com níveis de câncer, não cancerígenas As proteínas são numéricas. Agora, eu quero usar para prever um novo O modelo data. predict, newdata testsamples, type response testsamples é um pequeno conjunto de novas amostras. O resultado é um vetor das probabilidades para cada amostra em samplesamples Mas probabilty WHAT para Para pertencer ao primeiro nível em T Para pertencer ao segundo nível em T. Is este fator de expressão fallowing prever o modelo, newdata testsamples, tipo de resposta 0 5 TRUE, quando a nova amostra é classificada como Câncer ou quando ele é classificado como Noncancer E por que não o contrário. On 10 de julho de 2009, às 9 46 AM, Peter Schffler escreveu. Hi, eu tenho uma pergunta abo Ut regressão logística em R Suponha que eu tenho uma pequena lista de proteínas P1, P2, P3 que predizem uma meta de duas classes T, digamos câncer não-cancerígeno Vamos dizer ainda que eu sei que posso construir um modelo de regressão logística simples no modelo R - glm T. data df Y, família binomial Y é o conjunto de dados das Proteínas Isso funciona bem T é um vetor fatorado com níveis de câncer, não cancerígenas As proteínas são numéricas Agora, eu quero usar para prever um novo modelo de dados prever, newdata testsamples, type response testsamples É um pequeno conjunto de novas amostras O resultado é um vetor dos probabilites para cada amostra em samplesamples Mas probabilty WHAT para Para pertencer ao primeiro nível em T Para pertencer ao segundo nível em T É este factor de expressão fallowing prever modelo, newdata testsamples, Tipo resposta 0 5 VERDADEIRO, quando a nova amostra é classificada como Câncer ou quando é classificada como Não-cancerígena E por que não a outra maneira Obrigado, Peter. Como a seção Detalhes do glm. A típico preditor tem a forma response. terms Onde respons E é o vetor de resposta numérico e termos é uma série de termos que especifica um preditor linear para resposta Para famílias binomiais e quasibinomiais a resposta também pode ser especificada como um fator quando o primeiro nível denota falha e todos os outros sucesso ou como uma matriz de duas colunas Com as colunas que dão o número de sucessos e fracassos Uma especificação de termos do formulário primeiro segundo indica todos os termos em primeiro juntamente com todos os termos em segundo com qualquer duplicados removidos. Assim, dada a sua descrição acima, você está predizendo noncancer que é, Você está predizendo a probabilidade do segundo nível do sucesso do fator, dadas as covariates. Se você quer predizer o cancer, altere os níveis do fator assimly. T - fator T, níveis c noncancer, cancer. Por defeito, R alfa classificará o Fator, então o câncer seria o primeiro. Pense nisso em termos de usar um código inteiro de 0,1 para ausência, presença, onde você está predizendo a probabilidade de um 1, ou a presença do evento ou char Acerístico de interesse. BTW, usando T como o nome do vetor de resposta não é um bom hábito. T é uma abreviatura para o construído em R constante TRUE R é geralmente inteligente o suficiente para saber a diferença, mas é melhor evitar entrar em problemas por não usá-lo. Em resposta a este post por Peter Schffler-2.Peter Schffler escreveu. Hi , Eu tenho uma pergunta sobre a regressão logística em R Suponha que eu tenho uma pequena lista de proteínas P1, P2, P3 que predizem uma meta de duas classes T, digamos câncer não-cancerígeno Digamos ainda que eu sei que posso construir um modelo de regressão logística simples R modelo - glm T. data df Y, binômio familiar Y é o conjunto de dados das proteínas Isso funciona bem T é um vetor fatorado com níveis de câncer, não cancerígenas As proteínas são numéricas Agora, eu quero usar para prever um novo modelo de dados prever, newdata Testsamples, type response testsamples é um pequeno conjunto de novas amostras O resultado é um vetor dos probabilites para cada amostra em samplesamples Mas probabilty WHAT para Para pertencer ao primeiro nível em T Para pertencer ao segundo nível em T É este factor de expressão fallowing prever Modelo, newdata testsamples, Resposta de tipo 0 5 VERDADEIRO, quando a nova amostra é classificada como Câncer ou quando é classificada como Não-Câncer E por que não o contrário. É a probabilidade do segundo nível de uma resposta de fator denominada sucesso na documentação, Modelando a probabilidade de doença ou morte, assim como ao interpretar a regressão logística em si. Eu acho mais fácil classificar este tipo de questão por experimentação em situações simplificadas E gx - amostra c A, B, 10, substituir TRUE x 1 BABBABBABA table Xx AB 4 6. Observe que a freqüência relativa de B é 0 6.1, erro binário nos valores eval expr, envir, enclos y deve ser 0 y 1 Além disso Mensagem de aviso Em mf, contrasta a variável x convertida em um fator. OK, então ele ganhou t ir sem conversão para factor Esta é uma coisa boa. Call glm fórmula fator x.1, família binomial. Coeficientes Intercepto 0 4055.Degrees of Freedom 9 Total ou seja, Nulo 9 Residual Null Deviance 13 46 Desvio Residual 13 46 AIC 15 46. A intercepção é positiva, correspondendo a probabilidades log para uma probabilidade 0 5 ou seja, deve ser que B 0 4055 log 6 4.1, binômio 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 9 10 0 4054651 0 4054651 prever fator glm x.1, binomial, tipo resposta 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6.As por que não é o contrário, bem, se tivesse sido, então você poderia ter feito a mesma pergunta.- O ---- Peter Dalgaard ster Farimagsgade 5, Entr B c --- Dept of Biostatistics PO Box 2099, 1014 Cph K - Universidade de Copenhaga Dinamarca Ph 45 35327918.Peter Schffler escreveu Oi, eu tenho uma pergunta sobre regressão logística em R Suponha que eu tenho uma pequena lista de proteínas P1, P2, P3 que prever Um alvo de duas classes T, digamos câncer não-cancerígeno Vamos dizer ainda que eu sei que posso construir um modelo de regressão logística simples no modelo R - glm T. data df Y, binômio familiar Y é o conjunto de dados das Proteínas Isso funciona bem T é um Fatorado com níveis de câncer, não-cancerígenas As proteínas são numéricas Agora, eu quero usar para prever um novo modelo de previsão de dados, newdata testsamples, type response samplesamples é um pequeno conjunto de novas amostras O resultado é um vetor dos probabilites para cada amostra em samplesamples Mas probabilty WHAT for Para pertencer ao primeiro nível em T Para pertencer ao segundo nível em T É este modelo falso factor de expressão prever modelo, newdata testsamples, tipo resposta 0 5 TRUE, quando a nova amostra é classificada como Câncer ou quando é classificada como Noncancer E por que não o contrário É a probabilidade de o segundo nível de uma resposta fator denominado sucesso na documentação, mesmo quando a sua modelagem a probabilidade de doença ou morte, assim como quando se interpreta o regre logístico Ssion em si Eu acho mais fácil classificar este tipo de problema por experimentação em situações simplificadas E gx - amostra c A, B, 10, substituir TRUE x 1 BABBABBABA tabela xx AB 4 6 aviso que a freqüência relativa de B é 0 6 glm X.1, binomial Erro nos valores eval expr, envir, enclos y deve ser 0 y 1 Além disso Mensagem de aviso Em mf, contrasta a variável x convertida em um fator OK, então não vai sem conversão para fator Isso é uma coisa boa Glm fator x.1, binomial Chamada glm fator de fórmula x.1, binômio familiar Coeficientes Interceptação 0 4055 Graus de Liberdade 9 Total ie Nulo 9 Defeito Residual Nulo 13 46 Desvio Residual 13 46 AIC 15 46 A intercepção é positiva, correspondendo a probabilidades logarítmicas Para uma probabilidade 0 5 ou seja, deve ser que B 0 4055 log 6 4 prever fator glm x.1, binômio 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 9 10 0 4054651 0 4054651 prever fator glm x.1, binomial, tipo resposta 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 Quanto a por que não é o contrário, bem, se tivesse sido, então você poderia ter feito a mesma pergunta. Ou mais especificamente. resp-fator c câncer, E, uma vez que o não - cancro ocorre 75 vezes na amostra claramente a sua predizer a probabilidade de não - cancro, não - cancro, não - cancro, não - cancro mod - glm resp.1, família binómio predict mod, tipo resposta 1 2 3 4 0 75 0 75 0 75 0 75. .

No comments:

Post a Comment