Não sei se é uma mulher ou se é um anjo, só sei que sigo te admirando :)! Fiz o meu mestrado em 2017 e por acaso caí no seu canal. As suas aulas são muito top demais da conta. Parabéns pela iniciativa .
Imensamente agradecido ... descomplicou a minha vida com relação a RL que 8 anos entre especialização, mestrado e doutorado não conseguiram. Sempre uso outras análises como KM e Cox para verificação Bivariada ou múltipla e nunca dominei a RL.
Professora Fernanda. Eu andei pesquisando sobre regressão linear não paramétrica, mas não entendi muita coisa. No SPSS tem como fazer ? Eu agradeço de coração todos seus retornos as minhas perguntas. Você é minha melhor professora de estatística
Hahaha! Fico feliz de contribuir. Tem como fazer regressão linear que assume outras distribuições (que não a distribuição normal), são modelos chamados de modelos lineares generalizados. Tem como fazer no SPSS, sim. Eu só não tenho vídeo por enquanto (mas dá uma olhada no canal Cientística, que o Altay tem).
Por favor existe alguma outra explicação para o coeficente padronizado e se caso tivesse 2 valores no coefiente padronizado um maior do que o outro que interpretação eu teria ? muito obrigado pela aula merece um super like
Fernanda, tenho uma dúvida: estou fazendo um teste de regressão linear, com 520 amostras, para ver se o tempo de negociação interfere no resultado da mesma (a teoria aponta que sim). Porém, fiz os testes direitinho como na aula e deu praticamente tudo certo, exceto o intervalo da estatística de resíduos, que tanto no Std Error Predicted value e no Residual Error, os valores ultrapassaram o +3 (deu 6,722 e 21,100 no erro do valor previsto e de resíduo, respectivamente). O que acontece? A RL não pode ser aplicada nesse caso? Então, o que mais eu poderia fazer para estudar o fenômeno?
Oi, Murilo. Então, o problema é se o Std. Residual (ou seja, o resíduo padronizado) sair da faixa -3 a +3, porque isso indica que há outliers. O problema de existir outliers no seu banco de dados é que eles podem influenciar a estimação dos coeficientes. Então, por exemplo, tem um ponto bem distante dos outros e ele "puxa" a reta em direção a ele, fazendo com que a regressão seja dada por uma reta que não representa bem o conjunto de dados. Tirar o outlier não é recomendado. A recomendação que eu mais vejo é rodar o seu modelo com e sem os sujeitos que são outliers, e comparar os modelos (comparar os coeficientes, ver se você chega às mesmas conclusões). Tem como pedir para ele salvar os resíduos padronizados, e aí você consegue verificar quais sujeitos tem resíduos fora da faixa (acho que eu não explico isso nesse vídeo, mas é em "salvar" na janela da regressão).
@@FernandaPeres Oiá Fernanda, muito obrigado pela pronta resposta. Fiz como vc disse. Os resultados em termos de erros residuais deram num valor menor (-7 a +7), mesmo assim fora do (-3,+3). De fato, olhando os números de acordos (valores em milhares de reais), tenho alguns bem altos e alguns baixos, sendo a média em torno de 23.000. Curioso é que todas as outras condições deram ok, somente a estatística dos resíduos é que não;..:(
Ah, mas acontece mesmo de só a parte dos resíduos dar problema. Tem também um livro bem completo, que é o Análise de Dados, do Fávero, que discute as opções quando os pressupostos não são atendidos. Eu não vou lembrar de cabeça a sugestão dele, mas talvez valha a pena dar uma olhada, ver se a sugestão é diferente da que eu te falei no comentário acima. O que eu não recomendo é ignorar que há outlier, porque eles podem estar interferindo na estimação e fazendo você chegar a uma conclusão que na verdade nem se aplica ao seu banco.
Olá Fernanda! Primeiramente parabenizo as excelentes aulas. A interpretação do modelo linear poderia ser referente ao aumento da variável exposição (investimento em publicidade) refletir em aumento na variável desfecho (venda de discos)? Super obrigada!!
Isso mesmo, como o coeficiente da VI "investimento em publicidade" é positivo, o aumento no investimento está associado a aumento nas vendas (variável dependente). Obrigada! Fico feliz que as aulas sejam úteis!
Fernanda, parabéns pelo excelente tutorial!!! Tira uma dúvida, por favor, que pode ser de muitos alunos: é possível estudarmos as correlações entre PIB, IDH, Número de municípios (5570) e estados da Federação (27)? Os dados de PIB e IDH são estaduais (27 de cada), dados pelo IBGE
Esse tipo de estatística só pode ser usado com duas variáveis numéricas? se elas forem ordinais tipo (leve, médio e moderado) com uma variável numérica qual seria o melhor tipo de análise?? Agradeço muito por suas aulas, são as melhores que já vi, em todos os canais. Parabéns!!!
Oi, Vanessa. Para variáveis ordinais, não dá para usar a correlação de Pearson. Mas a correlação de Spearman, por exemplo, já é adequada. A interpretação será a mesma que a de Pearson. Que bom que os vídeos estão sendo úteis!
Ops, corrigindo porque eu achei que esse era o vídeo de correlação. A regressão linear só se aplica quando a variável dependente (variável resposta) é contínua. Para variáveis resposta ordinais há a regressão logística ordinal. Não tenho vídeo sobre ela, mas dá para encontrar tutoriais bons na internet, como esse: statistics.laerd.com/spss-tutorials/ordinal-regression-using-spss-statistics.php
Pode, sim, Ana. O pressuposto da regressão linear é que a variável dependente seja numérica. Mas as independentes podem ser numéricas ou categoricas. Mas, fazer uma regressão com uma única variável independente categórica é o equivalente a fazer uma ANOVA ;) Inclusive, o SPSS não deixa inserir variável independente categórica na regressão, a menos que elas sejam transformadas em dummy.
@@FernandaPeres mesmo se eu inserir outras variáveis como ajuste ? No meu caso, iria inserir peso e sexo como variáveis de ajuste, além da variável independente. Isso é possível fazer no SPSS?
@@anacarolinalima8275 Regressão e ANOVA são dois nomes para um mesmo modelo, que é o modelo linear geral. No SPSS, ou você transforma as variáveis categoricas em dummy antes de inserir na regressão, ou faz a regressão pelo caminho da ANOVA.
Muito bons seus vídeos. Estou acompanhando. Só uma sinalização. Seria bom vc colocar a referência dos dados. Posso estar enganado, mas acho que esse banco de dados foram extraídos do livro do Andy Field.
Oi, Leandro! De fato, esse banco de dados foi adaptado do Andy Field. Não é o mesmo banco de dados, porque modifiquei para atender aos pré-requisitos. Mas vou colocar essa informação, obrigada pelo aviso!
OLÁ! Eu não entendi a explicação do t na tabela coefficients. O valor de cima é quando a hipótese é nula e o de baixo é quando a hipótese é H1? e se algum valor der menor que 0,05, como devo interpretar?
Carolina, o teste-t está testando se o coeficiente é estatisticamente igual a zero ou não. Se o valor de p for inferior a 5% (0,05), podemos considerá-lo diferente de zero e interpretá-lo. Recomendo assistir às aulas teóricas do canal para entender melhor o conceito de teste de hipóteses, valor de p e nível de significância.
Oi Fernanda! Muito obrigada pela aula!!! Fiquei em dúvida sobre o pré-requisito do tamanho amostral pra realizar uma regressão simples. Tem alguma explicação do pq ser 20? Que referência tu utilizou? Obrigada desde já!!
Oi, Luiza. Essa é uma regra prática (rule-of-thumb) e há várias delas. Essa regra é a 20:1, que indica que deve haver 20 sujeitos para cada 1 variável independente adicionada ao modelo. Uma referência que cita ela: core.ac.uk/download/pdf/143870286.pdf Mas, o ideal seria calcular o tamanho da amostra com base nos seus tamanhos de efeito. O livro do Andy Field (Descobrido a estatística usando o SPSS) discute isso um pouco mais a fundo.
Fernanda, estou precisando fazer aquele agrupamento de indivíduos do grupo caso por tercis segundo o grupo controle. Como faço? Confesso que já procurei nos seus vídeos (e olha que já assisti todos) e não encontro. Talvez e até esteja pensando errado na organização dos dados. Pode me ajudar, por favor?
Tem como calcular um tamanho de efeito chamado f quadrado. No SPSS, acredito que não tenha como calcular. Mas, deve haver calculadoras online para isso.
Sim, a variável dependente deve ser sempre continua. As independentes podem ser contínuas ou categóricas. Para uma variável dependente dicotômica, você deverá usar a regressão logística.
Oiie obrigada pela aula, excelente! Eu tenho uma dúvida: quando temos o IC para significância, ele se refere ao beta não padronizado, certo? Então como reportaria, por exemplo, esse valor do beta padronizado? A cada xx gasto com propaganda aumenta o lucro em 0,60 xx penso que seria +- isso, mas o valor não estaria incluído no IC 😐
Oi! Para montar a equação, como você montou (a cada xx gasto com propaganda o lucro aumenta em xx) você tem que usar o beta não padronizado. O beta padronizado é útil para comparar diferentes variáveis independentes e entender qual delas tem mais impacto sobre a variável dependente. O IC mesmo faz mais sentido reportar o do beta não padronizado. (Até onde eu sei, o SPSS não calcula o IC para o padronizado).
Fer, bom dia. Se quero verificar a influência de uma variável independente (preditora) sobre uma dependente (de saída), entretanto elas foram medidas ao longo de um período de tempo ex: o tempo de sono influencia os valores das notas dos alunos ao longo dos 4 dias do vestibular?! Posso utilizar a regressão simples?! Obrigado
Olá, primeiramente agradecer a aula que está ótima. Tenho duas perguntas: Não se faz obrigatorio validar a normalidade dos resíduos e a homogeneidade de variâncias pelos testes de Shapiro-Wilk (Kolmogorov n>50) e Levene, respectivamente? Caso sim, como sería o procedimento? Muito obrigado pela atenção, excelente aula
Oi, Franco, não é obrigatório. Na verdade, nunca é, você sempre tem a opção de fazer essa análise por testes ou de forma gráfica. No caso da regressão, o mais usual é fazer a análise gráfica que eu explico no vídeo. Se quiser analisar pelos testes, é necessário antes salvar os resíduos (essa opção está dentro da aba "salvar" dentro da construção do modelo de regressão linear). Aí o SPSS salva uma coluna com os resíduos e eles podem ser avaliados como qualquer outra variável. Que bom que a aula foi útil! Abraços!
Como eu expliquei para o Franco, fiz apenas a análise gráfica, é mais comum em regressões. A regressão linear não é o modelo adequado se os seus resíduos não apresentarem distribuição normal...
Fernanda, eu fazer uma regressão normalmente em dados longitudinais? Eu tenho 4 variáveis que gostaria de ver se há relação entre elas mas são de vários indivíduos e obtidas destes mesmos indivíduos em intervalos de tempo regulares. Pode me ajudar?
Oi, Marcela. É um caso que você tem medidas repetidas. Dá uma olhada nas aulas de ANOVA com medidas repetidas e ANOVA mista. Uma delas deve se encaixar no seu delineamento. Abraços!
Não, Bruno. E na verdade há uma discussão de que isso deve ser um pressuposto apenas quando o delineamento é longitudinal (medidas repetidas). O livro "Manual de análise de dados", do Fávero e da Belfiore, é um material bom pra ler sobre isso.
Fernanda , eu realizei a regressão e tive problemas no meu resíduo ! Não provei o pre requisito de independência e homocedasticidade . Será que eu fiz o modelo de forma errada ou isso é normal e eu posso " resolver " ?
A independência não é necessariamente um problema quando estamos falando de modelos que não são longitudinais (ou seja, não são de medidas repetidas). Mas, a homocedasticidade sim. Dá uma olhada nas instruções do livro "Manual de análise de dados", do Fávero e da Belfiore. Eles explicam as alternativas quando o pressuposto não é atendido.
Fernanda, tenho observado que alguns artigos internacionais não apresentam o valor p, indicando nas tabelas apenas o valor de t_ stats e colocam os ***,**,* indicando a significância a 1, 5, 10 porcento. Caso não haja essa indicação dos asteristicos, só olhando para o valor de t conseguiria dizer se é significativo ou não? Ou neste caso só os autores fornecem os dados ? Se não tenho o p valor consigo dizer o que é e o que não é significante ? Agradeço a ajuda
Então, se eles fornecem o asterisco, estão fornecendo o valor de p. O que tem asterisco indicando que é significativo ao nível de 1%, está implícito que o p foi menor que 0,01. Olhando só o valor de t você não conseguiria saber porque você precisa ter, além do valor de t, o grau de liberdade. Se ele tiver sido fornecido (em geral, entre parênteses na frente do t) existe uma função do Excel que permite calcular o p com facilidade (função dist.t.bc).
É exatamente esse caso, você faz uma regressão linear simples. Se a categórica for a dependente, aí você vai ter que usar um modelo de regressão logística (binária ou multinomial)
@@alessandrodeoliveira1914 Eu não lembro de cabeça qual a sugestão de análise para esse caso. O livro Manual de Análise de Dados, do Fávero, traz essas informações.
Não, rs. Você vai ter que usar um outro modelo, como o GEE ou o modelo misto. Sugestão de referência (que indica outras referências): onlinelibrary.wiley.com/doi/full/10.1111/ceo.12358