Interessa estudar a relação entre a resistência de um determinado
tipo de plástico (Y
) e o tempo que decorre a partir da
conclusão do processo de moldagem até ao momento de medição da
resistência (x
em horas). As observações que se seguem
foram efectuadas em 12 peças construídas com este plástico, escolhidas
aleatoriamente.
rm(list=ls())
x <- c(32,48,72,64,48,16,40,48,48,24,80,56)
y <- c(230,262,323,298,255,199,248,279,267,214,359,305)
Valores observados da resistência do tipo de plástico
(Y
) versus o tempo de moldagem até ao momento da sua
medição (x
).
plot(x,y,col="red")
\[ Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \ i\!=\!1,\ldots,n \]
onde \(\varepsilon_i, i\!=\!1,\ldots,n, \ \sim N(0,\sigma^2)\) independentes.
Estimativas de mínimos quadrados e de máxima verosimilhança: \[ \begin{array}{l} {\hat{\beta}_1} = \frac{\sum\limits_{i = 1}^{12} {x_i y_i } - n\bar{x}\bar{y}}{\sum\limits_{i = 1}^{12} {x_i^2 } - n\bar{x}^2} = \frac{164752 - 12 \times 48 \times 269.92}{31486 - 12 \times (48)^2} = 2.4167 \\ {\hat {\beta }_0} = \bar{y} - {\hat {\beta }_1} \bar{x} = 269.92 - 2.4167 \times 48 = 153.9167 \end{array} \]
Equação de regressão estimada: \[ {\hat y}_i \equiv {\widehat E(Y_i)} = {\hat \beta_0} + {\hat{\beta}_1} x_i = 153.91 + 2.4167 x_i \]
lm
(linear model):mrl <- lm(y~x)
mrl
#>
#> Call:
#> lm(formula = y ~ x)
#>
#> Coefficients:
#> (Intercept) x
#> 153.917 2.417
Valores ajustados da resistência do tipo de plástico (Y
)
a partir do tempo de moldagem até ao momento da sua medição
(x
).
plot(x,y)
lines(x,fitted(mrl),type="l",lty=1,col="blue")
\[ r^2 = \frac{\left( {\sum_{i = 1}^n {x_i y_i } - n\bar{x}\bar{y}} \right)^2}{\left( {\sum_{i = 1}^n {x_i^2 } - n\bar {x}^2} \right)\times \left( {\sum_{i = 1}^n {y_i^2 } - n\bar{y}^2} \right)} = \frac{(9278.08)^2}{3838 \times 23378.92} = 0.9593 \] Isto é, 95.93% da variabilidade total da resistência do plástico é explicada pelo modelo de regressão com o tempo decorrido entre a moldagem e a medição da resistência.
lm
(linear model):mrl <- lm(y~x)
summary(mrl)$r.squared
#> [1] 0.9592689
Teste de hipóteses:
lm
(linear model):mrl <- lm(y~x)
summary(mrl)
#>
#> Call:
#> lm(formula = y ~ x)
#>
#> Residuals:
#> Min 1Q Median 3Q Max
#> -14.917 -5.667 -1.917 7.083 15.750
#>
#> Coefficients:
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 153.9167 8.0666 19.08 3.40e-09 ***
#> x 2.4167 0.1575 15.35 2.81e-08 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> Residual standard error: 9.758 on 10 degrees of freedom
#> Multiple R-squared: 0.9593, Adjusted R-squared: 0.9552
#> F-statistic: 235.5 on 1 and 10 DF, p-value: 2.807e-08
Intervalo de confiança a 95% \(E(Y|x_0)\):
Variável fulcral para \(E(Y|x_0)=\beta_0 + \beta_1 x_0\): \[
W = \frac{\left( {\hat {\beta }_0 + \hat {\beta }_1 x_0 } \right) -
\left( {\beta _0 + \beta _1 x_0 } \right)}{\sqrt {\left( {\frac{1}{n} +
\frac{\left( {\bar {x} - x_0 } \right)^2}{(\sum_i {x_i^2 } - n
\bar{x}^2)}} \right)\hat {\sigma }^2} } \ \sim \ t_{(10)}
\]
\(P(-2.228 < W < 2.228 ) = 0.95\) pois \(F_{t(10)}^{-1}(0.975) = 2.228\)
Intervalo aleatório de confiança para \(E(Y|x_0)\) a \(95\%\): \[ (\hat{\beta}_0 + \hat{\beta}_1 x_0) \pm 2.228 \sqrt{\left({\frac{1}{n} + \frac{\left( {\bar{x}-x_0} \right)^2}{\sum_i {x_i^2} - n\bar{x}^2} } \right) \hat{\sigma}^2} \]
Estimativa pontual: \[ \hat{y}_0 \equiv {\widehat E(Y|x_0=48)} = 153.91 + 2.4167 \times 48 = 269.91 \]
Intervalo de confiança para \(E(Y|x_0=48)\) a \(95\%\): \[ \begin{array}{l} 269.91 \pm 2.228 \times 9.758 \sqrt{\frac{1}{10} + \frac{(48-48)^2}{3838}} \\ 269.91 \pm 6.875 \\ (263.035; 276.785) \end{array} \]
lm
(linear model):mrl <- lm(y~x)
newdata1 = data.frame(x=48)
predict(mrl, newdata1, interval="confidence")
#> fit lwr upr
#> 1 269.9167 263.64 276.1933
Note-se que não é aconselhado usarmos \(x_0\) fora do domínio de actuação dos dados observados, visto que não há informação fora desse domínio. O que acontece com \(x_0=10\notin (16,80)\).
lm
(linear model):mrl <- lm(y~x)
newdata2 = data.frame(x=10)
predict(mrl, newdata2, interval="confidence")
#> fit lwr upr
#> 1 178.0833 163.3466 192.8201
\[ r_i^S = (y_i-\hat{y}_i)/\sqrt{\hat{\sigma}^2} \]
lm
(linear model):mrl <- lm(y~x)
stdres = rstandard(mrl)
plot(x, stdres, ylab="Resíduos", xlab="tempo de moldagem", main="Resistência do plástico", col="red")
Silva, G.L. e Paulino, C.D. (2023). Notas de Probabilidades e Estatística, 2ª edição. Instituto Superior Técnico, Lisboa. https://www.math.tecnico.ulisboa.pt/~gsilva/PE_slides-print.pdf
R Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, 2019, Vienna, Austria. https://www.R-project.org/