Table of contents
Về cuốn sách nàyNhập môn về RQuản lý dữ liệu
Phân tích dữ liệu
Trực quan liêu hóa dữ liệu
Báo cáo với dashboards
Tổng hòa hợp
19 Hồi quy solo và nhiều biến
Trong chương này, chúng tôi trình bày biện pháp sử dụng những hàm hồi quy vào base R rnhư hàm glm() cùng package gtsummary để thấy xét các mối liên quan giữa những biến (ví dụ như tỷ số chênh, tỷ số nguy cơ, tỷ số đen đủi ro). Chúng tôi cũng trình bày cách sử dụng các hàm như tidy() trong package broom để thu xếp các hiệu quả hồi quy.
Bạn đang xem: Cách sử dụng phương pháp phân tích đa biến và mô hình hồi quy trong phân tích
Phân tích đối kháng biến: bảng 2 x 2Phân tích phân tầng: ước lượng của mantel-haenszelPhân tích đa biến: lựa chọn đổi mới số, tuyển lựa mô hình, quy mô cuối cùng
Biểu vật dụng Forest plot
Đối cùng với hồi quy Cox, xem chương đối chiếu sống còn.
CHÚ Ý: cửa hàng chúng tôi sử dụng thuật ngữ đa biến hóa (multivariable) để nói đến một hồi quy có tương đối nhiều biến giải thích. Thuật ngữ này khác với mô hình đa biến (multivariate model), là một mô hình đa biến có khá nhiều biến kết cục – xem cụ thể trong bài bác xã luận này
Gọi packages
pacman::p_load( rio, # tệp tin import here, # tệp tin locator tidyverse, # data management + ggplot2 graphics, stringr, # manipulate text strings purrr, # loop over objects in a tidy way gtsummary, # summary statistics and tests broom, # tidy up results from regressions lmtest, # likelihood-ratio tests parameters, # alternative khổng lồ tidy up results from regressions see # alternative khổng lồ visualise forest plots )
Nhập số liệu
Chúng tôi nhập bộ số liệu của các ca dịch được tế bào phỏng xuất phát điểm từ một vụ dịch Ebola. Để tiện có tác dụng theo, bấm để mua số liệu linelist “đã được gia công sạch” (dưới dạng tệp .rds ). Nhập số liệu này bởi hàm import() vào package rio (nó chấp nhận nhiều các loại tập tin như .xlsx, .rds, .csv – xem chi tiết trong chương Nhập xuất dữ liệu).# import the linelistlinelist import("linelist_cleaned.rds")
Bên dưới là hiển thị của 50 bậc nhất tiên của cục số liệu linelist.
Làm sạch sẽ số liệu
Lưu trữ các biến giải thích
Tên của những biến lý giải sẽ được lưu trữ dưới dạng một véc tơ ký kết tự. Véc tơ này sẽ được đề cập về sau.
## define variables of interest explanatory_vars c("gender", "fever", "chills", "cough", "aches", "vomit")
Chuyển đổi sang hàng đầu và số 0Sau đây, giá bán trị của các biến phân tích và lý giải được chuyển đổi từ “có”/“không”, “nam”/“nữ” cùng “chết”/“sống” thành 1 / 0, để phù hợp với các đặc tính của quy mô hồi quy logistic. TĐể triển khai việc này một cách hiệu quả, thực hiện hàm across() trường đoản cú dplyr để đổi khác nhiều phát triển thành cùng một lúc. Để áp dụng cho mỗi biến, dùng hàm case_when() (cũng vào package dplyr) để thay đổi các giá trị cụ thể thành 1 với 0. Xem những mục về across() cùng case_when() vào chương làm cho sạch số liệu và các hàm quan trọng).
Chú ý: dấu “.” dưới đại diện mang lại cột`````đang được giải pháp xử lý trong hàmacross()` tại thời khắc đó.
## convert dichotomous variables to lớn 0/1 linelist linelist %>% mutate(across( .cols = all_of(c(explanatory_vars, "outcome")), ## for each column listed and "outcome" .fns = ~case_when( . %in% c("m", "yes", "Death") ~ 1, ## recode male, yes & death to lớn 1 . %in% c("f", "no", "Recover") ~ 0, ## female, no & recover to lớn 0 TRUE ~ NA_real_) ## otherwise set lớn missing ) )
Loại bỏ các hàng có mức giá trị missing
Để bỏ những hàng có giá trị missing, dùng hàm drop_na() trong package tidyr. Tuy nhiên, bọn họ chỉ muốn triển khai điều này cho những hàng có giá trị missing đối với các cột đang rất được quan tâm.
Trước hết, chúng ta phải bảo đảm an toàn rằng vectơ explanatory_vars bao gồm các đổi thay age (age có thể tạo ra một lỗi trong thao tác làm việc của hàm case_when() trước đó, nhưng chỉ giành cho biến nhị phân). Sau đó bọn họ pipe bộ dữ liệu linelist tới hàm drop_na() để bỏ những hàng có mức giá trị missing cho biến chuyển outcome hoặc ngẫu nhiên biển lý giải explanatory_vars nào.
Trước khi tiến hành các lệnh này, kiểm tra số hàng trong cỗ số liệu linelist bởi hàm nrow(linelist).
## địa chỉ in age_category lớn the explanatory vars explanatory_vars c(explanatory_vars, "age_cat")## drop rows with missing information for variables of interest linelist linelist %>% drop_na(any_of(c("outcome", explanatory_vars)))
19.2 Phân tích đối kháng biến
Cũng giống hệt như chương Bảng mô tả, bọn họ cần xác định packahe nào trong R mà bọn họ muốn sử dụng. Công ty chúng tôi trình bày hai chọn lựa để tiến hành các phân tích đơn biến:
Dùng hàm gồm sẵn trong base để in nhanh tác dụng ra console. áp dụng package broom để gia công gọn kết quả.Dùng package gtsummary nhằm lập quy mô và nhấn các công dụng đầu ra sẵn sàng để công bốHồi quy con đường tính
Hàm lm() vào base chất nhận được thực hiện tại hồi quy con đường tính để đánh giá mối quan hệ tình dục giữa biến áp ra output dạng số (numeric) và các biến giải thích mà được mang định là có mối quan hệ tuyến tính.
Cung cấp cho phương trình bên dưới dạng phương pháp với thương hiệu của biến áp ra output và các biến giải thích được phân tách bóc bằng dấu xẻ ~. Bên cạnh đó, chỉ rõ cỗ số liệu nào được thực hiện với data =. Hiệu quả của quy mô được quan niệm dưới dạng đối tượng của R để sử dụng về sau.
Sau kia tóm tắt kết quả của quy mô bằng hàm summary() để xem những hệ số (ước tính), P-value, phần dư và các đo lường và thống kê khác.
## # A tibble: 2 x 5## term estimate std.error statistic p.value## ## 1 (Intercept) 69.9 0.598 117. 0## 2 age 3.44 0.0293 117. 0Sau đó, rất có thể sử dụng hiệu quả hồi quy này để mang vào ggplot. Để thực hiện điều này, trước tiên bọn họ đưa các giá trị quan giáp và đường thẳng hồi quy (fitted line) vào một trong những data frame bằng phương pháp dùng hàm augment() trong package broom.
## pull the regression points and observed data in to lớn one datasetpoints augment(lm_results)## plot the data using age as the x-axis ggplot(points, aes(x = age)) + ## add points for height geom_point(aes(y = ht_cm)) + ## địa chỉ cửa hàng your regression line geom_line(aes(y = .fitted), colour = "red")

## địa chỉ your data khổng lồ a plot ggplot(linelist, aes(x = age, y = ht_cm)) + ## show points geom_point() + ## add a linear regression geom_smooth(method = "lm", se = FALSE)

Hồi quy Logistic
Hàm glm() trong package stats (một phần của base R) được thực hiện để fit (chọn mô hình dự đoán buổi tối ưu dựa trên số liệu quan lại sát) so với Mô hình tuyến đường tính tổng thể (GLM).
glm() có thể được sử dụng cho cả hồi quy logistic đơn biến và đa biến (ví dụ như để tính tỷ số chênh OR). Sau đây là những thành phần bao gồm của hàm:
family = khẳng định loại quy mô sẽ thực hiện. Đối cùng với hồi quy logistic, thực hiện family = "binomial", đối với hồi quy poisson sử dụng family = "poisson". Những ví dụ không giống được trình diễn trong bảng bên dưới.data = cụ thể bộ số liệu
Nếu cần, hoàn toàn có thể cụ thể hàm liên kết bằng cú pháp family = familytype(link = "linkfunction")). Bạn có thể tìm tham khảo thêm về các họ hồi quy khác và các tùy chọn đối số như thể weights = với subset = bằng phương pháp gõ (?glm).
"binomial" | (link = "logit") |
"gaussian" | (link = "identity") |
"Gamma" | (link = "inverse") |
"inverse.gaussian" | (link = "1/mu^2") |
"poisson" | (link = "log") |
"quasi" | (link = "identity", variance = "constant") |
"quasibinomial" | (link = "logit") |
"quasipoisson" | (link = "log") |
Khi tiến hành glm() , thịnh hành nhất là lưu tác dụng dưới dạng một đối tượng của R được đặt tên. Sau đó, hoàn toàn có thể xuất tác dụng ra console bằng phương pháp sử dụng hàm summary() như được trình bày bên dưới, hoặc tiến hành các làm việc khác từ kết quả (ví dụ như mang lũy thừa).
Nếu cần thực hiện một hồi quy nhị thức âm, hoàn toàn có thể sử dụng package MASS. Hàn glm.nb() uses cũng áp dụng cùng cú pháp như glm(). Để coi qua những hồi quy khác, xem trên trang thống kê của UCLA.
Phân tích đối chọi biến thực hiện glm()
Trong lấy ví dụ như này, công ty chúng tôi đánh giá bán mối tương quan giữa team tuổi và trở nên kết cục tử vong (được mã hóa là 1 trong những trong phần chuẩn chỉnh bị). Dưới là một mô hình đơn đổi thay của trở thành kết viên outcome theo age_cat. Chúng tôi lưu tác dụng đầu ra chọn cái tên là mã sản phẩm và kế tiếp in tác dụng đến console bởi hàm summary(). Lưu ý, những ước tính được tạo ra là những giá trị lôgarít của tỷ số chênh (log odds) và quý hiếm tham chiếu là giá trị đầu tiên của đổi thay age_cat (“0-4”).
linelist %>% mutate(age_cat = fct_relevel(age_cat, "20-29", after = 0)) %>% glm(formula = outcome ~ age_cat, family = "binomial") %>% summary()
In kết quả
Đối với đa số các mục đích sử dụng, kết quả đầu ra rất cần phải có một vài sửa đổi. Hàm có tác dụng gọn tidy() trong package broom gồm những tiện lợi để hiển thị công dụng của tế bào hình.
Ở đây, cửa hàng chúng tôi trình bày cách để kết hợp các kết quả đầu ra của quy mô vào vào một bảng.
Lấy lũy thừa logarit của cầu lượng tỉ số chênh OR và khoảng tin cậy bằng phương pháp đưa quy mô vào hàm tidy() và tùy chỉnh lũy thừa exponentiate = TRUE với conf.int = TRUE.model glm(outcome ~ age_cat, family = "binomial", data = linelist) %>% tidy(exponentiate = TRUE, conf.int = TRUE) %>% # exponentiate & produce CIs mutate(across(where(is.numeric), round, digits = 2)) # round all numeric columns
Bên bên dưới là bảng công dụng đầu ra của model:
counts_table linelist %>% janitor::tabyl(age_cat, outcome)
Đây là giải pháp mà bảng counts_table được hiển thị:
Bây giờ chúng ta cũng có thể nối bảng counts_table và kết quả của mô hình model lại cùng với nhau theo hướng ngang bằng hàm nối cột bind_cols() (dplyr). Hãy ghi nhớ rằng đối với hàm bind_cols() các hàng trong hai cấu tạo dữ liệu trên cần được chỉnh sửa hoàn hảo. Trong đoạn code này, chính vì chúng ta đang triển khai một chuỗi các thuật toán pipe, họ sử dụng vết . để thay mặt đại diện cho đối tượng người tiêu dùng được nối vào bảng đếm counts_table khi chúng tôi nối nó với hiệu quả mô hình model. Để kết thúc quy trình này, bọn họ sử dụng hàm select() để chọn các cột ước muốn và lắp thêm tự của nó, và sau cuối áp dụng hàm round() vào base R để triển khai tròn với nhị chữ số thập phân cho tất cả các cột.
combined counts_table %>% # begin with table of counts bind_cols(., model) %>% # combine with the outputs of the regression select(term, 2:3, estimate, # select và re-order cols conf.low, conf.high, p.value) %>% mutate(across(where(is.numeric), round, digits = 2)) ## round khổng lồ 2 decimal places
Đây là hiển thị của cấu trúc đã được kết hợp, nó được xuất gọn gẽ dưới dạng một hình bởi thông sang một hàm vào package flextable. Chương trình bày bảng phân tích và lý giải cách tùy chỉnh thiết lập các bảng như vậy bằng flextable, hoặc rất có thể sử dụng những gói lệnh khác ví như knitr hoặc GT.
Vòng lặp cho nhiều mô hình đơn biến
Để tiến hành các quy mô cho một số trong những biến phân tích và lý giải và cho ra các tỷ số chênh vào phân tích solo biến (nghĩa là ko có điều hành và kiểm soát lẫn nhau), bạn có thể sử dụng các cách tiếp cận dưới đây. Sử dụng hàm str_c() từ package stringr để tạo nên các cách làm cho phân tích solo biến (xem chương cam kết tự cùng chuỗi), tiến hành hàm glm() cho từng công thức, gửi mỗi tác dụng đầu ra của glm() mang lại hàm tidy() và cuối cùng thu gọn lại vớ các kết quả đầu ra của mô hình bằng hàm nối loại bind_rows() từ bỏ tidyr. Cách thức này sử dụng hàm map() tự package purrr để lặp - coi chương
Tạo một véctơ tên những cột của trở nên giải thích. Bọn họ đã tạo biến chuyển này explanatory_vars vào phần chuẩn bị của chương này.
Sử dụng hàm str_c() nhằm tạo các công thức chuỗi với biến hóa kết viên outcome ở phía trái và thương hiệu một cột của véctơ explanatory_vars ở mặt phải. Vết chấm . Vào hàm này sửa chữa thay thế cho tên cột trong véctơ explanatory_vars.
## <1> "outcome ~ gender" "outcome ~ fever" "outcome ~ chills" "outcome ~ cough" "outcome ~ aches" "outcome ~ vomit" "outcome ~ age_cat"Kết quả cổng đầu ra của hàm map() trước tiên sẽ được chuyển mang đến hàm map() đồ vật hai mà thực hiện hàm tidy() để triển khai gọn các tác dụng đầu ra.
Cuối cùng, hiệu quả đầu ra của hàm map() đồ vật hai (một danh sách các data frames đã được làm gọn) được nắm tắt bởi hàm nối chiếc bind_rows(), công dụng cho ra một data frame với tất cả các hiệu quả đơn biến.
models explanatory_vars %>% # begin with variables of interest str_c("outcome ~ ", .) %>% # combine each variable into formula ("outcome ~ variable of interest") # iterate through each univariate formula map( .f = ~glm( # pass the formulas one-by-one khổng lồ glm() formula = as.formula(.x), # within glm(), the string formula is .x family = "binomial", # specify type of glm (logistic) data = linelist)) %>% # dataset # tidy up each of the glm regression outputs from above map( .f = ~tidy( .x, exponentiate = TRUE, # exponentiate conf.int = TRUE)) %>% # return confidence intervals # collapse the các mục of regression outputs in khổng lồ one data frame bind_rows() %>% # round all numeric columns mutate(across(where(is.numeric), round, digits = 2))
Lúc này, tác dụng xuất ra của models dài hơn bởi vì kết trái bây giờ bao hàm các công dụng đầu ra của một trong những hồi quy solo biến. Nhấp nút tiếp theo để xem toàn bộ các hàng của model.
Như lúc trước, bạn cũng có thể tạo một bảng đếm từ cỗ số liệu linelist cho mỗi biến giải thích, gắn bọn chúng với models, và tạo thành một bảng đẹp. Chúng ta ban đầu với những biến lý giải này, với lặp lại những biến này thông qua hàm map(). Họ lặp lại sang một hàm do người dùng tạo ra mà liên quan đến việc tạo nên một bảng đếm bằng phương pháp dùng các hàm vào package dplyr Sau đó, kết quả được liên kết trình từ bỏ với hiệu quả của quy mô models.
## for each explanatory variableuniv_tab_base explanatory_vars %>% map(.f = ~linelist %>% ## begin with linelist group_by(outcome) %>% ## group data phối by outcome count(.data<<.x>>) %>% ## produce counts for variable of interest pivot_wider( ## spread khổng lồ wide format (as in cross-tabulation) names_from = outcome, values_from = n) %>% drop_na(.data<<.x>>) %>% ## drop rows with missings rename("variable" = .x) %>% ## change variable of interest column khổng lồ "variable" mutate(variable = as.character(variable)) ## convert to character, else non-dichotomous (categorical) variables come out as factor and cant be merged ) %>% ## collapse the list of count outputs in to one data frame bind_rows() %>% ## merge with the outputs of the regression bind_cols(., models) %>% ## only keep columns interested in select(term, 2:3, estimate, conf.low, conf.high, p.value) %>% ## round decimal places mutate(across(where(is.numeric), round, digits = 2))
Bên dưới là kết cấu số liệu kết nối được tạo nên ra. Xem chương trình bày bảng để có thêm ý tưởng phát minh về cách biến hóa bảng số liệu này thành một bảng đẹp mắt trên HTML (ví dụ như với package flextable).
gtsummary package
Sau đây công ty chúng tôi sẽ trình diễn cách áp dụng hàm tbl_uvregression() từ bỏ package gtsummary. Cũng giống như trong chương Bảng mô tả, các hàm vào gtsummary thực hiện tốt các thống kê và xuất ra các công dụng khá chuyên nghiệp. Hàm này xuất ra một bảng kết quả của hồi quy đối kháng biến.
Chúng ta chỉ chọn các cột quan trọng từ bộ số liệu linelist (ecác biến phân tích và lý giải và biến đổi kết cục) cùng pipe chúng vào hàm tbl_uvregression(). Họ sẽ triển khai hồi quy 1-1 biến cho mỗi cột như được khẳng định trong véctơ explanatory_vars vào mục sẵn sàng (gender, fever, chills, cough, aches, vomit, và age_cat).
Trong hàm này, họ cung cấp thêm cách thức thực hiện nay method = là glm (không bao gồm dấu ngoặc kép), đổi thay kết cục y = cột kết quả (biến outcome), cụ thể method.args = mà họ muốn triển khai hồi quy logistic qua family = binomial, và lấy lũy quá của kết quả.
Kết quả đầu ra output dưới dạng HTML và đựng cột đếm
univ_tab linelist %>% dplyr::select(explanatory_vars, outcome) %>% ## select variables of interest tbl_uvregression( ## produce univariate table method = glm, ## define regression want to run (generalised linear model) y = outcome, ## define outcome variable method.args = list(family = binomial), ## define what type of glm want to lớn run (logistic) exponentiate = TRUE ## exponentiate to lớn produce odds ratios (rather than log odds) )## view univariate results table univ_tab
gender | 4167 | 1.00 | 0.88, 1.13 | >0.9 |
fever | 4167 | 1.00 | 0.85, 1.17 | >0.9 |
chills | 4167 | 1.03 | 0.89, 1.21 | 0.7 |
cough | 4167 | 1.15 | 0.97, 1.37 | 0.11 |
aches | 4167 | 0.93 | 0.76, 1.14 | 0.5 |
vomit | 4167 | 1.09 | 0.96, 1.23 | 0.2 |
age_cat | 4167 | |||
0-4 | — | — | ||
5-9 | 0.94 | 0.77, 1.15 | 0.5 | |
10-14 | 1.15 | 0.93, 1.42 | 0.2 | |
15-19 | 0.99 | 0.80, 1.24 | >0.9 | |
20-29 | 1.03 | 0.84, 1.26 | 0.8 | |
30-49 | 1.07 | 0.85, 1.33 | 0.6 | |
50-69 | 0.68 | 0.41, 1.13 | 0.13 | |
70+ | 0.53 | 0.07, 3.20 | 0.5 | |
1 OR = Odds Ratio, CI = Confidence Interval |
Chúng ta rất có thể sửa đổi đối với tác dụng đầu ra của bảng này, ví như điều chỉnh những nhãn, sơn đậm các hàng theo giá trị p, .v.v. Xem lý giải tại phía trên và các tài liệu trực con đường khác.
19.3 đối chiếu phân tầng
Hiện tại, so sánh phần tầng áp dụng package gtsummary đang rất được xây dựng, phần này vẫn được update trong thời gian thích hợp.
19.4 Phân tích đa biến
Đối với phân tích đa biến, công ty chúng tôi trình bày hai bí quyết tiếp cận:
Package gtsummaryQuy trình thực hiện khá tương tự như và chỉ không giống ở bước cuối cùng để kết nối công dụng lại với nhau.
Thực hiện phân tích đa biến
Ở đây cửa hàng chúng tôi sử dụng hàm glm() nhưng thêm nhiều biến hóa hơn vào bên bắt buộc của phương trình với được phân tách bóc với nhau bằng dấu cộng (+).
Để thực hiện quy mô với tất cả các biến chuyển giải thích, bọn họ thực hiện lệnh sau:
mv_reg glm(outcome ~ gender + fever + chills + cough + aches + vomit + age_cat, family = "binomial", data = linelist)summary(mv_reg)
Một tùy chọn khác, chúng ta cũng có thể sử dụng đoạn mã này để thực hiện một véc tơ vẫn được có mang trước của những cột và chế tác lại lệnh trên bằng phương pháp sử dụng hàm str_c(). Điều này có thể hữu ích nếu chúng ta thay đổi tên những biến giải thích, hoặc bạn không muốn gõ lại tất cả mọi thứ.
Xem thêm: Thai 31 tuần là mấy tháng, chỉ số thai, hình ảnh, cân nặng
## run a regression with all variables of interest mv_reg explanatory_vars %>% ## begin with vector of explanatory column names str_c(collapse = "+") %>% ## combine all names of the variables of interest separated by a plus str_c("outcome ~ ", .) %>% ## combine the names of variables of interest with outcome in formula style glm(family = "binomial", ## define type of glm as logistic, data = linelist) ## define your dataset
Xây dựng tế bào hình
Chúng ta có thể xây dựng quy mô theo từng bước, lưu các mô hình khác biệt với một vài biến giải thích. Bạn cũng có thể sử dụng kiểm định tỷ số khả dĩ (likelihood-ratio tests) để đối chiếu các quy mô này bằng phương pháp sử dụng hàm lrtest() tự package lmtest, như dưới đây:
CHÚ Ý: sử dụng hàn anova(model1, model2, kiểm tra = "Chisq) trong base R cũng cho hiệu quả tương tự
model1 glm(outcome ~ age_cat, family = "binomial", data = linelist)model2 glm(outcome ~ age_cat + gender, family = "binomial", data = linelist)lmtest::lrtest(model1, model2)
## Likelihood ratio test## ## model 1: outcome ~ age_cat## mã sản phẩm 2: outcome ~ age_cat + gender## #Df Log
Lik Df Chisq Pr(>Chisq)## 1 8 -2852.6 ## 2 9 -2852.6 1 0.0002 0.9883Một tùy chọn khác là lấy đối tượng người sử dụng của quy mô và áp dụng hàm step() trường đoản cú package stats. Chứng tỏ hướng lựa chọn vươn lên là mà chúng ta muốn thực hiện khi desgin mô hình.
## choose a mã sản phẩm using forward selection based on AIC## you can also vị "backward" or "both" by adjusting the directionfinal_mv_reg mv_reg %>% step(direction = "forward", trace = FALSE)
Như được mô tả trong phần phân tích đối kháng biến, chuyển kết quả đầu ra của quy mô vào hàm tidy() để đưa lũy thừa cho các hệ số với khoảng tin cẩn (CIs). Cuối cùng, có tác dụng tròn tất cả các cột số với nhị số thập phân. Kéo qua để xem tất cả các hàng.
mv_tab_base final_mv_reg %>% broom::tidy(exponentiate = TRUE, conf.int = TRUE) %>% ## get a tidy dataframe of estimates mutate(across(where(is.numeric), round, digits = 2)) ## round
Gộp bằng package gtsummary
Hàm tbl_regression() vào package gtsummary đã lấy hiệu quả đầu tra từ 1 hồi quy (hàm glm() vào trường hòa hợp này) và tạo thành một bảng cầm tắt đẹp.
## show results table of final regression mv_tab tbl_regression(final_mv_reg, exponentiate = TRUE)
Hãy coi bảng sau:
mv_tab
gender | 1.00 | 0.88, 1.14 | >0.9 |
fever | 1.00 | 0.86, 1.18 | >0.9 |
chills | 1.03 | 0.89, 1.21 | 0.7 |
cough | 1.15 | 0.96, 1.37 | 0.12 |
aches | 0.93 | 0.76, 1.14 | 0.5 |
vomit | 1.09 | 0.96, 1.23 | 0.2 |
age_cat | |||
0-4 | — | — | |
5-9 | 0.94 | 0.77, 1.15 | 0.5 |
10-14 | 1.15 | 0.93, 1.41 | 0.2 |
15-19 | 0.99 | 0.79, 1.24 | >0.9 |
20-29 | 1.03 | 0.84, 1.26 | 0.8 |
30-49 | 1.06 | 0.85, 1.33 | 0.6 |
50-69 | 0.68 | 0.40, 1.13 | 0.14 |
70+ | 0.52 | 0.07, 3.19 | 0.5 |
1 OR = Odds Ratio, CI = Confidence Interval |
Chúng ta cũng có thể kết hợp một vài bảng hiệu quả đầu ra bằng cách dùng hàm tbl_merge() trong package gtsummary. Bây giờ chúng ta hộp các hiệu quả đa trở thành với hiệu quả đơn biến đã được tạo bên trên bằng package gtsummary:
## combine with univariate results tbl_merge( tbls = list(univ_tab, mv_tab), # combine tab_spanner = c("**Univariate**", "**Multivariable**")) # phối header names
gender | 4167 | 1.00 | 0.88, 1.13 | >0.9 | 1.00 | 0.88, 1.14 | >0.9 |
fever | 4167 | 1.00 | 0.85, 1.17 | >0.9 | 1.00 | 0.86, 1.18 | >0.9 |
chills | 4167 | 1.03 | 0.89, 1.21 | 0.7 | 1.03 | 0.89, 1.21 | 0.7 |
cough | 4167 | 1.15 | 0.97, 1.37 | 0.11 | 1.15 | 0.96, 1.37 | 0.12 |
aches | 4167 | 0.93 | 0.76, 1.14 | 0.5 | 0.93 | 0.76, 1.14 | 0.5 |
vomit | 4167 | 1.09 | 0.96, 1.23 | 0.2 | 1.09 | 0.96, 1.23 | 0.2 |
age_cat | 4167 | ||||||
0-4 | — | — | — | — | |||
5-9 | 0.94 | 0.77, 1.15 | 0.5 | 0.94 | 0.77, 1.15 | 0.5 | |
10-14 | 1.15 | 0.93, 1.42 | 0.2 | 1.15 | 0.93, 1.41 | 0.2 | |
15-19 | 0.99 | 0.80, 1.24 | >0.9 | 0.99 | 0.79, 1.24 | >0.9 | |
20-29 | 1.03 | 0.84, 1.26 | 0.8 | 1.03 | 0.84, 1.26 | 0.8 | |
30-49 | 1.07 | 0.85, 1.33 | 0.6 | 1.06 | 0.85, 1.33 | 0.6 | |
50-69 | 0.68 | 0.41, 1.13 | 0.13 | 0.68 | 0.40, 1.13 | 0.14 | |
70+ | 0.53 | 0.07, 3.20 | 0.5 | 0.52 | 0.07, 3.19 | 0.5 | |
1 OR = Odds Ratio, CI = Confidence Interval |
Gộp bằng package dplyr
Một bí quyết khác nhằm gộp các hiệu quả đơn phát triển thành và đa đổi mới từ các hàm glm()/tidy() bằng cách sử dụng những hàm liên kết từ package dplyr.
Kết nối hiệu quả đơn phát triển thành trước đó (univ_tab_base, đựng được các cột đếm) với tác dụng đa thay đổi đã được gia công gọn mv_tab_baseSử dụng hàm select() để giữ lại lại, bố trí lại thiết bị tự cùng đặt lại tên những cột mà họ muốn
## combine univariate và multivariable tables left_join(univ_tab_base, mv_tab_base, by = "term") %>% ## choose columns & rename them select( # new name = old name "characteristic" = term, "recovered" = "0", "dead" = "1", "univ_or" = estimate.x, "univ_ci_low" = conf.low.x, "univ_ci_high" = conf.high.x, "univ_pval" = p.value.x, "mv_or" = estimate.y, "mvv_ci_low" = conf.low.y, "mv_ci_high" = conf.high.y, "mv_pval" = p.value.y ) %>% mutate(across(where(is.double), round, 2))
19.5 Biểu đồ dùng Forest plot
Phần này lý giải cách tạo ra một biểu trang bị của các kết quả hồi quy. Gồm hai sàng lọc để chế tạo ra biểu đồ, bạn có thể tự sinh sản một biểu đồ bằng phương pháp sử dụng package ggplot2 hoặc áp dụng một meta-package có tên easystats (một package bao gồm nhiều package).ggplot2 package
Bạn hoàn toàn có thể xây dựng một forest plot cùng với hàm ggplot() bằng phương pháp vẽ những thành phần của công dụng hồi quy nhiều biến. Thêm những lớp của biều đồ bằng phương pháp sử dụng các “geoms”:
Các ước lượng bằng hàm geom_point()Khoảng tin tưởng bằng hàm geom_errorbar()Đường trực tiếp đứng ở chỗ OR = 1 bởi hàm geom_vline()Trước khi chế tạo biểu đồ, họ sử dụng hàm fct_relevel() từ bỏ package forcats để tại vị thứ tự những biến bên trên trục y. Hàm ggplot() chất nhận được hiển thị theo vật dụng tự chữ-số mà có thể không hiển thị tốt cho các giá trị của biến đổi tuổi (“30” có thể hiển thị trước “5”). Xem chương Factors để hiểu biết thêm chi tiết.
## remove the intercept term from your multivariable resultsmv_tab_base %>% #set order of levels khổng lồ appear along y-axis mutate(term = fct_relevel( term, "vomit", "gender", "fever", "cough", "chills", "aches", "age_cat5-9", "age_cat10-14", "age_cat15-19", "age_cat20-29", "age_cat30-49", "age_cat50-69", "age_cat70+")) %>% # remove "intercept" row from plot filter(term != "(Intercept)") %>% ## plot with variable on the y axis and estimate (OR) on the x axis ggplot(aes(x = estimate, y = term)) + ## show the estimate as a point geom_point() + ## add in an error bar for the confidence intervals geom_errorbar(aes(xmin = conf.low, xmax = conf.high)) + ## show where OR = 1 is for reference as a dashed line geom_vline(xintercept = 1, linetype = "dashed")

easystats packages
Lựa lựa chọn thứ hai là sử dụng một sự kết hợp của những package vào easystats, nếu họ không mong muốn mức độ kiểm soát nghiêm ngặt mà package ggplot2 cung cấp.Hàm model_parameters() tự package parameters triển khai tương đương với hàm tidy() trong package broom . Sau đó, package see gật đầu đồng ý các hiệu quả đầu ra và sinh sản một biểu trang bị forest plot mặc định y hệt như cho một đối tượng người dùng ggplot().
## Installing package into "C:/Users/MSFuser/Documents/R/win-library/4.1"## (as "lib" is unspecified)## Warning: package "easystats" is not available for this version of R## ## A version of this package for your version of R might be available elsewhere,## see the ideas at## https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages## Warning: unable khổng lồ access index for repository http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/4.1:## cannot open URL "http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/4.1/PACKAGES"## Warning in p_install(package, character.only = TRUE, ...):## Warning in library(package, lib.loc = lib.loc, character.only = TRUE, logical.return = TRUE, : there is no package called "easystats"## Warning in pacman::p_load(easystats): Failed khổng lồ install/load:## easystats
## remove the intercept term from your multivariable resultsfinal_mv_reg %>% model_parameters(exponentiate = TRUE) %>% plot()

19.6 Nguồn
Nội dung của chương này được xem thêm từ những nguồn sau:Hồi quy đường tính là phép hồi quy coi xét quan hệ tuyến tính – dạng quan lại hệ con đường thẳng giữa biến độc lập với đổi thay phụ thuộc.
1. Kim chỉ nan hồi quy tuyến đường tính
Trong nghiên cứu, bọn họ thường phải kiểm địnhcác trả thuyết về quan hệ giữa nhì hay nhiều biến, trong những số ấy có một vươn lên là phụthuộc và một giỏi nhiều thay đổi độc lập. Ví như chỉ có một biến đổi độc lập, mô hình đượcgọi là mô hình hồi quy 1-1 biến SLR (Simple Linear Regression). Trường hợp gồm từhai biến chủ quyền trở lên, mô hình được hotline là hồi quy bội MLR (Multiple Linear
Regression). đa số nội dung tiếp sau ở tài liệu này chỉ đề cập mang đến hồi quy bội,hồi quy solo biến tính chất tương tự với hồi quy bội
- Phương trình hồi quy 1-1 biến: Y= β0 + β1X + e
- Phương trình hồi quy bội: Y = β0 + β1X1 + β2X2 + … + βn
Xn+ e
Trong đó:
Y: biếnphụ thuộc, là đổi mới chịu tác động ảnh hưởng của biến chuyển khác.X, X1, X2,Xn: biến hóa độc lập, là biến tác động ảnh hưởng lên biếnkhác.β0: hằng số hồi quy, hay còn gọi là hệ số chặn. Đây là chỉ sốnói lên quý giá của Y đã là bao nhiêu nếu toàn bộ X cùng bởi 0. Nói phương pháp khác,chỉ số này cho bọn họ biết cực hiếm của Y là bao nhiêu nếu không tồn tại các X. Khibiểu diễn trên đồ gia dụng thị Oxy, β0 là vấn đề trên trục Oy nhưng mà đường hồiquy cắt qua.β1, β2, βn: thông số hồi quy, hay có cách gọi khác là hệ sốgóc. Chỉ số này cho chúng ta biết về mức thay đổi của Y gây nên bởi X tương ứng.Nói phương pháp khác, chỉ số này nói lên có bao nhiêu đơn vị Y sẽ thay đổi nếu X tănghoặc bớt một đối kháng vị.e: saisố. Chỉ số này càng bự càng để cho khả năng dự đoán của hồi quy trở nên kémchính xác rộng hoặc xô lệch nhiều rộng so cùng với thực tế. Sai số vào hồi quy tổngthể hay phần dư trong hồi quy mẫu thay mặt cho hai giá bán trị, một là những biến độclập kế bên mô hình, nhị là các sai số ngẫu nhiên.Trong thốngkê, vấn đề bọn họ muốn reviews là các thông tin của tổng thể. Tuy nhiên vì tổngthể thừa lớn, bọn họ không thể có được những thông tin này. Bởi vậy, bọn chúng tadùng thông tin của mẫu phân tích để cầu lượng hoặc kiểm định tin tức của tổngthể. Cùng với hồi quy tuyến đường tính tương tự như vậy, những hệ số hồi quy tổng thể và toàn diện như β1, β2 … tuyệt hằng số hồiquy β0là hầu như tham số chúng ta muốn biết nhưng cần yếu đolường được. Vị đó, họ sẽ áp dụng tham số khớp ứng từ chủng loại để cầu lượng vàtừ đó suy diễn ra tổng thể. Phương trình hồi quy trên chủng loại nghiên cứu:
Y = B0 + B1X1 + B2X2 + … + Bn
Xn+ ε
Trong đó:
Y: biếnphụ thuộcX, X1, X2,Xn: biến đổi độc lập
B0: hằng số hồi quy
B1, B2, Bn: thông số hồi quyε: phần dư
Tất cả những nội dung hồi quy tiếp sau đây chỉnói về hồi quy bên trên tập tài liệu mẫu. Do vậy, thuật ngữ không nên số sẽ không được đềcập nhưng mà chỉ nói đến phần dư.
2. Ước lượng hồi quy tuyến tính bằng OLS
Một trong các phương thức ước lượng hồi quy con đường tính thịnh hành là bình phương bé dại nhất OLS (Ordinary Least Squares).
Với tổng thể, không đúng số (error) cam kết hiệu là e, còn trong mẫu nghiên cứu sai số bây giờ được điện thoại tư vấn là phần dư (residual) với được cam kết hiệu là ε. Biến chuyển thiên phần dư được xem bằng tổng bình phương toàn bộ các phần dư cộng lại.
Nguyên tắc của cách thức hồi quy OLS là tạo nên biến thiên phần dư này vào phép hồi quy là bé dại nhất. Khi biểu diễn trên mặt phẳng Oxy, con đường hồi quy OLS là 1 đường thẳng đi qua đám đông các điểm dữ liệu mà làm việc đó, khoảng cách từ những điểm tài liệu (trị tuyệt vời nhất của ε) cho đường hồi quy là ngắn nhất.

Từ đồ gia dụng thị scatter biểu diễn quan hệ giữa những biến chủ quyền và biến hóa phụ thuộc, các điểm dữ liệu sẽ ở phân tán nhưng có xu thế chung chế tạo thành dạng một con đường thẳng. Bạn cũng có thể có tương đối nhiều đường đường thẳng hồi quy đi qua đám đông các điểm dữ liệu này chứ không hẳn chỉ một đường duy nhất, vấn đề là ta đề xuất chọn ra ngoài đường thẳng nào mô tả sát nhất xu hướng dữ liệu. Bình phương nhỏ nhất OLS sẽ tìm đi xuống đường thẳng đó dựa trên nguyên tắc cực tiểu hóa khoảng cách từ những điểm tài liệu đến mặt đường thẳng. Vào hình ngơi nghỉ trên đường màu đỏ là mặt đường hồi quy OLS.

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Independents.

Vào mục Statistics, tích chọn các mục như trong hình ảnh và lựa chọn Continue.

Vào mục Plots, tích lựa chọn vào Histogram với Normal probability plot, kéo biến ZRESID thả vào ô Y, kéo đổi thay ZPRED thả vào ô X như hình mặt dưới. Tiếp tục chọn Continue.

Các mục còn lại chúng ta sẽ nhằm mặc định. Quay trở về giao diện ban đầu, mục Method là các phương thức đưa biến chuyển vào, tùy từng dạng nghiên cứu và phân tích mà chúng ta sẽ chọn Enter hoặc Stepwise. đặc thù đề tài thực hành là nghiên cứu và phân tích khẳng định, vị vậy tác giả sẽ chọn cách thức Enter chuyển biến vào một trong những lượt. Liên tiếp nhấp vào OK.

SPSS vẫn xuất ra rất nhiều bảng, bọn họ sẽ triệu tập vào những bảng ANOVA, model Summary, Coefficients và ba biểu trang bị Histogram, Normal P-P Plot, Scatter Plot.
3.1 Bảng ANOVA
Chúng ta cần nhận xét độ cân xứng mô hình một cách đúng đắn qua chu chỉnh giả thuyết. Để chu chỉnh độ phù hợp mô hình hồi quy, họ đặt giả thuyết H0:R2= 0. Phép kiểm tra F được thực hiện để chu chỉnh giả thuyết này. Công dụng kiểm định:
Sig R2≠ 0 một bí quyết có chân thành và ý nghĩa thống kê, quy mô hồi quy là phù hợp.Sig > 0.05: đồng ý giả thuyết H0, nghĩa làR2= 0 một giải pháp có ý nghĩa sâu sắc thống kê, mô hình hồi quy không phù hợp.Trong SPSS, các số liệu của kiểm tra F được mang từ bảng so sánh phương không nên ANOVA.

Bảng
ANOVAcho bọn họ kết quả kiểm định F để reviews giả thuyết sự tương xứng của quy mô hồi quy. Quý giá sig chu chỉnh F bằng 0.000
3.2 Bảng mã sản phẩm Summary
Các điểm dữ liệu luôn phân tán và có xu thế tạo thành dạng một đường thẳng chứ không phải là một trong những đường thẳng hoàn toàn. Vày đó, hầu như không bao gồm đường trực tiếp nào hoàn toàn có thể đi qua toàn bộ tất cả các điểm dữ liệu, luôn luôn có sự xô lệch giữa các giá trị cầu tính và những giá trị thực tế. Họ sẽ cần đo lường và thống kê được mức độ sai lệch đó tương tự như mức độ phù hợp của mô hình hồi quy con đường tính cùng với tập dữ liệu.

(Bên trái là độ phù hợp mô hình cao, bên đề xuất là độ tương xứng mô hình thấp)
Một thước đo sự cân xứng của mô hình hồi quy tuyến tính thường được sử dụng là hệ số xác minh R2 (R square). Khi đa phần các điểm dữ liệu tập trung sát vào đường hồi quy, giá trị R2 đang cao, ngược lại, nếu các điểm dữ liệu phân bổ rải rác giải pháp xa đường hồi quy, R2 sẽ thấp. Chỉ số R2 bên trong bảng model Summary.

Khi chúng ta đưa thêm biến độc lập vào phân tích hồi quy,R2có xu thế tăng lên. Điều này dẫn đến một số trong những trường hòa hợp mức độ cân xứng của quy mô hồi quy bị thổi phồng khi bọn họ đưa vào các biến tự do giải thích vô cùng yếu hoặc không lý giải cho trở thành phụ thuộc. Vào SPSS, sát bên chỉ số
R2, họ còn bao gồm thêm chỉ số
R2Adjusted (R2 hiệu chỉnh). Chỉ số
R2hiệu chỉnh không duy nhất thiết tăng thêm khi các biến hòa bình được chế tạo hồi quy, vày đó
R2hiệu chỉnh phản chiếu độ cân xứng của tế bào hình đúng chuẩn hơn hệ số
R2.
R2hay
R2hiệu chỉnh đều có mức dao động trong đoạn từ bỏ 0 đến 1. Nếu
R2càng tiến về 1, những biến độc lập giải mê say càng nhiều cho biến đổi phụ thuộc, với ngược lại,R2càng tiến về 0, những biến tự do giải ưa thích càng ít cho biến hóa phụ thuộc.
Không bao gồm tiêu chuẩn chỉnh chính xác
R2ở mức từng nào thì mô hình mới đạt yêu cầu. Cần lưu ý rằng, không phải luôn luôn luôn một mô hình hồi quy có
R2cao thì phân tích có cực hiếm cao, quy mô có
R2thấp thì phân tích đó có mức giá trị thấp, độ cân xứng mô hình hồi quy không tồn tại mối quan hệ tình dục nhân quả với cái giá trị của bài bác nghiên cứu. Trong phân tích lặp lại, chúng ta thường lựa chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa sâu sắc mạnh/ý nghĩa yếu cùng kỳ vọng tự 0.5 mang đến 1 thì quy mô là tốt, nhỏ nhiều hơn 0.5 là quy mô chưa tốt. Tuy nhiên, điều đó không thực sự đúng đắn bởi việc đánh giá giá trị
R2sẽ phụ thuộc rất các vào những yếu tố như lĩnh vực nghiên cứu, tính chất nghiên cứu, kích thước mẫu, số lượng biến gia nhập hồi quy, tác dụng các chỉ số khác của phép hồi quy,…
Trong ví dụ ngơi nghỉ trên, bảng mã sản phẩm Summary cho bọn họ kết trái R bình phương (R Square) với R bình phương hiệu chỉnh (Adjusted R Square) để review mức độ cân xứng của mô hình. Quý giá R bình phương hiệu chỉnh bởi 0.695 cho biết các biến chủ quyền đưa vào phân tích hồi quy tác động 69.5% sự trở nên thiên của biến hóa phụ thuộc, còn lại 31.4% là do các biến ngoài quy mô và sai số ngẫu nhiên.
Kết quả bảng này cũng chỉ dẫn giá trị Durbin–Watson để reviews hiện tượng tự tương quan chuỗi bậc nhất. Cực hiếm DW = 1.849, nằm trong vòng 1.5 cho 2.5 nên tác dụng không vi phạm luật giả định tự đối sánh chuỗi số 1 (Yahua Qiao, 2011).
3.3 Bảng Coefficients
Chúng ta sẽ reviews hệ số hồi quy của mỗi biến tự do có ý nghĩa trong mô hình hay không dựa vào kiểm định t (student) với đưa thuyết H0: hệ số hồi quy của biến chủ quyền Xi bằng 0. Mô hình hồi quy có bao nhiêu trở thành độc lập, chúng ta sẽ đi kiểm tra bấy nhiêu giả thuyết H0. Tác dụng kiểm định:
Sig Sig > 0.05: chấp nhận giả thuyết H0, nghĩa là thông số hồi quy của trở thành Xi bởi 0 một giải pháp có ý nghĩa sâu sắc thống kê, trở thành Xi không ảnh hưởng tác động lên biến đổi phụ thuộc.Trong hồi quy, thường bọn họ sẽ tất cả hai thông số hồi quy: chưa chuẩn hóa (trong SPSS hotline là B) với đã chuẩn chỉnh hóa (trong SPSS hotline là Beta). Mỗi hệ số hồi quy này còn có vai trò khác biệt trong vấn đề diễn giải ẩn ý quản trị của quy mô hồi quy. Để hiểu lúc nào dùng phương trình hồi quy nào, chúng ta có thể xem bài viết
Sự khác biệt giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa.
Nếu thông số hồi quy (B hoặc Beta) có dấu âm, nghĩa là biến chủ quyền đó ảnh hưởng tác động nghịch chiều lên trở nên phụ thuộc. Ngược lại nếu B hoặc Beta không tồn tại dấu (dấu dương), tức là biến độc lập tác động thuận chiều lên đổi thay phụ thuộc. Lúc chứng kiến tận mắt xét nút độ ảnh hưởng tác động giữa các biến hòa bình lên đổi thay phụ thuộc, bọn họ sẽ phụ thuộc trị hoàn hảo và tuyệt vời nhất hệ số Beta, trị tuyệt vời Beta càng lớn, biến tự do tác động càng to gan lên biến phụ thuộc. Xem chi tiết hơn tại bài bác viết
Hệ số hồi quy B, Beta âm trong so với SPSS.
Trong SPSS, các số liệu của chu chỉnh t được đem từ bảng thông số hồi quy Coefficients. Cũng lưu ý rằng, trường hợp một biến chủ quyền không có ý nghĩa sâu sắc thống kê trong hiệu quả hồi quy, chúng ta sẽ kết luận biến chủ quyền đó không tồn tại sự tác động ảnh hưởng lên biến dựa vào mà ko cần tiến hành loại thay đổi và so với lại hồi quy.

Trong ví dụ sinh sống trên, bảng Coefficients cho bọn họ kết quả kiểm nghiệm t để nhận xét giả thuyết chân thành và ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi quy.
Biến F_DN có giá trị sig kiểm nghiệm t bằng 0.777 > 0.05 , vì thế biến này không có ý nghĩa sâu sắc trong quy mô hồi quy, hay nói phương pháp khác, biến đổi này không có sự ảnh hưởng tác động lên biến nhờ vào F_HL. Những biến còn sót lại gồm F_LD, F_CV, F_TL, F_DT, F_DK đều có sig chu chỉnh t bé dại hơn 0.05, vì chưng đó các biến này hầu hết có ý nghĩa sâu sắc thống kê, đều tác động lên biến nhờ vào F_HL. Thông số hồi quy những biến độc lập này hầu hết mang dấu dương, như vậy những biến chủ quyền có tác động ảnh hưởng thuận chiều lên đổi mới phụ thuộc.
Lưu ý rằng, phát triển thành không có chân thành và ý nghĩa trong hồi quy thì ko loại đổi mới đó và chạy lại phân tích, nguyên nhân vì sao bạn xem cụ thể tại bài viếtBiến không có ý nghĩa sâu sắc ở hồi quy, SEM có cần loại chạy lại không?.
Kết luận giả thuyết:
H1: chi phí lương (F_TN)tác động đến sự hài lòng của nhân viên cấp dưới trong các bước (Chấp nhận)
H2: Đào chế tạo ra và thăng tiến (F_DT) ảnh hưởng đến sự chuộng của nhân viên cấp dưới trong công việc(Chấp nhận)
H3: chỉ huy (F_LD) ảnh hưởng đến sự phù hợp của nhân viên cấp dưới trong công việc(Chấp nhận)
H4: Đồng nghiệp (F_DN) ảnh hưởng đến sự chấp nhận của nhân viên cấp dưới trong quá trình (Bác bỏ)
H5: thực chất công vấn đề (F_DN) tới việc hài lòng của nhân viên trong công việc(Chấp nhận)
H6: Điều kiện làm việc (F_DK) tác động đến sự sử dụng rộng rãi của nhân viên trong công việc(Chấp nhận)

Đối với biểu đồ vật Histogram, nếu quý hiếm trung bình Mean gần bằng 0, độ lệch chuẩn chỉnh Std. Dev gần bằng 1, những cột cực hiếm phần dư phân bố theo hình trạng chuông, ta rất có thể khẳng định cung cấp là dao động chuẩn, trả định phân phối chuẩn chỉnh của phần dư không biến thành vi phạm. Rõ ràng trong ảnh trên, Mean = 5.74E-15 = 5.74 * 10-15= 0.00000... Gần bởi 0, độ lệch chuẩn là 0.991 gần bằng 1. Như vậy rất có thể nói, cung cấp phần dư giao động chuẩn, đưa định phân phối chuẩn chỉnh của phần dư không bị vi phạm.
4.2 Biểu vật phần dư chuẩn hóa Normal P-P Plot
Ngoài bí quyết kiểm tra bằng biểu đồ gia dụng Histogram, thì P-P Plot cũng là 1 trong những dạng biểu trang bị được sử dụng phổ cập giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

Đối với biểu vật Normal P-P Plot, nếu các điểm dữ liệu trong phân phối của phần dư bám sát vào con đường chéo, phần dư càng có phân phối chuẩn. Nếu những điểm dữ liệu phân bố xa đường chéo, trưng bày càng “ít chuẩn”.
Cụ thể với vị dụ trên, các điểm dữ liệu phần dư tập trung khá ngay cạnh với đường chéo, như vậy, phần dư gồm phân phối xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không xẩy ra vi phạm.
4.3 Biểu đồ vật Scatter Plot đánh giá giả định tương tác tuyến tính
Một mang định vào hồi quy là phải bao gồm mối liên hệ tuyến tính thân biến dựa vào với các biến độc lập. Biểu vật dụng phân tán Scatter Plot giữa các phần dư chuẩn chỉnh hóa và cực hiếm dự đoán chuẩn chỉnh hóa giúp chúng ta dò tra cứu xem dữ liệu bây giờ có vi phạm luật giả định liên hệ tuyến tính tuyệt không.