Tuesday, January 27, 2015

Линейная регрессия на R

В данной публикации будут описаны 4 способа использования линейной регрессии в языке программирования R.

Линейная регрессия (Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Во всех примерах в данном посте используется набор данных longley из библиотеки The R Datasets Package, которая включена в стандартный дистрибутив R. Этот набор содержит исторические данные экономического характера с 1947 по 1962 годы, которые представлены 7 переменными и используются для предсказания занятости населения в количественном исчислении за год.

Линейная регрессия, основанная на методе наименьших квадратов (Ordinary Least Squares Regression)

Линейная регрессия с использованием метода наименьших квадратов - такая линейная модель, которая стремится найти набор коэффициентов для линии/гиперплоскости, при которых сумма квадратов отклонений будет минимальной.

Более подробная информация о функции lm и библиотеке stats.

Шаговая линейная регрессия (Stepwise Linear Regression)

Шаговая линейная регрессия - метод, который использует линейную регрессию для нахождения оптимального подмножества признаков для данного набора данных. Данный метод называется пошаговым, потому что для каждой новой итерации происходит изменение набора признаков и происходит оценка качества модели.

Более подробная информация о функции step и библиотеке stats.

Регрессия на главные компоненты (Principal Component Regression)

Регрессия на главные компоненты создает модель линейной регрессии, используя результаты вычислений метода главных компонент (Principal Component Analysis) для оценки коэффициентов модели. Регрессию на главные компоненты полезно использовать при наличии сильной корреляции между переменными.

Более подробная информация о функции pcr и библиотеке pls.

Линейная регрессия, основанная на методе частных наименьших квадратов (Partial Least Squares Regression)

Метод линейной регрессии, основанной на методе частных наименьших квадратов создает линейную модель данных проецируя переменные в новое пространство. Также как и метод регрессии на главные компоненты, данный метод подходит для случаев, когда в данных присутствует сильная корреляция между переменными.

Более подробная информация о функции plsr и библиотеке pls.

Резюме

В данной публикации были представлены 4 различных способа использования линейной регрессии в языке программирования R и варианты использования данных моделей для предсказаний.

В главе 6 книги Applied Predictive Modeling (Max Kuhn, Kjell Johnson) можно найти отличное описание использования линейной регрессии в R для новичков. В книге Practical Regression and Anova using R (PDF) от Julian Faraway можно найти более детальную информацию по данной теме.

Источники:

No comments:

Post a Comment