Как найти стандартное отклонение в R?
Будучи статистическим языком, R предлагает стандартную функцию sd(’) для нахождения стандартного отклонения значений.
Так что же такое стандартное отклонение?
- Стандартное отклонение – это мера разброса значений.
- Чем выше стандартное отклонение, тем шире разброс значений.
- Чем ниже стандартное отклонение, тем уже разброс значений.
- Проще говоря, формула определяется следующим образом: стандартное отклонение – это квадратный корень из дисперсии.
Важность стандартного отклонения
Стандартное отклонение очень популярно в статистике, но почему? причины его популярности и важности перечислены ниже.
- Стандартное отклонение преобразует отрицательное число в положительное путем возведения его в квадрат.
- Он показывает большие отклонения, чтобы вы могли их внимательно рассмотреть.
- Он показывает центральную тенденцию, что является очень полезной функцией при анализе.
- Он играет важную роль в финансах, бизнесе, анализе и измерениях.
Прежде чем мы перейдем к теме, запомните это определение!
Дисперсия - определяется как квадрат разницы между наблюдаемым значением и ожидаемым значением.
Найдите стандартное отклонение в R для значений в списке
В этом методе мы создадим список «x» и добавим в него некоторое значение. Затем мы можем найти стандартное отклонение этих значений в списке.
x <- c(34,56,87,65,34,56,89) #creates list 'x' with some values in it.
sd(x) #calculates the standard deviation of the values in the list 'x'
Выход —> 22.28175
Теперь мы можем попытаться извлечь определенные значения из списка «y», чтобы найти стандартное отклонение.
y <- c(34,65,78,96,56,78,54,57,89) #creates a list 'y' having some values
data1 <- y[1:5] #extract specific values using its Index
sd(data1) #calculates the standard deviation for Indexed or extracted values from the list.
Выход —> 23.28519
Нахождение стандартного отклонения значений, хранящихся в файле CSV
В этом методе мы импортируем файл CSV, чтобы найти стандартное отклонение R для значений, которые хранятся в этом файле.
readfile <- read.csv('testdata1.csv') #reading a csv file
data2 <- readfile$Values #getting values stored in the header 'Values'
sd(data2) #calculates the standard deviation
Выход —> 17,88624
Высокое и низкое стандартное отклонение
В общем, значения будут настолько близки к среднему значению при низком стандартном отклонении, а значения будут далеко разбросаны от среднего значения при высоком стандартном отклонении.
Мы можем проиллюстрировать это на примере.
x <- c(79,82,84,96,98)
mean(x)
---> 82.22222
sd(x)
---> 10.58038
Чтобы отобразить эти значения в виде гистограммы с использованием R, запустите приведенный ниже код.
Чтобы установить пакет ggplot2, запустите этот код в R studio.
--> install.packages(\ggplot2)
library(ggplot2)
values <- data.frame(marks=c(79,82,84,96,98), students=c(0,1,2,3,4,))
head(values) #displayes the values
marks students
1 79 0
2 82 1
3 84 2
4 96 3
5 98 4
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x #displays the plot
В приведенных выше результатах вы можете заметить, что большая часть данных сгруппирована вокруг среднего значения (79,82,84), что показывает, что это низкое стандартное отклонение.
Иллюстрация высокого стандартного отклонения.
y <- c(23,27,30,35,55,76,79,82,84,94,96)
mean(y)
---> 61.90909
sd(y)
---> 28.45507
Чтобы построить эти значения с помощью гистограммы в ggplot в R, запустите приведенный ниже код.
library(ggplot2)
values <- data.frame(marks=c(23,27,30,35,55,76,79,82,84,94,96), students=c(0,1,2,3,4,5,6,7,8,9,10))
head(values) #displayes the values
marks students
1 23 0
2 27 1
3 30 2
4 35 3
5 55 4
6 76 5
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x #displays the plot
В приведенных выше результатах вы можете увидеть широко распространенные данные. Вы можете увидеть наименьший балл 23, который очень далек от среднего балла 61. Это называется высоким стандартным отклонением.
К настоящему моменту вы получили достаточное представление об использовании функции sd(’) для вычисления стандартного отклонения в языке R. Подведем итоги этого урока, решив простые задачи.
Пример № 1: стандартное отклонение для списка четных чисел
Найдите стандартное отклонение четных чисел от 1 до 20 (исключая 1 и 20).
Решение: четные числа от 1 до 20 равны
--> 2, 4, 6, 8, 10, 12, 14, 16, 18
Найдем стандартное отклонение этих значений.
x <- c(2,4,6,8,10,12,14,16,18) #list of even numbers from 1 to 20
sd(x) #calculates the standard deviation of these
values in the list of even numbers from 1 to 20
Выход —> 5.477226
Пример № 2: Стандартное отклонение для данных о населении США
Найдите стандартное отклонение населения США по штатам.
Для этого импортируйте файл CSV и прочитайте значения, чтобы найти стандартное отклонение, и нанесите результат на гистограмму в R.
df<-read.csv("population.csv") #reads csv file
data<-df$X2018.Population #extarcts the data from population
column
mean(data) #calculates the mean
View(df) #displays the data
sd(data) #calculates the standard deviation
Вывод ----> среднее=6432008, Sd=7376752
Заключение
Найти стандартное отклонение значений в R несложно. R предлагает стандартную функцию sd(’) для нахождения стандартного отклонения. Вы можете создать список значений или импортировать файл CSV, чтобы найти стандартное отклонение.
Важно: не забудьте рассчитать стандартное отклонение, извлекая некоторые значения из файла или списка с помощью индексации, как показано выше.
Используйте поле для комментариев, чтобы оставлять любые сомнения относительно функции sd(’) в R. Приятного обучения!!!