Как найти стандартное отклонение в R?

Будучи статистическим языком, R предлагает стандартную функцию sd(’) для нахождения стандартного отклонения значений.

Так что же такое стандартное отклонение?

Стандартное отклонение – это мера разброса значений.
Чем выше стандартное отклонение, тем шире разброс значений.
Чем ниже стандартное отклонение, тем уже разброс значений.
Проще говоря, формула определяется следующим образом: стандартное отклонение – это квадратный корень из дисперсии.

Важность стандартного отклонения

Стандартное отклонение очень популярно в статистике, но почему? причины его популярности и важности перечислены ниже.

Стандартное отклонение преобразует отрицательное число в положительное путем возведения его в квадрат.
Он показывает большие отклонения, чтобы вы могли их внимательно рассмотреть.
Он показывает центральную тенденцию, что является очень полезной функцией при анализе.
Он играет важную роль в финансах, бизнесе, анализе и измерениях.

Прежде чем мы перейдем к теме, запомните это определение!

Дисперсия - определяется как квадрат разницы между наблюдаемым значением и ожидаемым значением.

Найдите стандартное отклонение в R для значений в списке

В этом методе мы создадим список «x» и добавим в него некоторое значение. Затем мы можем найти стандартное отклонение этих значений в списке.

 x <- c(34,56,87,65,34,56,89)    #creates list 'x' with some values in it.

 sd(x)  #calculates the standard deviation of the values in the list 'x'

Выход —> 22.28175

Теперь мы можем попытаться извлечь определенные значения из списка «y», чтобы найти стандартное отклонение.

 y <- c(34,65,78,96,56,78,54,57,89)  #creates a list 'y' having some values
 
data1 <- y[1:5] #extract specific values using its Index

sd(data1) #calculates the standard deviation for Indexed or extracted values from the list.

Выход —> 23.28519

Нахождение стандартного отклонения значений, хранящихся в файле CSV

В этом методе мы импортируем файл CSV, чтобы найти стандартное отклонение R для значений, которые хранятся в этом файле.

readfile <- read.csv('testdata1.csv')  #reading a csv file

data2 <- readfile$Values      #getting values stored in the header 'Values'

sd(data2)                              #calculates the standard deviation

Выход —> 17,88624

Высокое и низкое стандартное отклонение

В общем, значения будут настолько близки к среднему значению при низком стандартном отклонении, а значения будут далеко разбросаны от среднего значения при высоком стандартном отклонении.

Мы можем проиллюстрировать это на примере.

x <- c(79,82,84,96,98)
mean(x)
--->  82.22222
sd(x)
--->  10.58038

Чтобы отобразить эти значения в виде гистограммы с использованием R, запустите приведенный ниже код.

Чтобы установить пакет ggplot2, запустите этот код в R studio.

--> install.packages(\ggplot2)

library(ggplot2)

values <- data.frame(marks=c(79,82,84,96,98), students=c(0,1,2,3,4,))
head(values)                  #displayes the values
 marks students
1    79        0
2    82        1
3    84        2
4    96        3
5    98        4
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x                             #displays the plot

В приведенных выше результатах вы можете заметить, что большая часть данных сгруппирована вокруг среднего значения (79,82,84), что показывает, что это низкое стандартное отклонение.

Иллюстрация высокого стандартного отклонения.

y <- c(23,27,30,35,55,76,79,82,84,94,96)
mean(y)
---> 61.90909
sd(y)
---> 28.45507

Чтобы построить эти значения с помощью гистограммы в ggplot в R, запустите приведенный ниже код.

library(ggplot2)

values <- data.frame(marks=c(23,27,30,35,55,76,79,82,84,94,96), students=c(0,1,2,3,4,5,6,7,8,9,10))
head(values)                  #displayes the values
  marks students
1    23        0
2    27        1
3    30        2
4    35        3
5    55        4
6    76        5
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x                             #displays the plot

В приведенных выше результатах вы можете увидеть широко распространенные данные. Вы можете увидеть наименьший балл 23, который очень далек от среднего балла 61. Это называется высоким стандартным отклонением.

К настоящему моменту вы получили достаточное представление об использовании функции sd(’) для вычисления стандартного отклонения в языке R. Подведем итоги этого урока, решив простые задачи.

Пример № 1: стандартное отклонение для списка четных чисел

Найдите стандартное отклонение четных чисел от 1 до 20 (исключая 1 и 20).

Решение: четные числа от 1 до 20 равны

--> 2, 4, 6, 8, 10, 12, 14, 16, 18

Найдем стандартное отклонение этих значений.

x <- c(2,4,6,8,10,12,14,16,18)  #list of even numbers from 1 to 20

sd(x)                           #calculates the standard deviation of these 
                            values in the list of even numbers from 1 to 20

Выход —> 5.477226

Пример № 2: Стандартное отклонение для данных о населении США

Найдите стандартное отклонение населения США по штатам.

Для этого импортируйте файл CSV и прочитайте значения, чтобы найти стандартное отклонение, и нанесите результат на гистограмму в R.

df<-read.csv("population.csv")      #reads csv file
data<-df$X2018.Population           #extarcts the data from population 
                                     column
mean(data)                          #calculates the mean
                          
View(df)                            #displays the data
sd(data)                            #calculates the standard deviation

Вывод ----> среднее=6432008, Sd=7376752

Заключение

Найти стандартное отклонение значений в R несложно. R предлагает стандартную функцию sd(’) для нахождения стандартного отклонения. Вы можете создать список значений или импортировать файл CSV, чтобы найти стандартное отклонение.

Важно: не забудьте рассчитать стандартное отклонение, извлекая некоторые значения из файла или списка с помощью индексации, как показано выше.

Используйте поле для комментариев, чтобы оставлять любые сомнения относительно функции sd(’) в R. Приятного обучения!!!