Replace Missing Values by Column Mean in R DataFrame

Last Updated : 21 Dec, 2023

In this article, we are going to see how to replace missing values with columns mean in R Programming Language. Missing values in a dataset are usually represented as NaN or NA. Such values must be replaced with another value or removed. This process of replacing another value in place of missing data is known as Data Imputation.

Creating data frame with missing values

R

# creating a dataframe
data <- data.frame(marks1 = c(NA, 22, NA, 49, 75),
                   marks2 = c(81, 14, NA, 61, 12),
                   marks3 = c(78.5, 19.325, NA, 28, 48.002))
data

Output:

  marks1 marks2 marks3
1     NA     81 78.500
2     22     14 19.325
3     NA     NA     NA
4     49     61 28.000
5     75     12 48.002

Replace columns using mean() function

Let’s see how to impute missing values with each column’s mean using a dataframe and mean( ) function. mean() function is used to calculate the arithmetic mean of the elements of the numeric vector passed to it as an argument.

Syntax of mean() : mean(x, trim = 0, na.rm = TRUE, …)

Arguments:

x – any object

trim – observations to be trimmed from each end of x before the mean is computed

na.rm – TRUE to remove NA values

Replacing NA for all columns using mean( ) function

R

data$marks2[is.na(data$marks2)]<-mean(data$marks2,na.rm=TRUE)
 
data

Output:

  marks1 marks2 marks3
1     NA     81 78.500
2     22     14 19.325
3     NA     42     NA
4     49     61 28.000
5     75     12 48.002

In this code we fill the missing values of marks2 column with mean value.

Replacing Missing Data in all columns Using for-Loop

With the help of For loops in R we will Replacing Missing Data in all columns.

R

# replacing NA with each column's mean
for(i in colnames(data))
    data[,i][is.na(data[,i])] <- a[,i]
data

Output:

    marks1 marks2   marks3
1 48.66667     81 78.50000
2 22.00000     14 19.32500
3 48.66667     42 43.45675
4 49.00000     61 28.00000
5 75.00000     12 48.00200

Replace column using colMeans() function

colMeans() function is used to compute the mean of each column of a matrix or array

Syntax of colMeans() : colMeans(x, na.rm = FALSE, dims = 1 …)

Arguments:

x: object

dims: dimensions are regarded as ‘columns’ to sum over

na.rm: TRUE to ignore NA values

Here we are going to use colMeans function to replace the NA in columns.

R

# creating a dataframe 
data <- data.frame(marks1 = c(NA, 22, NA, 49, 75), 
                   marks2 = c(81, 14, NA, 61, 12), 
                   marks3 = c(78.5, 19.325, NA, 28, 48.002)) 
data 
# using colMeans()
mean_val <- colMeans(data,na.rm = TRUE)
 
# replacing NA with mean value of each column
for(i in colnames(data))
  data[,i][is.na(data[,i])] <- mean_val[i]
data

Output :

  marks1 marks2 marks3
1     NA     81 78.500
2     22     14 19.325
3     NA     NA     NA
4     49     61 28.000
5     75     12 48.002

 data

    marks1 marks2   marks3
1 48.66667     81 78.50000
2 22.00000     14 19.32500
3 48.66667     42 43.45675
4 49.00000     61 28.00000
5 75.00000     12 48.00200

Replacing NA using apply() function

In this method, we will use apply() function to replace the NA from the columns.

Syntax of apply() : apply(X, MARGIN, FUN, …)

Arguments:

X – an array, including a matrix

MARGIN – a vector

FUN – the function to be applied

R

# creating a dataframe 
data <- data.frame(marks1 = c(NA, 22, NA, 49, 75), 
                marks2 = c(81, 14, NA, 61, 12), 
                marks3 = c(78.5, 19.325, NA, 28, 48.002)) 
data 
 
# computing mean of all columns using apply()
all_column_mean <- apply(data, 2, mean, na.rm=TRUE)
 
# imputing NA with the mean calculated
for(i in colnames(data))
  data[,i][is.na(data[,i])] <- all_column_mean[i]
data

Output :

  marks1 marks2 marks3
1     NA     81 78.500
2     22     14 19.325
3     NA     NA     NA
4     49     61 28.000
5     75     12 48.002

 data

    marks1 marks2   marks3
1 48.66667     81 78.50000
2 22.00000     14 19.32500
3 48.66667     42 43.45675
4 49.00000     61 28.00000
5 75.00000     12 48.00200

Using na.aggregate() Function of zoo Package

We can also replace the missing values using na.aggregate Function of zoo Package in R.

R

# Install & load zoo package
install.packages("zoo")                                   
library("zoo")
 
# creating a dataframe 
data <- data.frame(marks1 = c(NA, 22, NA, 49, 75), 
                   marks2 = c(81, 14, NA, 61, 12), 
                   marks3 = c(78.5, 19.325, NA, 28, 48.002)) 
data 
# using na.aggregate function to replace missing values
data<- na.aggregate(data)   
 
data

Output:

  marks1 marks2 marks3
1     NA     81 78.500
2     22     14 19.325
3     NA     NA     NA
4     49     61 28.000
5     75     12 48.002
    marks1 marks2   marks3
1 48.66667     81 78.50000
2 22.00000     14 19.32500
3 48.66667     42 43.45675
4 49.00000     61 28.00000
5 75.00000     12 48.00200

Suggest improvement

Recursive Functions in R Programming

Replace contents of factor column in R dataframe

Share your thoughts in the comments

Replace Missing Values by Column Mean in R DataFrame

Creating data frame with missing values

R

Replace columns using mean() function

Replacing NA for all columns using mean( ) function

R

Replacing Missing Data in all columns Using for-Loop

R

Replace column using colMeans() function

R

Replacing NA using apply() function

R

Using na.aggregate() Function of zoo Package

R

Please Login to comment...

Similar Reads

What kind of Experience do you want to share?