Keras中 ImageDataGenerator函数的参数用法

脚本专栏 2026/7/10 佚名

3 2 1

一、Keras ImageDataGenerator参数

from keras.preprocessing.image import ImageDataGenerator
keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,
  samplewise_center=False,
  featurewise_std_normalization = False,
  samplewise_std_normalization = False,
  zca_whitening = False,
  rotation_range = 0.,
  width_shift_range = 0.,
  height_shift_range = 0.,
  shear_range = 0.,
  zoom_range = 0.,
  channel_shift_range = 0.,
  fill_mode = 'nearest',
  cval = 0.0,
  horizontal_flip = False,
  vertical_flip = False,
  rescale = None,
  preprocessing_function = None,
  data_format = K.image_data_format(),
)

featurewise_center：布尔值，使输入数据集去中心化（均值为0）, 按feature执行。

samplewise_center：布尔值，使输入数据的每个样本均值为0。

featurewise_std_normalization：布尔值，将输入除以数据集的标准差以完成标准化, 按feature执行。

samplewise_std_normalization：布尔值，将输入的每个样本除以其自身的标准差。

zca_whitening：布尔值，对输入数据施加ZCA白化。

rotation_range：整数，数据提升时图片随机转动的角度。随机选择图片的角度，是一个0~180的度数，取值为0~180。在 [0, 指定角度] 范围内进行随机角度旋转。

width_shift_range：浮点数，图片宽度的某个比例，数据提升时图片随机水平偏移的幅度。

height_shift_range：浮点数，图片高度的某个比例，数据提升时图片随机竖直偏移的幅度。 height_shift_range和width_shift_range是用来指定水平和竖直方向随机移动的程度，这是两个0~1之间的比例。

shear_range：浮点数，剪切强度（逆时针方向的剪切变换角度）。是用来进行剪切变换的程度。

zoom_range：浮点数或形如[lower,upper]的列表，随机缩放的幅度，若为浮点数，则相当于[lower,upper] = [1 - zoom_range, 1+zoom_range]。用来进行随机的放大。（后面的例子与此处说法有矛盾，感觉后边是对的？）

channel_shift_range：浮点数，随机通道偏移的幅度。

fill_mode：‘constant'，‘nearest'，‘reflect'或‘wrap'之一，当进行变换时超出边界的点将根据本参数给定的方法进行处理

cval：浮点数或整数，当fill_mode=constant时，指定要向超出边界的点填充的值。

horizontal_flip：布尔值，进行随机水平翻转。随机的对图片进行水平翻转，这个参数适用于水平翻转不影响图片语义的时候。

vertical_flip：布尔值，进行随机竖直翻转。

rescale: 值将在执行其他处理前乘到整个图像上，我们的图像在RGB通道都是0~255的整数，这样的操作可能使图像的值过高或过低，所以我们将这个值定为0~1之间的数。

preprocessing_function: 将被应用于每个输入的函数。该函数将在任何其他修改之前运行。该函数接受一个参数，为一张图片（秩为3的numpy array），并且输出一个具有相同shape的numpy array

data_format：字符串，“channel_first”或“channel_last”之一，代表图像的通道维的位置。该参数是Keras 1.x中的image_dim_ordering，“channel_last”对应原本的“tf”，“channel_first”对应原本的“th”。以128x128的RGB图像为例，“channel_first”应将数据组织为（3,128,128），而“channel_last”应将数据组织为（128,128,3）。该参数的默认值是~/.keras/keras.json中设置的值，若从未设置过，则为“channel_last”。

二、Data Aumentation（数据扩充）说明

Data Aumentation（数据扩充）指的是在使用以下或者其他方法增加数据输入量。这里，我们特指图像数据。

旋转 | 反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向;

翻转变换(flip): 沿着水平或者垂直方向翻转图像;

缩放变换(zoom): 按照一定的比例放大或者缩小图像;

平移变换(shift): 在图像平面上对图像以一定方式进行平移;可以采用随机或人为定义的方式指定平移范围和平移步长, 沿水平或竖直方向进行平移. 改变图像内容的位置;

尺度变换(scale): 对图像按照指定的尺度因子, 进行放大或缩小; 或者参照SIFT特征提取思想, 利用指定的尺度因子对图像滤波构造尺度空间. 改变图像内容的大小或模糊程度;

对比度变换(contrast): 在图像的HSV颜色空间，改变饱和度S和V亮度分量，保持色调H不变. 对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间), 增加光照变化;

噪声扰动(noise): 对图像的每个像素RGB进行随机扰动, 常用的噪声模式是椒盐噪声和高斯噪声;

三、某些属性测试

3.1 shear_range

datagen = image.ImageDataGenerator(shear_range=0.5)

shear_range就是错切变换，效果就是让所有点的x坐标(或者y坐标)保持不变，而对应的y坐标(或者x坐标)则按比例发生平移，且平移的大小和该点到x轴(或y轴)的垂直距离成正比。

如图8所示，一个黑色矩形图案变换为蓝色平行四边形图案。狗狗图片变换效果如图9所示。

3.2 zoom_range

datagen = image.ImageDataGenerator(zoom_range=0.5)

zoom_range参数可以让图片在长或宽的方向进行放大，可以理解为某方向的resize，因此这个参数可以是一个数或者是一个list。当给出一个数时，图片同时在长宽两个方向进行同等程度的放缩操作；当给出一个list时，则代表[width_zoom_range, height_zoom_range]，即分别对长宽进行不同程度的放缩。而参数大于0小于1时，执行的是放大操作，当参数大于1时，执行的是缩小操作。

参数大于0小于1时，效果如图10：

参数等于4时，效果如图11：

3.3 . fill_mode

datagen = image.ImageDataGenerator(fill_mode='wrap', zoom_range=[4, 4])

fill_mode为填充模式，如前面提到，当对图片进行平移、放缩、错切等操作时，图片中会出现一些缺失的地方，那这些缺失的地方该用什么方式补全呢？就由fill_mode中的参数确定，包括：“constant”、“nearest”（默认）、“reflect”和“wrap”。这四种填充方式的效果对比如图18所示，从左到右，从上到下分别为：“reflect”、“wrap”、“nearest”、“constant”。