Acumula gradientes con estrategia distribuida en Tensorflow 2
He implementado una estrategia distribuida para entrenar mi modelo en múltiples GPUs. strategy = tf.distribute.MirroredStrategy(devices=devices[:FLAGS.n_gpus]) strategy.run(fn=self.train_step, args=(model, data)) Mi modelo ahora se ha vuelto más complejo y grande y tuve que reducir el tamaño del lote para que quepa en las GPUs. El gradiente ahora es bastante ruidoso y quiero . . . Read more