Non-iid data and Continual Learning processes in Federated Learning: a long road ahead



Yüklə 1,96 Mb.
Pdf görüntüsü
səhifə2/31
tarix11.06.2023
ölçüsü1,96 Mb.
#128584
1   2   3   4   5   6   7   8   9   ...   31
1-s2.0-S1566253522000884-main

1. Introduction
Machine Learning (ML) consists of the study of mathematical algo-
rithms that improve automatically through experience with the use of
data. Traditionally, data used for training ML algorithms are gathered
in a centralized dataset, and the process of training can access each
data sample at any time. However, in addition to databases, nowadays
we live in a society of devices where the main primary computing
machines for people in their daily life are smartphones and tablets,
equipped with cutting-edge sensors, and computing and communica-
tion capabilities. Those devices collect useful data prone to be used
for training personalized algorithms that simplify their daily usage. In
this context, the quantity of data recorded in just one device may not
be sufficient for obtaining an accurate model to perform the desired
task. To solve this matter, in the past few years a new paradigm of
ML, Federated Learning (FL) [
1

3
], was developed. This new learning
strategy is based on the idea of training a joint model using data from
a multitude of coordinated devices in a decentralized way, and has
achieved impressive results.
Several problems arise when trying to train a model under these
circumstances. For instance, each device has its own processing and
storage capacities, which leads to differences in the time needed to
∗ Corresponding author.
E-mail addresses:
marcos.criado@usc.es
(M.F. Criado),
fernando.estevez.casado@usc.es
(F.E. Casado),
roberto.iglesias.rodriguez@usc.es
(R. Iglesias),
carlos.vazquez.regueiro@udc.es
(C.V. Regueiro),
senen.barro@usc.es
(S. Barro).
perform the training stage [
4
]. In this paper, we will focus on discussing
the statistical variability attached to the use of a myriad of differ-
ent sets of data, with samples collected in distinct situations. These
heterogeneous samples are usually known as non-IID data [
5
], and it
is one of the main difficulties encountered in the federated learning
process. Assuming data is Independent and Identically Distributed (IID)
to avoid some complications, as many works do, is not a good option to
deal with real-life situations. Different devices may collect very distinct
samples, or even contradictory ones. We will analyse and compare the
strategies established so far to face these kinds of issues.
One other assumption in standard ML is that the whole set of
samples is available from the beginning of the training stage. However,
in realistic tasks, it is frequent to collect data progressively, during
several days, or weeks, depending on the context. For this reason,
Continual Learning (CL) [
6
] research gains a lot of importance, since it
addresses the difficulties of training a model gradually using real-time
collected data, such as variations in data as time passes.
The main difficulties encountered when using CL techniques are
catastrophic forgetting
and concept drift [
7
]. Catastrophic forgetting
refers to the phenomenon that occurs when learning a sequence of
tasks. In this case, the learning of each new task may cause the model
https://doi.org/10.1016/j.inffus.2022.07.024
Received 26 November 2021; Received in revised form 13 May 2022; Accepted 28 July 2022


Information Fusion 88 (2022) 263–280
264
M.F. Criado et al.
to forget the knowledge from previous tasks. Concept drift, on the con-
trary, is a problem that arises when the model is learning a single task,
but the data distribution is not homogeneous. As a result of this, the
model performance tends to drop dramatically. These inconveniences
occur in any realistic situation that presents a time-evolving nature,
such as FL tasks and many others.
In this work, we present some of the possible scenarios that can arise
when trying to solve a real problem applying FL, and the difficulties
that need to be faced. We classify those scenarios attending to the
statistical heterogeneity of data, combining the federated and continual
settings to visualize the whole problem, and we present a collection of
the most remarkable techniques that have been studied to deal with
some of those issues. We also notice that some real situations that in-
volve both Federated and Continual Learning have not been considered
nor handled so far, and they should be taken into account [
8

10
].
The rest of this paper is organized as follows: Section
2
reviews
the state-of-the-art techniques for Federated Learning. In Section
3
, we
present the definition and classification of non-IID data in a federated
environment, and we also discuss the different strategies to deal with it.
In Section
4
, we introduce the Continual Learning framework and the
multiple ways data can evolve over time. In Section
5
, we combine the
different situations of heterogeneous data to show all of the possible
scenarios. In addition, we discuss the strategies used to train a model
under concept drift that are close to the federated learning framework,
and we present a set of restrictions on the data collected that must be
verified to apply appropriate strategies. In Section
6
we empirically
show how the performance of some strategies drop in heterogeneous
settings where the mentioned restrictions are not satisfied. Finally,
Section
7
gathers our main conclusions and unsolved challenges.

Yüklə 1,96 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   31




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin