sched/fair: update util_est only on util_avg updates
authorlakkyung.jung <lakkyung.jung@samsung.com>
Mon, 16 Apr 2018 06:46:16 +0000 (15:46 +0900)
committerlakkyung.jung <lakkyung.jung@samsung.com>
Mon, 23 Jul 2018 05:58:56 +0000 (14:58 +0900)
The estimated utilization of a task is currently updated every time the
task is dequeued. However, to keep overheads under control, PELT signals
are effectively updated at maximum once every 1ms.

Thus, for really short running tasks, it can happen that their util_avg
value has not been updates since their last enqueue.  If such tasks are
also frequently running tasks (e.g. the kind of workload generated by
hackbench) it can also happen that their util_avg is updated only every
few activations.

This means that updating util_est at every dequeue potentially introduces
not necessary overheads and it's also conceptually wrong if the util_avg
signal has never been updated during a task activation.

Let's introduce a throttling mechanism on task's util_est updates
to sync them with util_avg updates. To make the solution memory
efficient, both in terms of space and load/store operations, we encode a
synchronization flag into the LSB of util_est.enqueued.
This makes util_est an even values only metric, which is still
considered good enough for its purpose.
The synchronization bit is (re)set by __update_load_avg_se() once the
PELT signal of a task has been updated during its last activation.

Such a throttling mechanism allows to keep under control util_est
overheads in the wakeup hot path, thus making it a suitable mechanism
which can be enabled also on high-intensity workload systems.
Thus, this now switches on by default the estimation utilization
scheduler feature.

Change-Id: Ia548c1fa33ab1e9d20faa0bf7503ebaba5946063
Suggested-by: Chris Redpath <chris.redpath@arm.com>
Signed-off-by: Patrick Bellasi <patrick.bellasi@arm.com>
Cc: Ingo Molnar <mingo@redhat.com>
Cc: Peter Zijlstra <peterz@infradead.org>
Cc: Paul Turner <pjt@google.com>
Cc: Vincent Guittot <vincent.guittot@linaro.org>
Cc: Morten Rasmussen <morten.rasmussen@arm.com>
Cc: Dietmar Eggemann <dietmar.eggemann@arm.com>
Cc: linux-kernel@vger.kernel.org
kernel/sched/fair.c

index 7de4797f152da6ea06ebfaa4a1fd99b7271c829e..79e7c724e70e5763a2ecee38fd4c112a328a3833 100644 (file)
@@ -3086,12 +3086,39 @@ __update_load_avg_blocked_se(u64 now, int cpu, struct sched_entity *se)
        return ___update_load_avg(now, cpu, &se->avg, 0, 0, NULL, NULL);
 }
 
+/*
+ * When a task is dequeued, its estimated utilization should not be update if
+ * its util_avg has not been updated at least once.
+ * This flag is used to synchronize util_avg updates with util_est updates.
+ * We map this information into the LSB bit of the utilization saved at
+ * dequeue time (i.e. util_est.dequeued).
+ */
+#define UTIL_AVG_UNCHANGED 0x1
+
+static inline void cfs_se_util_change(struct sched_avg *avg)
+{
+       unsigned int enqueued;
+
+       if (!sched_feat(UTIL_EST))
+               return;
+
+       /* Avoid store if the flag has been already set */
+       enqueued = avg->util_est.enqueued;
+       if (!(enqueued & UTIL_AVG_UNCHANGED))
+               return;
+
+       /* Reset flag to report util_avg has been updated */
+       enqueued &= ~UTIL_AVG_UNCHANGED;
+       WRITE_ONCE(avg->util_est.enqueued, enqueued);
+}
+
 static int
 __update_load_avg_se(u64 now, int cpu, struct cfs_rq *cfs_rq, struct sched_entity *se)
 {
-       return ___update_load_avg(now, cpu, &se->avg,
+       if (___update_load_avg(now, cpu, &se->avg,
                                  se->on_rq * scale_load_down(se->load.weight),
-                                 cfs_rq->curr == se, NULL, NULL);
+                                 cfs_rq->curr == se, NULL, NULL)
+               cfs_se_util_change(&se->avg);
 }
 
 static int
@@ -3642,7 +3669,7 @@ static inline void util_est_enqueue(struct cfs_rq *cfs_rq,
 
        /* Update root cfs_rq's estimated utilization */
        enqueued  = cfs_rq->avg.util_est.enqueued;
-       enqueued += _task_util_est(p);
+       enqueued += (_task_util_est(p) | UTIL_AVG_UNCHANGED);
        WRITE_ONCE(cfs_rq->avg.util_est.enqueued, enqueued);
 }
 
@@ -3677,7 +3704,7 @@ util_est_dequeue(struct cfs_rq *cfs_rq, struct task_struct *p, bool task_sleep)
        if (cfs_rq->nr_running) {
                ue.enqueued  = cfs_rq->avg.util_est.enqueued;
                ue.enqueued -= min_t(unsigned int, ue.enqueued,
-                                    _task_util_est(p));
+                                    (_task_util_est(p) | UTIL_AVG_UNCHANGED));
        }
        WRITE_ONCE(cfs_rq->avg.util_est.enqueued, ue.enqueued);
 
@@ -3688,12 +3715,19 @@ util_est_dequeue(struct cfs_rq *cfs_rq, struct task_struct *p, bool task_sleep)
        if (!task_sleep)
                return;
 
+       /*
+        * If the PELT values haven't changed since enqueue time,
+        * skip the util_est update.
+        */
+       ue = p->se.avg.util_est;
+       if (ue.enqueued & UTIL_AVG_UNCHANGED)
+               return;
+
        /*
         * Skip update of task's estimated utilization when its EWMA is
         * already ~1% close to its last activation value.
         */
-       ue = p->se.avg.util_est;
-       ue.enqueued = task_util(p);
+       ue.enqueued = (task_util(p) | UTIL_AVG_UNCHANGED);
        last_ewma_diff = ue.enqueued - ue.ewma;
        if (within_margin(last_ewma_diff, (SCHED_CAPACITY_SCALE / 100)))
                return;