mm: retry writepages() on ENOMEM when doing an data integrity writeback
authorTheodore Ts'o <tytso@mit.edu>
Fri, 28 Apr 2017 13:51:54 +0000 (09:51 -0400)
committerTheodore Ts'o <tytso@mit.edu>
Fri, 28 Apr 2017 13:51:54 +0000 (09:51 -0400)
Currently, file system's writepages() function must not fail with an
ENOMEM, since if they do, it's possible for buffered data to be lost.
This is because on a data integrity writeback writepages() gets called
but once, and if it returns ENOMEM, if you're lucky the error will get
reflected back to the userspace process calling fsync().  If you
aren't lucky, the user is unmounting the file system, and the dirty
pages will simply be lost.

For this reason, file system code generally will use GFP_NOFS, and in
some cases, will retry the allocation in a loop, on the theory that
"kernel livelocks are temporary; data loss is forever".
Unfortunately, this can indeed cause livelocks, since inside the
writepages() call, the file system is holding various mutexes, and
these mutexes may prevent the OOM killer from killing its targetted
victim if it is also holding on to those mutexes.

A better solution would be to allow writepages() to call the memory
allocator with flags that give greater latitude to the allocator to
fail, and then release its locks and return ENOMEM, and in the case of
background writeback, the writes can be retried at a later time.  In
the case of data-integrity writeback retry after waiting a brief
amount of time.

Signed-off-by: Theodore Ts'o <tytso@mit.edu>
mm/page-writeback.c

index d8ac2a7fb9e7b6db9de3755ab7898095f70f8383..03a70d8a6030a1a79752e844f58a2cc2e8743449 100644 (file)
@@ -2353,10 +2353,16 @@ int do_writepages(struct address_space *mapping, struct writeback_control *wbc)
 
        if (wbc->nr_to_write <= 0)
                return 0;
-       if (mapping->a_ops->writepages)
-               ret = mapping->a_ops->writepages(mapping, wbc);
-       else
-               ret = generic_writepages(mapping, wbc);
+       while (1) {
+               if (mapping->a_ops->writepages)
+                       ret = mapping->a_ops->writepages(mapping, wbc);
+               else
+                       ret = generic_writepages(mapping, wbc);
+               if ((ret != -ENOMEM) || (wbc->sync_mode != WB_SYNC_ALL))
+                       break;
+               cond_resched();
+               congestion_wait(BLK_RW_ASYNC, HZ/50);
+       }
        return ret;
 }