BACKPORT: zram: introduce zram memory tracking
authorMinchan Kim <minchan@kernel.org>
Fri, 8 Jun 2018 00:05:49 +0000 (17:05 -0700)
committerMichael Benedict <michaelbt@live.com>
Fri, 30 Aug 2019 07:42:54 +0000 (17:42 +1000)
zRam as swap is useful for small memory device.  However, swap means
those pages on zram are mostly cold pages due to VM's LRU algorithm.
Especially, once init data for application are touched for launching,
they tend to be not accessed any more and finally swapped out.  zRAM can
store such cold pages as compressed form but it's pointless to keep in
memory.  Better idea is app developers free them directly rather than
remaining them on heap.

This patch tell us last access time of each block of zram via "cat
/sys/kernel/debug/zram/zram0/block_state".

The output is as follows,
      300    75.033841 .wh
      301    63.806904 s..
      302    63.806919 ..h

First column is zram's block index and 3rh one represents symbol (s:
same page w: written page to backing store h: huge page) of the block
state.  Second column represents usec time unit of the block was last
accessed.  So above example means the 300th block is accessed at
75.033851 second and it was huge so it was written to the backing store.

Admin can leverage this information to catch cold|incompressible pages
of process with *pagemap* once part of heaps are swapped out.

I used the feature a few years ago to find memory hoggers in userspace
to notify them what memory they have wasted without touch for a long
time.  With it, they could reduce unnecessary memory space.  However, at
that time, I hacked up zram for the feature but now I need the feature
again so I decided it would be better to upstream rather than keeping it
alone.  I hope I submit the userspace tool to use the feature soon.

[akpm@linux-foundation.org: fix i386 printk warning]
[minchan@kernel.org: use ktime_get_boottime() instead of sched_clock()]
Link: http://lkml.kernel.org/r/20180420063525.GA253739@rodete-desktop-imager.corp.google.com
[akpm@linux-foundation.org: documentation tweak]
[akpm@linux-foundation.org: fix i386 printk warning]
[minchan@kernel.org: fix compile warning]
Link: http://lkml.kernel.org/r/20180508104849.GA8209@rodete-desktop-imager.corp.google.com
[rdunlap@infradead.org: fix printk formats]
Link: http://lkml.kernel.org/r/3652ccb1-96ef-0b0b-05d1-f661d7733dcc@infradead.org
Link: http://lkml.kernel.org/r/20180416090946.63057-5-minchan@kernel.org
Signed-off-by: Minchan Kim <minchan@kernel.org>
Signed-off-by: Randy Dunlap <rdunlap@infradead.org>
Reviewed-by: Sergey Senozhatsky <sergey.senozhatsky@gmail.com>
Acked-by: Greg Kroah-Hartman <gregkh@linuxfoundation.org>
Signed-off-by: Andrew Morton <akpm@linux-foundation.org>
Signed-off-by: Linus Torvalds <torvalds@linux-foundation.org>
(cherry picked from commit c0265342bff4fcaa2cdf13f4596244c18d4a7ae5)
Signed-off-by: Peter Kalauskas <peskal@google.com>
Bug: 112488418
Change-Id: I932447d33d1b6af78ae6463b494006c725e5e38c

Documentation/blockdev/zram.txt
drivers/block/zram/Kconfig
drivers/block/zram/zram_drv.c
drivers/block/zram/zram_drv.h

index 78db38d02bc9a27a7ffd936ef857455960fe7459..875b2b56b87fc88131324bb10bbecc8594e02109 100644 (file)
@@ -243,5 +243,29 @@ to backing storage rather than keeping it in memory.
 User should set up backing device via /sys/block/zramX/backing_dev
 before disksize setting.
 
+= memory tracking
+
+With CONFIG_ZRAM_MEMORY_TRACKING, user can know information of the
+zram block. It could be useful to catch cold or incompressible
+pages of the process with*pagemap.
+If you enable the feature, you could see block state via
+/sys/kernel/debug/zram/zram0/block_state". The output is as follows,
+
+         300    75.033841 .wh
+         301    63.806904 s..
+         302    63.806919 ..h
+
+First column is zram's block index.
+Second column is access time since the system was booted
+Third column is state of the block.
+(s: same page
+w: written page to backing store
+h: huge page)
+
+First line of above example says 300th block is accessed at 75.033841sec
+and the block's state is huge so it is written back to the backing
+storage. It's a debugging feature so anyone shouldn't rely on it to work
+properly.
+
 Nitin Gupta
 ngupta@vflare.org
index 7cd4a8ec3c8fa24b827a19004179f1231b8c2999..cb53957d58f9e40e64908cf7df39ed62caeee33c 100644 (file)
@@ -12,7 +12,7 @@ config ZRAM
          It has several use cases, for example: /tmp storage, use as swap
          disks and maybe many more.
 
-         See zram.txt for more information.
+         See Documentation/blockdev/zram.txt for more information.
 
 config ZRAM_WRITEBACK
        bool "Write back incompressible page to backing device"
@@ -24,4 +24,14 @@ config ZRAM_WRITEBACK
         For this feature, admin should set up backing device via
         /sys/block/zramX/backing_dev.
 
-        See zram.txt for more infomration.
+        See Documentation/blockdev/zram.txt for more information.
+
+config ZRAM_MEMORY_TRACKING
+       bool "Track zRam block status"
+       depends on ZRAM && DEBUG_FS
+       help
+         With this feature, admin can track the state of allocated blocks
+         of zRAM. Admin could see the information via
+         /sys/kernel/debug/zram/zramX/block_state.
+
+         See Documentation/blockdev/zram.txt for more information.
index de4fdb599a585e510d30d23693d4c0312517c973..5d8abb87eed24b6ed6395a2e63def0660199e7e3 100644 (file)
@@ -31,6 +31,7 @@
 #include <linux/err.h>
 #include <linux/idr.h>
 #include <linux/sysfs.h>
+#include <linux/debugfs.h>
 
 #include "zram_drv.h"
 
@@ -61,6 +62,13 @@ static inline bool init_done(struct zram *zram)
        return zram->disksize;
 }
 
+static inline bool zram_allocated(struct zram *zram, u32 index)
+{
+
+       return (zram->table[index].value >> (ZRAM_FLAG_SHIFT + 1)) ||
+                                       zram->table[index].handle;
+}
+
 static inline struct zram *dev_to_zram(struct device *dev)
 {
        return (struct zram *)dev_to_disk(dev)->private_data;
@@ -77,7 +85,7 @@ static void zram_set_handle(struct zram *zram, u32 index, unsigned long handle)
 }
 
 /* flag operations require table entry bit_spin_lock() being held */
-static int zram_test_flag(struct zram *zram, u32 index,
+static bool zram_test_flag(struct zram *zram, u32 index,
                        enum zram_pageflags flag)
 {
        return zram->table[index].value & BIT(flag);
@@ -101,16 +109,6 @@ static inline void zram_set_element(struct zram *zram, u32 index,
        zram->table[index].element = element;
 }
 
-static void zram_accessed(struct zram *zram, u32 index)
-{
-       zram->table[index].ac_time = sched_clock();
-}
-
-static void zram_reset_access(struct zram *zram, u32 index)
-{
-       zram->table[index].ac_time = 0;
-}
-
 static unsigned long zram_get_element(struct zram *zram, u32 index)
 {
        return zram->table[index].element;
@@ -630,6 +628,122 @@ static int read_from_bdev(struct zram *zram, struct bio_vec *bvec,
 static void zram_wb_clear(struct zram *zram, u32 index) {}
 #endif
 
+#ifdef CONFIG_ZRAM_MEMORY_TRACKING
+
+static struct dentry *zram_debugfs_root;
+
+static void zram_debugfs_create(void)
+{
+       zram_debugfs_root = debugfs_create_dir("zram", NULL);
+}
+
+static void zram_debugfs_destroy(void)
+{
+       debugfs_remove_recursive(zram_debugfs_root);
+}
+
+static void zram_accessed(struct zram *zram, u32 index)
+{
+       zram->table[index].ac_time = ktime_get_boottime();
+}
+
+static void zram_reset_access(struct zram *zram, u32 index)
+{
+       zram->table[index].ac_time.tv64 = 0;
+}
+
+static ssize_t read_block_state(struct file *file, char __user *buf,
+                               size_t count, loff_t *ppos)
+{
+       char *kbuf;
+       ssize_t index, written = 0;
+       struct zram *zram = file->private_data;
+       unsigned long nr_pages = zram->disksize >> PAGE_SHIFT;
+       struct timespec64 ts;
+       gfp_t kmalloc_flags;
+
+       kmalloc_flags = GFP_KERNEL;
+       if (count > PAGE_SIZE)
+               kmalloc_flags |= __GFP_NOWARN | __GFP_NORETRY;
+
+       kbuf = kmalloc_node(count, kmalloc_flags, NUMA_NO_NODE);
+       if (!kbuf && count > PAGE_SIZE)
+               kbuf = vmalloc(count);
+
+       if (!kbuf)
+               return -ENOMEM;
+
+       down_read(&zram->init_lock);
+       if (!init_done(zram)) {
+               up_read(&zram->init_lock);
+               kvfree(kbuf);
+               return -EINVAL;
+       }
+
+       for (index = *ppos; index < nr_pages; index++) {
+               int copied;
+
+               zram_slot_lock(zram, index);
+               if (!zram_allocated(zram, index))
+                       goto next;
+
+               ts = ktime_to_timespec64(zram->table[index].ac_time);
+               copied = snprintf(kbuf + written, count,
+                       "%12zd %12lld.%06lu %c%c%c\n",
+                       index, (s64)ts.tv_sec,
+                       ts.tv_nsec / NSEC_PER_USEC,
+                       zram_test_flag(zram, index, ZRAM_SAME) ? 's' : '.',
+                       zram_test_flag(zram, index, ZRAM_WB) ? 'w' : '.',
+                       zram_test_flag(zram, index, ZRAM_HUGE) ? 'h' : '.');
+
+               if (count < copied) {
+                       zram_slot_unlock(zram, index);
+                       break;
+               }
+               written += copied;
+               count -= copied;
+next:
+               zram_slot_unlock(zram, index);
+               *ppos += 1;
+       }
+
+       up_read(&zram->init_lock);
+       if (copy_to_user(buf, kbuf, written))
+               written = -EFAULT;
+       kvfree(kbuf);
+
+       return written;
+}
+
+static const struct file_operations proc_zram_block_state_op = {
+       .open = simple_open,
+       .read = read_block_state,
+       .llseek = default_llseek,
+};
+
+static void zram_debugfs_register(struct zram *zram)
+{
+       if (!zram_debugfs_root)
+               return;
+
+       zram->debugfs_dir = debugfs_create_dir(zram->disk->disk_name,
+                                               zram_debugfs_root);
+       debugfs_create_file("block_state", 0400, zram->debugfs_dir,
+                               zram, &proc_zram_block_state_op);
+}
+
+static void zram_debugfs_unregister(struct zram *zram)
+{
+       debugfs_remove_recursive(zram->debugfs_dir);
+}
+#else
+static void zram_debugfs_create(void) {};
+static void zram_debugfs_destroy(void) {};
+static void zram_accessed(struct zram *zram, u32 index) {};
+static void zram_reset_access(struct zram *zram, u32 index) {};
+static void zram_debugfs_register(struct zram *zram) {};
+static void zram_debugfs_unregister(struct zram *zram) {};
+#endif
 
 /*
  * We switched to per-cpu streams and this attr is not needed anymore.
@@ -1605,6 +1719,7 @@ static int zram_add(void)
        }
        strlcpy(zram->compressor, default_compressor, sizeof(zram->compressor));
 
+       zram_debugfs_register(zram);
        pr_info("Added device: %s\n", zram->disk->disk_name);
        return device_id;
 
@@ -1638,6 +1753,7 @@ static int zram_remove(struct zram *zram)
        zram->claim = true;
        mutex_unlock(&bdev->bd_mutex);
 
+       zram_debugfs_unregister(zram);
        /*
         * Remove sysfs first, so no one will perform a disksize
         * store while we destroy the devices. This also helps during
@@ -1736,6 +1852,7 @@ static void destroy_devices(void)
 {
        class_unregister(&zram_control_class);
        idr_for_each(&zram_index_idr, &zram_remove_cb, NULL);
+       zram_debugfs_destroy();
        idr_destroy(&zram_index_idr);
        unregister_blkdev(zram_major, "zram");
 }
@@ -1750,6 +1867,7 @@ static int __init zram_init(void)
                return ret;
        }
 
+       zram_debugfs_create();
        zram_major = register_blkdev(0, "zram");
        if (zram_major <= 0) {
                pr_err("Unable to get major number\n");
index 79c73f50a2a222b2cd49b0c160906d3b4ae564d1..bbda650f0dc1f63a28a2496e119b8fda634e5c09 100644 (file)
@@ -78,7 +78,9 @@ struct zram_table_entry {
                unsigned long element;
        };
        unsigned long value;
-       u64 ac_time;
+#ifdef CONFIG_ZRAM_MEMORY_TRACKING
+       ktime_t ac_time;
+#endif
 };
 
 struct zram_stats {
@@ -127,5 +129,8 @@ struct zram {
        unsigned long nr_pages;
        spinlock_t bitmap_lock;
 #endif
+#ifdef CONFIG_ZRAM_MEMORY_TRACKING
+       struct dentry *debugfs_dir;
+#endif
 };
 #endif