uprobes, mm, x86: Add the ability to install and remove uprobes breakpoints
authorSrikar Dronamraju <srikar@linux.vnet.ibm.com>
Thu, 9 Feb 2012 09:26:42 +0000 (14:56 +0530)
committerIngo Molnar <mingo@elte.hu>
Fri, 17 Feb 2012 09:00:01 +0000 (10:00 +0100)
Add uprobes support to the core kernel, with x86 support.

This commit adds the kernel facilities, the actual uprobes
user-space ABI and perf probe support comes in later commits.

General design:

Uprobes are maintained in an rb-tree indexed by inode and offset
(the offset here is from the start of the mapping). For a unique
(inode, offset) tuple, there can be at most one uprobe in the
rb-tree.

Since the (inode, offset) tuple identifies a unique uprobe, more
than one user may be interested in the same uprobe. This provides
the ability to connect multiple 'consumers' to the same uprobe.

Each consumer defines a handler and a filter (optional). The
'handler' is run every time the uprobe is hit, if it matches the
'filter' criteria.

The first consumer of a uprobe causes the breakpoint to be
inserted at the specified address and subsequent consumers are
appended to this list.  On subsequent probes, the consumer gets
appended to the existing list of consumers. The breakpoint is
removed when the last consumer unregisters. For all other
unregisterations, the consumer is removed from the list of
consumers.

Given a inode, we get a list of the mms that have mapped the
inode. Do the actual registration if mm maps the page where a
probe needs to be inserted/removed.

We use a temporary list to walk through the vmas that map the
inode.

- The number of maps that map the inode, is not known before we
  walk the rmap and keeps changing.
- extending vm_area_struct wasn't recommended, it's a
  size-critical data structure.
- There can be more than one maps of the inode in the same mm.

We add callbacks to the mmap methods to keep an eye on text vmas
that are of interest to uprobes.  When a vma of interest is mapped,
we insert the breakpoint at the right address.

Uprobe works by replacing the instruction at the address defined
by (inode, offset) with the arch specific breakpoint
instruction. We save a copy of the original instruction at the
uprobed address.

This is needed for:

 a. executing the instruction out-of-line (xol).
 b. instruction analysis for any subsequent fixups.
 c. restoring the instruction back when the uprobe is unregistered.

We insert or delete a breakpoint instruction, and this
breakpoint instruction is assumed to be the smallest instruction
available on the platform. For fixed size instruction platforms
this is trivially true, for variable size instruction platforms
the breakpoint instruction is typically the smallest (often a
single byte).

Writing the instruction is done by COWing the page and changing
the instruction during the copy, this even though most platforms
allow atomic writes of the breakpoint instruction. This also
mirrors the behaviour of a ptrace() memory write to a PRIVATE
file map.

The core worker is derived from KSM's replace_page() logic.

In essence, similar to KSM:

 a. allocate a new page and copy over contents of the page that
    has the uprobed vaddr
 b. modify the copy and insert the breakpoint at the required
    address
 c. switch the original page with the copy containing the
    breakpoint
 d. flush page tables.

replace_page() is being replicated here because of some minor
changes in the type of pages and also because Hugh Dickins had
plans to improve replace_page() for KSM specific work.

Instruction analysis on x86 is based on instruction decoder and
determines if an instruction can be probed and determines the
necessary fixups after singlestep.  Instruction analysis is done
at probe insertion time so that we avoid having to repeat the
same analysis every time a probe is hit.

A lot of code here is due to the improvement/suggestions/inputs
from Peter Zijlstra.

Changelog:

(v10):
 - Add code to clear REX.B prefix as suggested by Denys Vlasenko
   and Masami Hiramatsu.

(v9):
 - Use insn_offset_modrm as suggested by Masami Hiramatsu.

(v7):

 Handle comments from Peter Zijlstra:

 - Dont take reference to inode. (expect inode to uprobe_register to be sane).
 - Use PTR_ERR to set the return value.
 - No need to take reference to inode.
 - use PTR_ERR to return error value.
 - register and uprobe_unregister share code.

(v5):

 - Modified del_consumer as per comments from Peter.
 - Drop reference to inode before dropping reference to uprobe.
 - Use i_size_read(inode) instead of inode->i_size.
 - Ensure uprobe->consumers is NULL, before __uprobe_unregister() is called.
 - Includes errno.h as recommended by Stephen Rothwell to fix a build issue
   on sparc defconfig
 - Remove restrictions while unregistering.
 - Earlier code leaked inode references under some conditions while
   registering/unregistering.
 - Continue the vma-rmap walk even if the intermediate vma doesnt
   meet the requirements.
 - Validate the vma found by find_vma before inserting/removing the
   breakpoint
 - Call del_consumer under mutex_lock.
 - Use hash locks.
 - Handle mremap.
 - Introduce find_least_offset_node() instead of close match logic in
   find_uprobe
 - Uprobes no more depends on MM_OWNER; No reference to task_structs
   while inserting/removing a probe.
 - Uses read_mapping_page instead of grab_cache_page so that the pages
   have valid content.
 - pass NULL to get_user_pages for the task parameter.
 - call SetPageUptodate on the new page allocated in write_opcode.
 - fix leaking a reference to the new page under certain conditions.
 - Include Instruction Decoder if Uprobes gets defined.
 - Remove const attributes for instruction prefix arrays.
 - Uses mm_context to know if the application is 32 bit.

Signed-off-by: Srikar Dronamraju <srikar@linux.vnet.ibm.com>
Also-written-by: Jim Keniston <jkenisto@us.ibm.com>
Reviewed-by: Peter Zijlstra <a.p.zijlstra@chello.nl>
Cc: Oleg Nesterov <oleg@redhat.com>
Cc: Andi Kleen <andi@firstfloor.org>
Cc: Christoph Hellwig <hch@infradead.org>
Cc: Steven Rostedt <rostedt@goodmis.org>
Cc: Roland McGrath <roland@hack.frob.com>
Cc: Masami Hiramatsu <masami.hiramatsu.pt@hitachi.com>
Cc: Arnaldo Carvalho de Melo <acme@infradead.org>
Cc: Anton Arapov <anton@redhat.com>
Cc: Ananth N Mavinakayanahalli <ananth@in.ibm.com>
Cc: Stephen Rothwell <sfr@canb.auug.org.au>
Cc: Denys Vlasenko <vda.linux@googlemail.com>
Cc: Peter Zijlstra <peterz@infradead.org>
Cc: Linus Torvalds <torvalds@linux-foundation.org>
Cc: Andrew Morton <akpm@linux-foundation.org>
Cc: Linux-mm <linux-mm@kvack.org>
Link: http://lkml.kernel.org/r/20120209092642.GE16600@linux.vnet.ibm.com
[ Made various small edits to the commit log ]
Signed-off-by: Ingo Molnar <mingo@elte.hu>
arch/Kconfig
arch/x86/Kconfig
arch/x86/include/asm/uprobes.h [new file with mode: 0644]
arch/x86/kernel/Makefile
arch/x86/kernel/uprobes.c [new file with mode: 0644]
include/linux/uprobes.h [new file with mode: 0644]
kernel/Makefile
kernel/uprobes.c [new file with mode: 0644]
mm/mmap.c

index 4f55c736be11ea3aa3ac6762b0ec3d1371b872ce..284f5898f5269ca236e66353b88b48d18c757e34 100644 (file)
@@ -65,6 +65,17 @@ config OPTPROBES
        depends on KPROBES && HAVE_OPTPROBES
        depends on !PREEMPT
 
+config UPROBES
+       bool "User-space probes (EXPERIMENTAL)"
+       depends on ARCH_SUPPORTS_UPROBES
+       default n
+       help
+         Uprobes enables kernel subsystems to establish probepoints
+         in user applications and execute handler functions when
+         the probepoints are hit.
+
+         If in doubt, say "N".
+
 config HAVE_EFFICIENT_UNALIGNED_ACCESS
        bool
        help
index 5bed94e189fab8ef9bf24f038763ee90bc45b798..481dbfcf14edb4a56e505062a4741e941146cbb6 100644 (file)
@@ -84,7 +84,7 @@ config X86
        select GENERIC_IOMAP
 
 config INSTRUCTION_DECODER
-       def_bool (KPROBES || PERF_EVENTS)
+       def_bool (KPROBES || PERF_EVENTS || UPROBES)
 
 config OUTPUT_FORMAT
        string
@@ -240,6 +240,9 @@ config ARCH_CPU_PROBE_RELEASE
        def_bool y
        depends on HOTPLUG_CPU
 
+config ARCH_SUPPORTS_UPROBES
+       def_bool y
+
 source "init/Kconfig"
 source "kernel/Kconfig.freezer"
 
diff --git a/arch/x86/include/asm/uprobes.h b/arch/x86/include/asm/uprobes.h
new file mode 100644 (file)
index 0000000..8208234
--- /dev/null
@@ -0,0 +1,42 @@
+#ifndef _ASM_UPROBES_H
+#define _ASM_UPROBES_H
+/*
+ * Userspace Probes (UProbes) for x86
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
+ *
+ * Copyright (C) IBM Corporation, 2008-2011
+ * Authors:
+ *     Srikar Dronamraju
+ *     Jim Keniston
+ */
+
+typedef u8 uprobe_opcode_t;
+#define MAX_UINSN_BYTES 16
+#define UPROBES_XOL_SLOT_BYTES 128     /* to keep it cache aligned */
+
+#define UPROBES_BKPT_INSN 0xcc
+#define UPROBES_BKPT_INSN_SIZE 1
+
+struct uprobe_arch_info {
+       u16                     fixups;
+#ifdef CONFIG_X86_64
+       unsigned long rip_rela_target_address;
+#endif
+};
+
+struct uprobe;
+extern int analyze_insn(struct mm_struct *mm, struct uprobe *uprobe);
+#endif /* _ASM_UPROBES_H */
index 5369059c07a907fac7e6a755aa24e7ae280bd6a0..8c8c365a3bc3e1351058da685cb17c341698a93c 100644 (file)
@@ -100,6 +100,7 @@ obj-$(CONFIG_X86_CHECK_BIOS_CORRUPTION) += check.o
 
 obj-$(CONFIG_SWIOTLB)                  += pci-swiotlb.o
 obj-$(CONFIG_OF)                       += devicetree.o
+obj-$(CONFIG_UPROBES)                  += uprobes.o
 
 ###
 # 64 bit specific files
diff --git a/arch/x86/kernel/uprobes.c b/arch/x86/kernel/uprobes.c
new file mode 100644 (file)
index 0000000..2a301bb
--- /dev/null
@@ -0,0 +1,412 @@
+/*
+ * Userspace Probes (UProbes) for x86
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
+ *
+ * Copyright (C) IBM Corporation, 2008-2011
+ * Authors:
+ *     Srikar Dronamraju
+ *     Jim Keniston
+ */
+
+#include <linux/kernel.h>
+#include <linux/sched.h>
+#include <linux/ptrace.h>
+#include <linux/uprobes.h>
+
+#include <linux/kdebug.h>
+#include <asm/insn.h>
+
+/* Post-execution fixups. */
+
+/* No fixup needed */
+#define UPROBES_FIX_NONE       0x0
+/* Adjust IP back to vicinity of actual insn */
+#define UPROBES_FIX_IP         0x1
+/* Adjust the return address of a call insn */
+#define UPROBES_FIX_CALL       0x2
+
+#define UPROBES_FIX_RIP_AX     0x8000
+#define UPROBES_FIX_RIP_CX     0x4000
+
+/* Adaptations for mhiramat x86 decoder v14. */
+#define OPCODE1(insn) ((insn)->opcode.bytes[0])
+#define OPCODE2(insn) ((insn)->opcode.bytes[1])
+#define OPCODE3(insn) ((insn)->opcode.bytes[2])
+#define MODRM_REG(insn) X86_MODRM_REG(insn->modrm.value)
+
+#define W(row, b0, b1, b2, b3, b4, b5, b6, b7, b8, b9, ba, bb, bc, bd, be, bf)\
+       (((b0##UL << 0x0)|(b1##UL << 0x1)|(b2##UL << 0x2)|(b3##UL << 0x3) |   \
+         (b4##UL << 0x4)|(b5##UL << 0x5)|(b6##UL << 0x6)|(b7##UL << 0x7) |   \
+         (b8##UL << 0x8)|(b9##UL << 0x9)|(ba##UL << 0xa)|(bb##UL << 0xb) |   \
+         (bc##UL << 0xc)|(bd##UL << 0xd)|(be##UL << 0xe)|(bf##UL << 0xf))    \
+        << (row % 32))
+
+#ifdef CONFIG_X86_64
+static volatile u32 good_insns_64[256 / 32] = {
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+       /*      ----------------------------------------------         */
+       W(0x00, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0) | /* 00 */
+       W(0x10, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0) , /* 10 */
+       W(0x20, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0) | /* 20 */
+       W(0x30, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0) , /* 30 */
+       W(0x40, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0) | /* 40 */
+       W(0x50, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 50 */
+       W(0x60, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0) | /* 60 */
+       W(0x70, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 70 */
+       W(0x80, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 80 */
+       W(0x90, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 90 */
+       W(0xa0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* a0 */
+       W(0xb0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* b0 */
+       W(0xc0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0) | /* c0 */
+       W(0xd0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* d0 */
+       W(0xe0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0) | /* e0 */
+       W(0xf0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1)   /* f0 */
+       /*      ----------------------------------------------         */
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+};
+#endif
+
+/* Good-instruction tables for 32-bit apps */
+
+static volatile u32 good_insns_32[256 / 32] = {
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+       /*      ----------------------------------------------         */
+       W(0x00, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0) | /* 00 */
+       W(0x10, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0) , /* 10 */
+       W(0x20, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1) | /* 20 */
+       W(0x30, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1) , /* 30 */
+       W(0x40, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 40 */
+       W(0x50, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 50 */
+       W(0x60, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0) | /* 60 */
+       W(0x70, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 70 */
+       W(0x80, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 80 */
+       W(0x90, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 90 */
+       W(0xa0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* a0 */
+       W(0xb0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* b0 */
+       W(0xc0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0) | /* c0 */
+       W(0xd0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* d0 */
+       W(0xe0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0) | /* e0 */
+       W(0xf0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1)   /* f0 */
+       /*      ----------------------------------------------         */
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+};
+
+/* Using this for both 64-bit and 32-bit apps */
+static volatile u32 good_2byte_insns[256 / 32] = {
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+       /*      ----------------------------------------------         */
+       W(0x00, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1) | /* 00 */
+       W(0x10, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1) , /* 10 */
+       W(0x20, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1) | /* 20 */
+       W(0x30, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0) , /* 30 */
+       W(0x40, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 40 */
+       W(0x50, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 50 */
+       W(0x60, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 60 */
+       W(0x70, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1) , /* 70 */
+       W(0x80, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* 80 */
+       W(0x90, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* 90 */
+       W(0xa0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1) | /* a0 */
+       W(0xb0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1) , /* b0 */
+       W(0xc0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* c0 */
+       W(0xd0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) , /* d0 */
+       W(0xe0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) | /* e0 */
+       W(0xf0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0)   /* f0 */
+       /*      ----------------------------------------------         */
+       /*      0  1  2  3  4  5  6  7  8  9  a  b  c  d  e  f         */
+};
+
+#undef W
+
+/*
+ * opcodes we'll probably never support:
+ * 6c-6d, e4-e5, ec-ed - in
+ * 6e-6f, e6-e7, ee-ef - out
+ * cc, cd - int3, int
+ * cf - iret
+ * d6 - illegal instruction
+ * f1 - int1/icebp
+ * f4 - hlt
+ * fa, fb - cli, sti
+ * 0f - lar, lsl, syscall, clts, sysret, sysenter, sysexit, invd, wbinvd, ud2
+ *
+ * invalid opcodes in 64-bit mode:
+ * 06, 0e, 16, 1e, 27, 2f, 37, 3f, 60-62, 82, c4-c5, d4-d5
+ *
+ * 63 - we support this opcode in x86_64 but not in i386.
+ *
+ * opcodes we may need to refine support for:
+ * 0f - 2-byte instructions: For many of these instructions, the validity
+ * depends on the prefix and/or the reg field.  On such instructions, we
+ * just consider the opcode combination valid if it corresponds to any
+ * valid instruction.
+ * 8f - Group 1 - only reg = 0 is OK
+ * c6-c7 - Group 11 - only reg = 0 is OK
+ * d9-df - fpu insns with some illegal encodings
+ * f2, f3 - repnz, repz prefixes.  These are also the first byte for
+ * certain floating-point instructions, such as addsd.
+ * fe - Group 4 - only reg = 0 or 1 is OK
+ * ff - Group 5 - only reg = 0-6 is OK
+ *
+ * others -- Do we need to support these?
+ * 0f - (floating-point?) prefetch instructions
+ * 07, 17, 1f - pop es, pop ss, pop ds
+ * 26, 2e, 36, 3e - es:, cs:, ss:, ds: segment prefixes --
+ *     but 64 and 65 (fs: and gs:) seem to be used, so we support them
+ * 67 - addr16 prefix
+ * ce - into
+ * f0 - lock prefix
+ */
+
+/*
+ * TODO:
+ * - Where necessary, examine the modrm byte and allow only valid instructions
+ * in the different Groups and fpu instructions.
+ */
+
+static bool is_prefix_bad(struct insn *insn)
+{
+       int i;
+
+       for (i = 0; i < insn->prefixes.nbytes; i++) {
+               switch (insn->prefixes.bytes[i]) {
+               case 0x26:      /*INAT_PFX_ES   */
+               case 0x2E:      /*INAT_PFX_CS   */
+               case 0x36:      /*INAT_PFX_DS   */
+               case 0x3E:      /*INAT_PFX_SS   */
+               case 0xF0:      /*INAT_PFX_LOCK */
+                       return true;
+               }
+       }
+       return false;
+}
+
+static int validate_insn_32bits(struct uprobe *uprobe, struct insn *insn)
+{
+       insn_init(insn, uprobe->insn, false);
+
+       /* Skip good instruction prefixes; reject "bad" ones. */
+       insn_get_opcode(insn);
+       if (is_prefix_bad(insn))
+               return -ENOTSUPP;
+       if (test_bit(OPCODE1(insn), (unsigned long *)good_insns_32))
+               return 0;
+       if (insn->opcode.nbytes == 2) {
+               if (test_bit(OPCODE2(insn), (unsigned long *)good_2byte_insns))
+                       return 0;
+       }
+       return -ENOTSUPP;
+}
+
+/*
+ * Figure out which fixups post_xol() will need to perform, and annotate
+ * uprobe->arch_info.fixups accordingly.  To start with,
+ * uprobe->arch_info.fixups is either zero or it reflects rip-related
+ * fixups.
+ */
+static void prepare_fixups(struct uprobe *uprobe, struct insn *insn)
+{
+       bool fix_ip = true, fix_call = false;   /* defaults */
+       int reg;
+
+       insn_get_opcode(insn);  /* should be a nop */
+
+       switch (OPCODE1(insn)) {
+       case 0xc3:              /* ret/lret */
+       case 0xcb:
+       case 0xc2:
+       case 0xca:
+               /* ip is correct */
+               fix_ip = false;
+               break;
+       case 0xe8:              /* call relative - Fix return addr */
+               fix_call = true;
+               break;
+       case 0x9a:              /* call absolute - Fix return addr, not ip */
+               fix_call = true;
+               fix_ip = false;
+               break;
+       case 0xff:
+               insn_get_modrm(insn);
+               reg = MODRM_REG(insn);
+               if (reg == 2 || reg == 3) {
+                       /* call or lcall, indirect */
+                       /* Fix return addr; ip is correct. */
+                       fix_call = true;
+                       fix_ip = false;
+               } else if (reg == 4 || reg == 5) {
+                       /* jmp or ljmp, indirect */
+                       /* ip is correct. */
+                       fix_ip = false;
+               }
+               break;
+       case 0xea:              /* jmp absolute -- ip is correct */
+               fix_ip = false;
+               break;
+       default:
+               break;
+       }
+       if (fix_ip)
+               uprobe->arch_info.fixups |= UPROBES_FIX_IP;
+       if (fix_call)
+               uprobe->arch_info.fixups |= UPROBES_FIX_CALL;
+}
+
+#ifdef CONFIG_X86_64
+/*
+ * If uprobe->insn doesn't use rip-relative addressing, return
+ * immediately.  Otherwise, rewrite the instruction so that it accesses
+ * its memory operand indirectly through a scratch register.  Set
+ * uprobe->arch_info.fixups and uprobe->arch_info.rip_rela_target_address
+ * accordingly.  (The contents of the scratch register will be saved
+ * before we single-step the modified instruction, and restored
+ * afterward.)
+ *
+ * We do this because a rip-relative instruction can access only a
+ * relatively small area (+/- 2 GB from the instruction), and the XOL
+ * area typically lies beyond that area.  At least for instructions
+ * that store to memory, we can't execute the original instruction
+ * and "fix things up" later, because the misdirected store could be
+ * disastrous.
+ *
+ * Some useful facts about rip-relative instructions:
+ * - There's always a modrm byte.
+ * - There's never a SIB byte.
+ * - The displacement is always 4 bytes.
+ */
+static void handle_riprel_insn(struct mm_struct *mm, struct uprobe *uprobe,
+                                                       struct insn *insn)
+{
+       u8 *cursor;
+       u8 reg;
+
+       if (mm->context.ia32_compat)
+               return;
+
+       uprobe->arch_info.rip_rela_target_address = 0x0;
+       if (!insn_rip_relative(insn))
+               return;
+
+       /*
+        * insn_rip_relative() would have decoded rex_prefix, modrm.
+        * Clear REX.b bit (extension of MODRM.rm field):
+        * we want to encode rax/rcx, not r8/r9.
+        */
+       if (insn->rex_prefix.nbytes) {
+               cursor = uprobe->insn + insn_offset_rex_prefix(insn);
+               *cursor &= 0xfe;        /* Clearing REX.B bit */
+       }
+
+       /*
+        * Point cursor at the modrm byte.  The next 4 bytes are the
+        * displacement.  Beyond the displacement, for some instructions,
+        * is the immediate operand.
+        */
+       cursor = uprobe->insn + insn_offset_modrm(insn);
+       insn_get_length(insn);
+
+       /*
+        * Convert from rip-relative addressing to indirect addressing
+        * via a scratch register.  Change the r/m field from 0x5 (%rip)
+        * to 0x0 (%rax) or 0x1 (%rcx), and squeeze out the offset field.
+        */
+       reg = MODRM_REG(insn);
+       if (reg == 0) {
+               /*
+                * The register operand (if any) is either the A register
+                * (%rax, %eax, etc.) or (if the 0x4 bit is set in the
+                * REX prefix) %r8.  In any case, we know the C register
+                * is NOT the register operand, so we use %rcx (register
+                * #1) for the scratch register.
+                */
+               uprobe->arch_info.fixups = UPROBES_FIX_RIP_CX;
+               /* Change modrm from 00 000 101 to 00 000 001. */
+               *cursor = 0x1;
+       } else {
+               /* Use %rax (register #0) for the scratch register. */
+               uprobe->arch_info.fixups = UPROBES_FIX_RIP_AX;
+               /* Change modrm from 00 xxx 101 to 00 xxx 000 */
+               *cursor = (reg << 3);
+       }
+
+       /* Target address = address of next instruction + (signed) offset */
+       uprobe->arch_info.rip_rela_target_address = (long)insn->length
+                                       + insn->displacement.value;
+       /* Displacement field is gone; slide immediate field (if any) over. */
+       if (insn->immediate.nbytes) {
+               cursor++;
+               memmove(cursor, cursor + insn->displacement.nbytes,
+                                               insn->immediate.nbytes);
+       }
+       return;
+}
+
+static int validate_insn_64bits(struct uprobe *uprobe, struct insn *insn)
+{
+       insn_init(insn, uprobe->insn, true);
+
+       /* Skip good instruction prefixes; reject "bad" ones. */
+       insn_get_opcode(insn);
+       if (is_prefix_bad(insn))
+               return -ENOTSUPP;
+       if (test_bit(OPCODE1(insn), (unsigned long *)good_insns_64))
+               return 0;
+       if (insn->opcode.nbytes == 2) {
+               if (test_bit(OPCODE2(insn), (unsigned long *)good_2byte_insns))
+                       return 0;
+       }
+       return -ENOTSUPP;
+}
+
+static int validate_insn_bits(struct mm_struct *mm, struct uprobe *uprobe,
+                               struct insn *insn)
+{
+       if (mm->context.ia32_compat)
+               return validate_insn_32bits(uprobe, insn);
+       return validate_insn_64bits(uprobe, insn);
+}
+#else
+static void handle_riprel_insn(struct mm_struct *mm, struct uprobe *uprobe,
+                                                       struct insn *insn)
+{
+       return;
+}
+
+static int validate_insn_bits(struct mm_struct *mm, struct uprobe *uprobe,
+                               struct insn *insn)
+{
+       return validate_insn_32bits(uprobe, insn);
+}
+#endif /* CONFIG_X86_64 */
+
+/**
+ * analyze_insn - instruction analysis including validity and fixups.
+ * @mm: the probed address space.
+ * @uprobe: the probepoint information.
+ * Return 0 on success or a -ve number on error.
+ */
+int analyze_insn(struct mm_struct *mm, struct uprobe *uprobe)
+{
+       int ret;
+       struct insn insn;
+
+       uprobe->arch_info.fixups = 0;
+       ret = validate_insn_bits(mm, uprobe, &insn);
+       if (ret != 0)
+               return ret;
+       handle_riprel_insn(mm, uprobe, &insn);
+       prepare_fixups(uprobe, &insn);
+       return 0;
+}
diff --git a/include/linux/uprobes.h b/include/linux/uprobes.h
new file mode 100644 (file)
index 0000000..f1d13fd
--- /dev/null
@@ -0,0 +1,98 @@
+#ifndef _LINUX_UPROBES_H
+#define _LINUX_UPROBES_H
+/*
+ * Userspace Probes (UProbes)
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
+ *
+ * Copyright (C) IBM Corporation, 2008-2011
+ * Authors:
+ *     Srikar Dronamraju
+ *     Jim Keniston
+ */
+
+#include <linux/errno.h>
+#include <linux/rbtree.h>
+
+struct vm_area_struct;
+#ifdef CONFIG_ARCH_SUPPORTS_UPROBES
+#include <asm/uprobes.h>
+#else
+
+typedef u8 uprobe_opcode_t;
+struct uprobe_arch_info {};
+
+#define MAX_UINSN_BYTES 4
+#endif
+
+#define uprobe_opcode_sz sizeof(uprobe_opcode_t)
+
+/* flags that denote/change uprobes behaviour */
+/* Have a copy of original instruction */
+#define UPROBES_COPY_INSN      0x1
+/* Dont run handlers when first register/ last unregister in progress*/
+#define UPROBES_RUN_HANDLER    0x2
+
+struct uprobe_consumer {
+       int (*handler)(struct uprobe_consumer *self, struct pt_regs *regs);
+       /*
+        * filter is optional; If a filter exists, handler is run
+        * if and only if filter returns true.
+        */
+       bool (*filter)(struct uprobe_consumer *self, struct task_struct *task);
+
+       struct uprobe_consumer *next;
+};
+
+struct uprobe {
+       struct rb_node          rb_node;        /* node in the rb tree */
+       atomic_t                ref;
+       struct rw_semaphore     consumer_rwsem;
+       struct list_head        pending_list;
+       struct uprobe_arch_info arch_info;
+       struct uprobe_consumer  *consumers;
+       struct inode            *inode;         /* Also hold a ref to inode */
+       loff_t                  offset;
+       int                     flags;
+       u8                      insn[MAX_UINSN_BYTES];
+};
+
+#ifdef CONFIG_UPROBES
+extern int __weak set_bkpt(struct mm_struct *mm, struct uprobe *uprobe,
+                                                       unsigned long vaddr);
+extern int __weak set_orig_insn(struct mm_struct *mm, struct uprobe *uprobe,
+                                       unsigned long vaddr, bool verify);
+extern bool __weak is_bkpt_insn(uprobe_opcode_t *insn);
+extern int register_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer);
+extern void unregister_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer);
+extern int mmap_uprobe(struct vm_area_struct *vma);
+#else /* CONFIG_UPROBES is not defined */
+static inline int register_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer)
+{
+       return -ENOSYS;
+}
+static inline void unregister_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer)
+{
+}
+static inline int mmap_uprobe(struct vm_area_struct *vma)
+{
+       return 0;
+}
+#endif /* CONFIG_UPROBES */
+#endif /* _LINUX_UPROBES_H */
index 2d9de86b7e767f518e59183a98bf4c04e0038813..8609dd3d875ad9cebc538f93c1728182dbcf4321 100644 (file)
@@ -107,6 +107,7 @@ obj-$(CONFIG_USER_RETURN_NOTIFIER) += user-return-notifier.o
 obj-$(CONFIG_PADATA) += padata.o
 obj-$(CONFIG_CRASH_DUMP) += crash_dump.o
 obj-$(CONFIG_JUMP_LABEL) += jump_label.o
+obj-$(CONFIG_UPROBES) += uprobes.o
 
 $(obj)/configs.o: $(obj)/config_data.h
 
diff --git a/kernel/uprobes.c b/kernel/uprobes.c
new file mode 100644 (file)
index 0000000..72e8bb3
--- /dev/null
@@ -0,0 +1,976 @@
+/*
+ * Userspace Probes (UProbes)
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
+ *
+ * Copyright (C) IBM Corporation, 2008-2011
+ * Authors:
+ *     Srikar Dronamraju
+ *     Jim Keniston
+ */
+
+#include <linux/kernel.h>
+#include <linux/highmem.h>
+#include <linux/pagemap.h>     /* read_mapping_page */
+#include <linux/slab.h>
+#include <linux/sched.h>
+#include <linux/rmap.h>                /* anon_vma_prepare */
+#include <linux/mmu_notifier.h>        /* set_pte_at_notify */
+#include <linux/swap.h>                /* try_to_free_swap */
+#include <linux/uprobes.h>
+
+static struct rb_root uprobes_tree = RB_ROOT;
+static DEFINE_SPINLOCK(uprobes_treelock);      /* serialize rbtree access */
+
+#define UPROBES_HASH_SZ        13
+/* serialize (un)register */
+static struct mutex uprobes_mutex[UPROBES_HASH_SZ];
+#define uprobes_hash(v)        (&uprobes_mutex[((unsigned long)(v)) %\
+                                               UPROBES_HASH_SZ])
+
+/* serialize uprobe->pending_list */
+static struct mutex uprobes_mmap_mutex[UPROBES_HASH_SZ];
+#define uprobes_mmap_hash(v)   (&uprobes_mmap_mutex[((unsigned long)(v)) %\
+                                               UPROBES_HASH_SZ])
+
+/*
+ * uprobe_events allows us to skip the mmap_uprobe if there are no uprobe
+ * events active at this time.  Probably a fine grained per inode count is
+ * better?
+ */
+static atomic_t uprobe_events = ATOMIC_INIT(0);
+
+/*
+ * Maintain a temporary per vma info that can be used to search if a vma
+ * has already been handled. This structure is introduced since extending
+ * vm_area_struct wasnt recommended.
+ */
+struct vma_info {
+       struct list_head probe_list;
+       struct mm_struct *mm;
+       loff_t vaddr;
+};
+
+/*
+ * valid_vma: Verify if the specified vma is an executable vma
+ * Relax restrictions while unregistering: vm_flags might have
+ * changed after breakpoint was inserted.
+ *     - is_register: indicates if we are in register context.
+ *     - Return 1 if the specified virtual address is in an
+ *       executable vma.
+ */
+static bool valid_vma(struct vm_area_struct *vma, bool is_register)
+{
+       if (!vma->vm_file)
+               return false;
+
+       if (!is_register)
+               return true;
+
+       if ((vma->vm_flags & (VM_READ|VM_WRITE|VM_EXEC|VM_SHARED)) ==
+                                               (VM_READ|VM_EXEC))
+               return true;
+
+       return false;
+}
+
+static loff_t vma_address(struct vm_area_struct *vma, loff_t offset)
+{
+       loff_t vaddr;
+
+       vaddr = vma->vm_start + offset;
+       vaddr -= vma->vm_pgoff << PAGE_SHIFT;
+       return vaddr;
+}
+
+/**
+ * __replace_page - replace page in vma by new page.
+ * based on replace_page in mm/ksm.c
+ *
+ * @vma:      vma that holds the pte pointing to page
+ * @page:     the cowed page we are replacing by kpage
+ * @kpage:    the modified page we replace page by
+ *
+ * Returns 0 on success, -EFAULT on failure.
+ */
+static int __replace_page(struct vm_area_struct *vma, struct page *page,
+                                       struct page *kpage)
+{
+       struct mm_struct *mm = vma->vm_mm;
+       pgd_t *pgd;
+       pud_t *pud;
+       pmd_t *pmd;
+       pte_t *ptep;
+       spinlock_t *ptl;
+       unsigned long addr;
+       int err = -EFAULT;
+
+       addr = page_address_in_vma(page, vma);
+       if (addr == -EFAULT)
+               goto out;
+
+       pgd = pgd_offset(mm, addr);
+       if (!pgd_present(*pgd))
+               goto out;
+
+       pud = pud_offset(pgd, addr);
+       if (!pud_present(*pud))
+               goto out;
+
+       pmd = pmd_offset(pud, addr);
+       if (!pmd_present(*pmd))
+               goto out;
+
+       ptep = pte_offset_map_lock(mm, pmd, addr, &ptl);
+       if (!ptep)
+               goto out;
+
+       get_page(kpage);
+       page_add_new_anon_rmap(kpage, vma, addr);
+
+       flush_cache_page(vma, addr, pte_pfn(*ptep));
+       ptep_clear_flush(vma, addr, ptep);
+       set_pte_at_notify(mm, addr, ptep, mk_pte(kpage, vma->vm_page_prot));
+
+       page_remove_rmap(page);
+       if (!page_mapped(page))
+               try_to_free_swap(page);
+       put_page(page);
+       pte_unmap_unlock(ptep, ptl);
+       err = 0;
+
+out:
+       return err;
+}
+
+/**
+ * is_bkpt_insn - check if instruction is breakpoint instruction.
+ * @insn: instruction to be checked.
+ * Default implementation of is_bkpt_insn
+ * Returns true if @insn is a breakpoint instruction.
+ */
+bool __weak is_bkpt_insn(uprobe_opcode_t *insn)
+{
+       return (*insn == UPROBES_BKPT_INSN);
+}
+
+/*
+ * NOTE:
+ * Expect the breakpoint instruction to be the smallest size instruction for
+ * the architecture. If an arch has variable length instruction and the
+ * breakpoint instruction is not of the smallest length instruction
+ * supported by that architecture then we need to modify read_opcode /
+ * write_opcode accordingly. This would never be a problem for archs that
+ * have fixed length instructions.
+ */
+
+/*
+ * write_opcode - write the opcode at a given virtual address.
+ * @mm: the probed process address space.
+ * @uprobe: the breakpointing information.
+ * @vaddr: the virtual address to store the opcode.
+ * @opcode: opcode to be written at @vaddr.
+ *
+ * Called with mm->mmap_sem held (for read and with a reference to
+ * mm).
+ *
+ * For mm @mm, write the opcode at @vaddr.
+ * Return 0 (success) or a negative errno.
+ */
+static int write_opcode(struct mm_struct *mm, struct uprobe *uprobe,
+                       unsigned long vaddr, uprobe_opcode_t opcode)
+{
+       struct page *old_page, *new_page;
+       struct address_space *mapping;
+       void *vaddr_old, *vaddr_new;
+       struct vm_area_struct *vma;
+       loff_t addr;
+       int ret;
+
+       /* Read the page with vaddr into memory */
+       ret = get_user_pages(NULL, mm, vaddr, 1, 0, 0, &old_page, &vma);
+       if (ret <= 0)
+               return ret;
+       ret = -EINVAL;
+
+       /*
+        * We are interested in text pages only. Our pages of interest
+        * should be mapped for read and execute only. We desist from
+        * adding probes in write mapped pages since the breakpoints
+        * might end up in the file copy.
+        */
+       if (!valid_vma(vma, is_bkpt_insn(&opcode)))
+               goto put_out;
+
+       mapping = uprobe->inode->i_mapping;
+       if (mapping != vma->vm_file->f_mapping)
+               goto put_out;
+
+       addr = vma_address(vma, uprobe->offset);
+       if (vaddr != (unsigned long)addr)
+               goto put_out;
+
+       ret = -ENOMEM;
+       new_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma, vaddr);
+       if (!new_page)
+               goto put_out;
+
+       __SetPageUptodate(new_page);
+
+       /*
+        * lock page will serialize against do_wp_page()'s
+        * PageAnon() handling
+        */
+       lock_page(old_page);
+       /* copy the page now that we've got it stable */
+       vaddr_old = kmap_atomic(old_page);
+       vaddr_new = kmap_atomic(new_page);
+
+       memcpy(vaddr_new, vaddr_old, PAGE_SIZE);
+       /* poke the new insn in, ASSUMES we don't cross page boundary */
+       vaddr &= ~PAGE_MASK;
+       BUG_ON(vaddr + uprobe_opcode_sz > PAGE_SIZE);
+       memcpy(vaddr_new + vaddr, &opcode, uprobe_opcode_sz);
+
+       kunmap_atomic(vaddr_new);
+       kunmap_atomic(vaddr_old);
+
+       ret = anon_vma_prepare(vma);
+       if (ret)
+               goto unlock_out;
+
+       lock_page(new_page);
+       ret = __replace_page(vma, old_page, new_page);
+       unlock_page(new_page);
+
+unlock_out:
+       unlock_page(old_page);
+       page_cache_release(new_page);
+
+put_out:
+       put_page(old_page);     /* we did a get_page in the beginning */
+       return ret;
+}
+
+/**
+ * read_opcode - read the opcode at a given virtual address.
+ * @mm: the probed process address space.
+ * @vaddr: the virtual address to read the opcode.
+ * @opcode: location to store the read opcode.
+ *
+ * Called with mm->mmap_sem held (for read and with a reference to
+ * mm.
+ *
+ * For mm @mm, read the opcode at @vaddr and store it in @opcode.
+ * Return 0 (success) or a negative errno.
+ */
+static int read_opcode(struct mm_struct *mm, unsigned long vaddr,
+                                               uprobe_opcode_t *opcode)
+{
+       struct page *page;
+       void *vaddr_new;
+       int ret;
+
+       ret = get_user_pages(NULL, mm, vaddr, 1, 0, 0, &page, NULL);
+       if (ret <= 0)
+               return ret;
+
+       lock_page(page);
+       vaddr_new = kmap_atomic(page);
+       vaddr &= ~PAGE_MASK;
+       memcpy(opcode, vaddr_new + vaddr, uprobe_opcode_sz);
+       kunmap_atomic(vaddr_new);
+       unlock_page(page);
+       put_page(page);         /* we did a get_user_pages in the beginning */
+       return 0;
+}
+
+static int is_bkpt_at_addr(struct mm_struct *mm, unsigned long vaddr)
+{
+       uprobe_opcode_t opcode;
+       int result = read_opcode(mm, vaddr, &opcode);
+
+       if (result)
+               return result;
+
+       if (is_bkpt_insn(&opcode))
+               return 1;
+
+       return 0;
+}
+
+/**
+ * set_bkpt - store breakpoint at a given address.
+ * @mm: the probed process address space.
+ * @uprobe: the probepoint information.
+ * @vaddr: the virtual address to insert the opcode.
+ *
+ * For mm @mm, store the breakpoint instruction at @vaddr.
+ * Return 0 (success) or a negative errno.
+ */
+int __weak set_bkpt(struct mm_struct *mm, struct uprobe *uprobe,
+                                               unsigned long vaddr)
+{
+       int result = is_bkpt_at_addr(mm, vaddr);
+
+       if (result == 1)
+               return -EEXIST;
+
+       if (result)
+               return result;
+
+       return write_opcode(mm, uprobe, vaddr, UPROBES_BKPT_INSN);
+}
+
+/**
+ * set_orig_insn - Restore the original instruction.
+ * @mm: the probed process address space.
+ * @uprobe: the probepoint information.
+ * @vaddr: the virtual address to insert the opcode.
+ * @verify: if true, verify existance of breakpoint instruction.
+ *
+ * For mm @mm, restore the original opcode (opcode) at @vaddr.
+ * Return 0 (success) or a negative errno.
+ */
+int __weak set_orig_insn(struct mm_struct *mm, struct uprobe *uprobe,
+                                       unsigned long vaddr, bool verify)
+{
+       if (verify) {
+               int result = is_bkpt_at_addr(mm, vaddr);
+
+               if (!result)
+                       return -EINVAL;
+
+               if (result != 1)
+                       return result;
+       }
+       return write_opcode(mm, uprobe, vaddr,
+                               *(uprobe_opcode_t *)uprobe->insn);
+}
+
+static int match_uprobe(struct uprobe *l, struct uprobe *r)
+{
+       if (l->inode < r->inode)
+               return -1;
+       if (l->inode > r->inode)
+               return 1;
+       else {
+               if (l->offset < r->offset)
+                       return -1;
+
+               if (l->offset > r->offset)
+                       return 1;
+       }
+
+       return 0;
+}
+
+static struct uprobe *__find_uprobe(struct inode *inode, loff_t offset)
+{
+       struct uprobe u = { .inode = inode, .offset = offset };
+       struct rb_node *n = uprobes_tree.rb_node;
+       struct uprobe *uprobe;
+       int match;
+
+       while (n) {
+               uprobe = rb_entry(n, struct uprobe, rb_node);
+               match = match_uprobe(&u, uprobe);
+               if (!match) {
+                       atomic_inc(&uprobe->ref);
+                       return uprobe;
+               }
+               if (match < 0)
+                       n = n->rb_left;
+               else
+                       n = n->rb_right;
+       }
+       return NULL;
+}
+
+/*
+ * Find a uprobe corresponding to a given inode:offset
+ * Acquires uprobes_treelock
+ */
+static struct uprobe *find_uprobe(struct inode *inode, loff_t offset)
+{
+       struct uprobe *uprobe;
+       unsigned long flags;
+
+       spin_lock_irqsave(&uprobes_treelock, flags);
+       uprobe = __find_uprobe(inode, offset);
+       spin_unlock_irqrestore(&uprobes_treelock, flags);
+       return uprobe;
+}
+
+static struct uprobe *__insert_uprobe(struct uprobe *uprobe)
+{
+       struct rb_node **p = &uprobes_tree.rb_node;
+       struct rb_node *parent = NULL;
+       struct uprobe *u;
+       int match;
+
+       while (*p) {
+               parent = *p;
+               u = rb_entry(parent, struct uprobe, rb_node);
+               match = match_uprobe(uprobe, u);
+               if (!match) {
+                       atomic_inc(&u->ref);
+                       return u;
+               }
+
+               if (match < 0)
+                       p = &parent->rb_left;
+               else
+                       p = &parent->rb_right;
+
+       }
+       u = NULL;
+       rb_link_node(&uprobe->rb_node, parent, p);
+       rb_insert_color(&uprobe->rb_node, &uprobes_tree);
+       /* get access + creation ref */
+       atomic_set(&uprobe->ref, 2);
+       return u;
+}
+
+/*
+ * Acquires uprobes_treelock.
+ * Matching uprobe already exists in rbtree;
+ *     increment (access refcount) and return the matching uprobe.
+ *
+ * No matching uprobe; insert the uprobe in rb_tree;
+ *     get a double refcount (access + creation) and return NULL.
+ */
+static struct uprobe *insert_uprobe(struct uprobe *uprobe)
+{
+       unsigned long flags;
+       struct uprobe *u;
+
+       spin_lock_irqsave(&uprobes_treelock, flags);
+       u = __insert_uprobe(uprobe);
+       spin_unlock_irqrestore(&uprobes_treelock, flags);
+       return u;
+}
+
+static void put_uprobe(struct uprobe *uprobe)
+{
+       if (atomic_dec_and_test(&uprobe->ref))
+               kfree(uprobe);
+}
+
+static struct uprobe *alloc_uprobe(struct inode *inode, loff_t offset)
+{
+       struct uprobe *uprobe, *cur_uprobe;
+
+       uprobe = kzalloc(sizeof(struct uprobe), GFP_KERNEL);
+       if (!uprobe)
+               return NULL;
+
+       uprobe->inode = igrab(inode);
+       uprobe->offset = offset;
+       init_rwsem(&uprobe->consumer_rwsem);
+       INIT_LIST_HEAD(&uprobe->pending_list);
+
+       /* add to uprobes_tree, sorted on inode:offset */
+       cur_uprobe = insert_uprobe(uprobe);
+
+       /* a uprobe exists for this inode:offset combination */
+       if (cur_uprobe) {
+               kfree(uprobe);
+               uprobe = cur_uprobe;
+               iput(inode);
+       } else
+               atomic_inc(&uprobe_events);
+       return uprobe;
+}
+
+/* Returns the previous consumer */
+static struct uprobe_consumer *add_consumer(struct uprobe *uprobe,
+                               struct uprobe_consumer *consumer)
+{
+       down_write(&uprobe->consumer_rwsem);
+       consumer->next = uprobe->consumers;
+       uprobe->consumers = consumer;
+       up_write(&uprobe->consumer_rwsem);
+       return consumer->next;
+}
+
+/*
+ * For uprobe @uprobe, delete the consumer @consumer.
+ * Return true if the @consumer is deleted successfully
+ * or return false.
+ */
+static bool del_consumer(struct uprobe *uprobe,
+                               struct uprobe_consumer *consumer)
+{
+       struct uprobe_consumer **con;
+       bool ret = false;
+
+       down_write(&uprobe->consumer_rwsem);
+       for (con = &uprobe->consumers; *con; con = &(*con)->next) {
+               if (*con == consumer) {
+                       *con = consumer->next;
+                       ret = true;
+                       break;
+               }
+       }
+       up_write(&uprobe->consumer_rwsem);
+       return ret;
+}
+
+static int __copy_insn(struct address_space *mapping,
+                       struct vm_area_struct *vma, char *insn,
+                       unsigned long nbytes, unsigned long offset)
+{
+       struct file *filp = vma->vm_file;
+       struct page *page;
+       void *vaddr;
+       unsigned long off1;
+       unsigned long idx;
+
+       if (!filp)
+               return -EINVAL;
+
+       idx = (unsigned long)(offset >> PAGE_CACHE_SHIFT);
+       off1 = offset &= ~PAGE_MASK;
+
+       /*
+        * Ensure that the page that has the original instruction is
+        * populated and in page-cache.
+        */
+       page = read_mapping_page(mapping, idx, filp);
+       if (IS_ERR(page))
+               return PTR_ERR(page);
+
+       vaddr = kmap_atomic(page);
+       memcpy(insn, vaddr + off1, nbytes);
+       kunmap_atomic(vaddr);
+       page_cache_release(page);
+       return 0;
+}
+
+static int copy_insn(struct uprobe *uprobe, struct vm_area_struct *vma,
+                                       unsigned long addr)
+{
+       struct address_space *mapping;
+       int bytes;
+       unsigned long nbytes;
+
+       addr &= ~PAGE_MASK;
+       nbytes = PAGE_SIZE - addr;
+       mapping = uprobe->inode->i_mapping;
+
+       /* Instruction at end of binary; copy only available bytes */
+       if (uprobe->offset + MAX_UINSN_BYTES > uprobe->inode->i_size)
+               bytes = uprobe->inode->i_size - uprobe->offset;
+       else
+               bytes = MAX_UINSN_BYTES;
+
+       /* Instruction at the page-boundary; copy bytes in second page */
+       if (nbytes < bytes) {
+               if (__copy_insn(mapping, vma, uprobe->insn + nbytes,
+                               bytes - nbytes, uprobe->offset + nbytes))
+                       return -ENOMEM;
+
+               bytes = nbytes;
+       }
+       return __copy_insn(mapping, vma, uprobe->insn, bytes, uprobe->offset);
+}
+
+static int install_breakpoint(struct mm_struct *mm, struct uprobe *uprobe,
+                               struct vm_area_struct *vma, loff_t vaddr)
+{
+       unsigned long addr;
+       int ret;
+
+       /*
+        * If probe is being deleted, unregister thread could be done with
+        * the vma-rmap-walk through. Adding a probe now can be fatal since
+        * nobody will be able to cleanup. Also we could be from fork or
+        * mremap path, where the probe might have already been inserted.
+        * Hence behave as if probe already existed.
+        */
+       if (!uprobe->consumers)
+               return -EEXIST;
+
+       addr = (unsigned long)vaddr;
+       if (!(uprobe->flags & UPROBES_COPY_INSN)) {
+               ret = copy_insn(uprobe, vma, addr);
+               if (ret)
+                       return ret;
+
+               if (is_bkpt_insn((uprobe_opcode_t *)uprobe->insn))
+                       return -EEXIST;
+
+               ret = analyze_insn(mm, uprobe);
+               if (ret)
+                       return ret;
+
+               uprobe->flags |= UPROBES_COPY_INSN;
+       }
+       ret = set_bkpt(mm, uprobe, addr);
+
+       return ret;
+}
+
+static void remove_breakpoint(struct mm_struct *mm, struct uprobe *uprobe,
+                                                       loff_t vaddr)
+{
+       set_orig_insn(mm, uprobe, (unsigned long)vaddr, true);
+}
+
+static void delete_uprobe(struct uprobe *uprobe)
+{
+       unsigned long flags;
+
+       spin_lock_irqsave(&uprobes_treelock, flags);
+       rb_erase(&uprobe->rb_node, &uprobes_tree);
+       spin_unlock_irqrestore(&uprobes_treelock, flags);
+       iput(uprobe->inode);
+       put_uprobe(uprobe);
+       atomic_dec(&uprobe_events);
+}
+
+static struct vma_info *__find_next_vma_info(struct list_head *head,
+                       loff_t offset, struct address_space *mapping,
+                       struct vma_info *vi, bool is_register)
+{
+       struct prio_tree_iter iter;
+       struct vm_area_struct *vma;
+       struct vma_info *tmpvi;
+       loff_t vaddr;
+       unsigned long pgoff = offset >> PAGE_SHIFT;
+       int existing_vma;
+
+       vma_prio_tree_foreach(vma, &iter, &mapping->i_mmap, pgoff, pgoff) {
+               if (!valid_vma(vma, is_register))
+                       continue;
+
+               existing_vma = 0;
+               vaddr = vma_address(vma, offset);
+               list_for_each_entry(tmpvi, head, probe_list) {
+                       if (tmpvi->mm == vma->vm_mm && tmpvi->vaddr == vaddr) {
+                               existing_vma = 1;
+                               break;
+                       }
+               }
+
+               /*
+                * Another vma needs a probe to be installed. However skip
+                * installing the probe if the vma is about to be unlinked.
+                */
+               if (!existing_vma &&
+                               atomic_inc_not_zero(&vma->vm_mm->mm_users)) {
+                       vi->mm = vma->vm_mm;
+                       vi->vaddr = vaddr;
+                       list_add(&vi->probe_list, head);
+                       return vi;
+               }
+       }
+       return NULL;
+}
+
+/*
+ * Iterate in the rmap prio tree  and find a vma where a probe has not
+ * yet been inserted.
+ */
+static struct vma_info *find_next_vma_info(struct list_head *head,
+                       loff_t offset, struct address_space *mapping,
+                       bool is_register)
+{
+       struct vma_info *vi, *retvi;
+       vi = kzalloc(sizeof(struct vma_info), GFP_KERNEL);
+       if (!vi)
+               return ERR_PTR(-ENOMEM);
+
+       mutex_lock(&mapping->i_mmap_mutex);
+       retvi = __find_next_vma_info(head, offset, mapping, vi, is_register);
+       mutex_unlock(&mapping->i_mmap_mutex);
+
+       if (!retvi)
+               kfree(vi);
+       return retvi;
+}
+
+static int register_for_each_vma(struct uprobe *uprobe, bool is_register)
+{
+       struct list_head try_list;
+       struct vm_area_struct *vma;
+       struct address_space *mapping;
+       struct vma_info *vi, *tmpvi;
+       struct mm_struct *mm;
+       loff_t vaddr;
+       int ret = 0;
+
+       mapping = uprobe->inode->i_mapping;
+       INIT_LIST_HEAD(&try_list);
+       while ((vi = find_next_vma_info(&try_list, uprobe->offset,
+                                       mapping, is_register)) != NULL) {
+               if (IS_ERR(vi)) {
+                       ret = PTR_ERR(vi);
+                       break;
+               }
+               mm = vi->mm;
+               down_read(&mm->mmap_sem);
+               vma = find_vma(mm, (unsigned long)vi->vaddr);
+               if (!vma || !valid_vma(vma, is_register)) {
+                       list_del(&vi->probe_list);
+                       kfree(vi);
+                       up_read(&mm->mmap_sem);
+                       mmput(mm);
+                       continue;
+               }
+               vaddr = vma_address(vma, uprobe->offset);
+               if (vma->vm_file->f_mapping->host != uprobe->inode ||
+                                               vaddr != vi->vaddr) {
+                       list_del(&vi->probe_list);
+                       kfree(vi);
+                       up_read(&mm->mmap_sem);
+                       mmput(mm);
+                       continue;
+               }
+
+               if (is_register)
+                       ret = install_breakpoint(mm, uprobe, vma, vi->vaddr);
+               else
+                       remove_breakpoint(mm, uprobe, vi->vaddr);
+
+               up_read(&mm->mmap_sem);
+               mmput(mm);
+               if (is_register) {
+                       if (ret && ret == -EEXIST)
+                               ret = 0;
+                       if (ret)
+                               break;
+               }
+       }
+       list_for_each_entry_safe(vi, tmpvi, &try_list, probe_list) {
+               list_del(&vi->probe_list);
+               kfree(vi);
+       }
+       return ret;
+}
+
+static int __register_uprobe(struct uprobe *uprobe)
+{
+       return register_for_each_vma(uprobe, true);
+}
+
+static void __unregister_uprobe(struct uprobe *uprobe)
+{
+       if (!register_for_each_vma(uprobe, false))
+               delete_uprobe(uprobe);
+
+       /* TODO : cant unregister? schedule a worker thread */
+}
+
+/*
+ * register_uprobe - register a probe
+ * @inode: the file in which the probe has to be placed.
+ * @offset: offset from the start of the file.
+ * @consumer: information on howto handle the probe..
+ *
+ * Apart from the access refcount, register_uprobe() takes a creation
+ * refcount (thro alloc_uprobe) if and only if this @uprobe is getting
+ * inserted into the rbtree (i.e first consumer for a @inode:@offset
+ * tuple).  Creation refcount stops unregister_uprobe from freeing the
+ * @uprobe even before the register operation is complete. Creation
+ * refcount is released when the last @consumer for the @uprobe
+ * unregisters.
+ *
+ * Return errno if it cannot successully install probes
+ * else return 0 (success)
+ */
+int register_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer)
+{
+       struct uprobe *uprobe;
+       int ret = -EINVAL;
+
+       if (!inode || !consumer || consumer->next)
+               return ret;
+
+       if (offset > i_size_read(inode))
+               return ret;
+
+       ret = 0;
+       mutex_lock(uprobes_hash(inode));
+       uprobe = alloc_uprobe(inode, offset);
+       if (uprobe && !add_consumer(uprobe, consumer)) {
+               ret = __register_uprobe(uprobe);
+               if (ret) {
+                       uprobe->consumers = NULL;
+                       __unregister_uprobe(uprobe);
+               } else
+                       uprobe->flags |= UPROBES_RUN_HANDLER;
+       }
+
+       mutex_unlock(uprobes_hash(inode));
+       put_uprobe(uprobe);
+
+       return ret;
+}
+
+/*
+ * unregister_uprobe - unregister a already registered probe.
+ * @inode: the file in which the probe has to be removed.
+ * @offset: offset from the start of the file.
+ * @consumer: identify which probe if multiple probes are colocated.
+ */
+void unregister_uprobe(struct inode *inode, loff_t offset,
+                               struct uprobe_consumer *consumer)
+{
+       struct uprobe *uprobe = NULL;
+
+       if (!inode || !consumer)
+               return;
+
+       uprobe = find_uprobe(inode, offset);
+       if (!uprobe)
+               return;
+
+       mutex_lock(uprobes_hash(inode));
+       if (!del_consumer(uprobe, consumer))
+               goto unreg_out;
+
+       if (!uprobe->consumers) {
+               __unregister_uprobe(uprobe);
+               uprobe->flags &= ~UPROBES_RUN_HANDLER;
+       }
+
+unreg_out:
+       mutex_unlock(uprobes_hash(inode));
+       if (uprobe)
+               put_uprobe(uprobe);
+}
+
+/*
+ * Of all the nodes that correspond to the given inode, return the node
+ * with the least offset.
+ */
+static struct rb_node *find_least_offset_node(struct inode *inode)
+{
+       struct uprobe u = { .inode = inode, .offset = 0};
+       struct rb_node *n = uprobes_tree.rb_node;
+       struct rb_node *close_node = NULL;
+       struct uprobe *uprobe;
+       int match;
+
+       while (n) {
+               uprobe = rb_entry(n, struct uprobe, rb_node);
+               match = match_uprobe(&u, uprobe);
+               if (uprobe->inode == inode)
+                       close_node = n;
+
+               if (!match)
+                       return close_node;
+
+               if (match < 0)
+                       n = n->rb_left;
+               else
+                       n = n->rb_right;
+       }
+       return close_node;
+}
+
+/*
+ * For a given inode, build a list of probes that need to be inserted.
+ */
+static void build_probe_list(struct inode *inode, struct list_head *head)
+{
+       struct uprobe *uprobe;
+       struct rb_node *n;
+       unsigned long flags;
+
+       spin_lock_irqsave(&uprobes_treelock, flags);
+       n = find_least_offset_node(inode);
+       for (; n; n = rb_next(n)) {
+               uprobe = rb_entry(n, struct uprobe, rb_node);
+               if (uprobe->inode != inode)
+                       break;
+
+               list_add(&uprobe->pending_list, head);
+               atomic_inc(&uprobe->ref);
+       }
+       spin_unlock_irqrestore(&uprobes_treelock, flags);
+}
+
+/*
+ * Called from mmap_region.
+ * called with mm->mmap_sem acquired.
+ *
+ * Return -ve no if we fail to insert probes and we cannot
+ * bail-out.
+ * Return 0 otherwise. i.e :
+ *     - successful insertion of probes
+ *     - (or) no possible probes to be inserted.
+ *     - (or) insertion of probes failed but we can bail-out.
+ */
+int mmap_uprobe(struct vm_area_struct *vma)
+{
+       struct list_head tmp_list;
+       struct uprobe *uprobe, *u;
+       struct inode *inode;
+       int ret = 0;
+
+       if (!atomic_read(&uprobe_events) || !valid_vma(vma, true))
+               return ret;     /* Bail-out */
+
+       inode = vma->vm_file->f_mapping->host;
+       if (!inode)
+               return ret;
+
+       INIT_LIST_HEAD(&tmp_list);
+       mutex_lock(uprobes_mmap_hash(inode));
+       build_probe_list(inode, &tmp_list);
+       list_for_each_entry_safe(uprobe, u, &tmp_list, pending_list) {
+               loff_t vaddr;
+
+               list_del(&uprobe->pending_list);
+               if (!ret) {
+                       vaddr = vma_address(vma, uprobe->offset);
+                       if (vaddr < vma->vm_start || vaddr >= vma->vm_end) {
+                               put_uprobe(uprobe);
+                               continue;
+                       }
+                       ret = install_breakpoint(vma->vm_mm, uprobe, vma,
+                                                               vaddr);
+                       if (ret == -EEXIST)
+                               ret = 0;
+               }
+               put_uprobe(uprobe);
+       }
+
+       mutex_unlock(uprobes_mmap_hash(inode));
+
+       return ret;
+}
+
+static int __init init_uprobes(void)
+{
+       int i;
+
+       for (i = 0; i < UPROBES_HASH_SZ; i++) {
+               mutex_init(&uprobes_mutex[i]);
+               mutex_init(&uprobes_mmap_mutex[i]);
+       }
+       return 0;
+}
+
+static void __exit exit_uprobes(void)
+{
+}
+
+module_init(init_uprobes);
+module_exit(exit_uprobes);
index 3f758c7f4c815c2b0edf494526b2823b41fbc142..1aed183636d74c98531670cb788f293dbb7e9a70 100644 (file)
--- a/mm/mmap.c
+++ b/mm/mmap.c
@@ -30,6 +30,7 @@
 #include <linux/perf_event.h>
 #include <linux/audit.h>
 #include <linux/khugepaged.h>
+#include <linux/uprobes.h>
 
 #include <asm/uaccess.h>
 #include <asm/cacheflush.h>
@@ -616,6 +617,13 @@ again:                     remove_next = 1 + (end > next->vm_end);
        if (mapping)
                mutex_unlock(&mapping->i_mmap_mutex);
 
+       if (root) {
+               mmap_uprobe(vma);
+
+               if (adjust_next)
+                       mmap_uprobe(next);
+       }
+
        if (remove_next) {
                if (file) {
                        fput(file);
@@ -637,6 +645,8 @@ again:                      remove_next = 1 + (end > next->vm_end);
                        goto again;
                }
        }
+       if (insert && file)
+               mmap_uprobe(insert);
 
        validate_mm(mm);
 
@@ -1329,6 +1339,11 @@ out:
                        mm->locked_vm += (len >> PAGE_SHIFT);
        } else if ((flags & MAP_POPULATE) && !(flags & MAP_NONBLOCK))
                make_pages_present(addr, addr + len);
+
+       if (file && mmap_uprobe(vma))
+               /* matching probes but cannot insert */
+               goto unmap_and_free_vma;
+
        return addr;
 
 unmap_and_free_vma:
@@ -2285,6 +2300,10 @@ int insert_vm_struct(struct mm_struct * mm, struct vm_area_struct * vma)
        if ((vma->vm_flags & VM_ACCOUNT) &&
             security_vm_enough_memory_mm(mm, vma_pages(vma)))
                return -ENOMEM;
+
+       if (vma->vm_file && mmap_uprobe(vma))
+               return -EINVAL;
+
        vma_link(mm, vma, prev, rb_link, rb_parent);
        return 0;
 }
@@ -2354,6 +2373,10 @@ struct vm_area_struct *copy_vma(struct vm_area_struct **vmap,
                        new_vma->vm_pgoff = pgoff;
                        if (new_vma->vm_file) {
                                get_file(new_vma->vm_file);
+
+                               if (mmap_uprobe(new_vma))
+                                       goto out_free_mempol;
+
                                if (vma->vm_flags & VM_EXECUTABLE)
                                        added_exe_file_vma(mm);
                        }