[GitHub/mt8127/android_kernel_alcatel_ttab.git] / arch / powerpc / mm / hugetlbpage.c

/*
 * PPC64 (POWER4) Huge TLB Page Support for Kernel.
 *
 * Copyright (C) 2003 David Gibson, IBM Corporation.
 *
 * Based on the IA-32 version:
 * Copyright (C) 2002, Rohit Seth <rohit.seth@intel.com>
 */

#include <linux/mm.h>
#include <linux/io.h>
#include <linux/slab.h>
#include <linux/hugetlb.h>
#include <asm/pgtable.h>
#include <asm/pgalloc.h>
#include <asm/tlb.h>

#define PAGE_SHIFT_64K	16
#define PAGE_SHIFT_16M	24
#define PAGE_SHIFT_16G	34

#define MAX_NUMBER_GPAGES	1024

/* Tracks the 16G pages after the device tree is scanned and before the
 * huge_boot_pages list is ready.  */
static unsigned long gpage_freearray[MAX_NUMBER_GPAGES];
static unsigned nr_gpages;

/* Flag to mark huge PD pointers.  This means pmd_bad() and pud_bad()
 * will choke on pointers to hugepte tables, which is handy for
 * catching screwups early. */

static inline int shift_to_mmu_psize(unsigned int shift)
{
	int psize;

	for (psize = 0; psize < MMU_PAGE_COUNT; ++psize)
		if (mmu_psize_defs[psize].shift == shift)
			return psize;
	return -1;
}

static inline unsigned int mmu_psize_to_shift(unsigned int mmu_psize)
{
	if (mmu_psize_defs[mmu_psize].shift)
		return mmu_psize_defs[mmu_psize].shift;
	BUG();
}

#define hugepd_none(hpd)	((hpd).pd == 0)

static inline pte_t *hugepd_page(hugepd_t hpd)
{
	BUG_ON(!hugepd_ok(hpd));
	return (pte_t *)((hpd.pd & ~HUGEPD_SHIFT_MASK) | 0xc000000000000000);
}

static inline unsigned int hugepd_shift(hugepd_t hpd)
{
	return hpd.pd & HUGEPD_SHIFT_MASK;
}

static inline pte_t *hugepte_offset(hugepd_t *hpdp, unsigned long addr, unsigned pdshift)
{
	unsigned long idx = (addr & ((1UL << pdshift) - 1)) >> hugepd_shift(*hpdp);
	pte_t *dir = hugepd_page(*hpdp);

	return dir + idx;
}

pte_t *find_linux_pte_or_hugepte(pgd_t *pgdir, unsigned long ea, unsigned *shift)
{
	pgd_t *pg;
	pud_t *pu;
	pmd_t *pm;
	hugepd_t *hpdp = NULL;
	unsigned pdshift = PGDIR_SHIFT;

	if (shift)
		*shift = 0;

	pg = pgdir + pgd_index(ea);
	if (is_hugepd(pg)) {
		hpdp = (hugepd_t *)pg;
	} else if (!pgd_none(*pg)) {
		pdshift = PUD_SHIFT;
		pu = pud_offset(pg, ea);
		if (is_hugepd(pu))
			hpdp = (hugepd_t *)pu;
		else if (!pud_none(*pu)) {
			pdshift = PMD_SHIFT;
			pm = pmd_offset(pu, ea);
			if (is_hugepd(pm))
				hpdp = (hugepd_t *)pm;
			else if (!pmd_none(*pm)) {
				return pte_offset_map(pm, ea);
			}
		}
	}

	if (!hpdp)
		return NULL;

	if (shift)
		*shift = hugepd_shift(*hpdp);
	return hugepte_offset(hpdp, ea, pdshift);
}

pte_t *huge_pte_offset(struct mm_struct *mm, unsigned long addr)
{
	return find_linux_pte_or_hugepte(mm->pgd, addr, NULL);
}

static int __hugepte_alloc(struct mm_struct *mm, hugepd_t *hpdp,
			   unsigned long address, unsigned pdshift, unsigned pshift)
{
	pte_t *new = kmem_cache_zalloc(PGT_CACHE(pdshift - pshift),
				       GFP_KERNEL|__GFP_REPEAT);

	BUG_ON(pshift > HUGEPD_SHIFT_MASK);
	BUG_ON((unsigned long)new & HUGEPD_SHIFT_MASK);

	if (! new)
		return -ENOMEM;

	spin_lock(&mm->page_table_lock);
	if (!hugepd_none(*hpdp))
		kmem_cache_free(PGT_CACHE(pdshift - pshift), new);
	else
		hpdp->pd = ((unsigned long)new & ~0x8000000000000000) | pshift;
	spin_unlock(&mm->page_table_lock);
	return 0;
}

pte_t *huge_pte_alloc(struct mm_struct *mm, unsigned long addr, unsigned long sz)
{
	pgd_t *pg;
	pud_t *pu;
	pmd_t *pm;
	hugepd_t *hpdp = NULL;
	unsigned pshift = __ffs(sz);
	unsigned pdshift = PGDIR_SHIFT;

	addr &= ~(sz-1);

	pg = pgd_offset(mm, addr);
	if (pshift >= PUD_SHIFT) {
		hpdp = (hugepd_t *)pg;
	} else {
		pdshift = PUD_SHIFT;
		pu = pud_alloc(mm, pg, addr);
		if (pshift >= PMD_SHIFT) {
			hpdp = (hugepd_t *)pu;
		} else {
			pdshift = PMD_SHIFT;
			pm = pmd_alloc(mm, pu, addr);
			hpdp = (hugepd_t *)pm;
		}
	}

	if (!hpdp)
		return NULL;

	BUG_ON(!hugepd_none(*hpdp) && !hugepd_ok(*hpdp));

	if (hugepd_none(*hpdp) && __hugepte_alloc(mm, hpdp, addr, pdshift, pshift))
		return NULL;

	return hugepte_offset(hpdp, addr, pdshift);
}

/* Build list of addresses of gigantic pages.  This function is used in early
 * boot before the buddy or bootmem allocator is setup.
 */
void add_gpage(unsigned long addr, unsigned long page_size,
	unsigned long number_of_pages)
{
	if (!addr)
		return;
	while (number_of_pages > 0) {
		gpage_freearray[nr_gpages] = addr;
		nr_gpages++;
		number_of_pages--;
		addr += page_size;
	}
}

/* Moves the gigantic page addresses from the temporary list to the
 * huge_boot_pages list.
 */
int alloc_bootmem_huge_page(struct hstate *hstate)
{
	struct huge_bootmem_page *m;
	if (nr_gpages == 0)
		return 0;
	m = phys_to_virt(gpage_freearray[--nr_gpages]);
	gpage_freearray[nr_gpages] = 0;
	list_add(&m->list, &huge_boot_pages);
	m->hstate = hstate;
	return 1;
}

int huge_pmd_unshare(struct mm_struct *mm, unsigned long *addr, pte_t *ptep)
{
	return 0;
}

static void free_hugepd_range(struct mmu_gather *tlb, hugepd_t *hpdp, int pdshift,
			      unsigned long start, unsigned long end,
			      unsigned long floor, unsigned long ceiling)
{
	pte_t *hugepte = hugepd_page(*hpdp);
	unsigned shift = hugepd_shift(*hpdp);
	unsigned long pdmask = ~((1UL << pdshift) - 1);

	start &= pdmask;
	if (start < floor)
		return;
	if (ceiling) {
		ceiling &= pdmask;
		if (! ceiling)
			return;
	}
	if (end - 1 > ceiling - 1)
		return;

	hpdp->pd = 0;
	tlb->need_flush = 1;
	pgtable_free_tlb(tlb, hugepte, pdshift - shift);
}

static void hugetlb_free_pmd_range(struct mmu_gather *tlb, pud_t *pud,
				   unsigned long addr, unsigned long end,
				   unsigned long floor, unsigned long ceiling)
{
	pmd_t *pmd;
	unsigned long next;
	unsigned long start;

	start = addr;
	pmd = pmd_offset(pud, addr);
	do {
		next = pmd_addr_end(addr, end);
		if (pmd_none(*pmd))
			continue;
		free_hugepd_range(tlb, (hugepd_t *)pmd, PMD_SHIFT,
				  addr, next, floor, ceiling);
	} while (pmd++, addr = next, addr != end);

	start &= PUD_MASK;
	if (start < floor)
		return;
	if (ceiling) {
		ceiling &= PUD_MASK;
		if (!ceiling)
			return;
	}
	if (end - 1 > ceiling - 1)
		return;

	pmd = pmd_offset(pud, start);
	pud_clear(pud);
	pmd_free_tlb(tlb, pmd, start);
}

static void hugetlb_free_pud_range(struct mmu_gather *tlb, pgd_t *pgd,
				   unsigned long addr, unsigned long end,
				   unsigned long floor, unsigned long ceiling)
{
	pud_t *pud;
	unsigned long next;
	unsigned long start;

	start = addr;
	pud = pud_offset(pgd, addr);
	do {
		next = pud_addr_end(addr, end);
		if (!is_hugepd(pud)) {
			if (pud_none_or_clear_bad(pud))
				continue;
			hugetlb_free_pmd_range(tlb, pud, addr, next, floor,
					       ceiling);
		} else {
			free_hugepd_range(tlb, (hugepd_t *)pud, PUD_SHIFT,
					  addr, next, floor, ceiling);
		}
	} while (pud++, addr = next, addr != end);

	start &= PGDIR_MASK;
	if (start < floor)
		return;
	if (ceiling) {
		ceiling &= PGDIR_MASK;
		if (!ceiling)
			return;
	}
	if (end - 1 > ceiling - 1)
		return;

	pud = pud_offset(pgd, start);
	pgd_clear(pgd);
	pud_free_tlb(tlb, pud, start);
}

/*
 * This function frees user-level page tables of a process.
 *
 * Must be called with pagetable lock held.
 */
void hugetlb_free_pgd_range(struct mmu_gather *tlb,
			    unsigned long addr, unsigned long end,
			    unsigned long floor, unsigned long ceiling)
{
	pgd_t *pgd;
	unsigned long next;

	/*
	 * Because there are a number of different possible pagetable
	 * layouts for hugepage ranges, we limit knowledge of how
	 * things should be laid out to the allocation path
	 * (huge_pte_alloc(), above).  Everything else works out the
	 * structure as it goes from information in the hugepd
	 * pointers.  That means that we can't here use the
	 * optimization used in the normal page free_pgd_range(), of
	 * checking whether we're actually covering a large enough
	 * range to have to do anything at the top level of the walk
	 * instead of at the bottom.
	 *
	 * To make sense of this, you should probably go read the big
	 * block comment at the top of the normal free_pgd_range(),
	 * too.
	 */

	pgd = pgd_offset(tlb->mm, addr);
	do {
		next = pgd_addr_end(addr, end);
		if (!is_hugepd(pgd)) {
			if (pgd_none_or_clear_bad(pgd))
				continue;
			hugetlb_free_pud_range(tlb, pgd, addr, next, floor, ceiling);
		} else {
			free_hugepd_range(tlb, (hugepd_t *)pgd, PGDIR_SHIFT,
					  addr, next, floor, ceiling);
		}
	} while (pgd++, addr = next, addr != end);
}

struct page *
follow_huge_addr(struct mm_struct *mm, unsigned long address, int write)
{
	pte_t *ptep;
	struct page *page;
	unsigned shift;
	unsigned long mask;

	ptep = find_linux_pte_or_hugepte(mm->pgd, address, &shift);

	/* Verify it is a huge page else bail. */
	if (!ptep || !shift)
		return ERR_PTR(-EINVAL);

	mask = (1UL << shift) - 1;
	page = pte_page(*ptep);
	if (page)
		page += (address & mask) / PAGE_SIZE;

	return page;
}

int pmd_huge(pmd_t pmd)
{
	return 0;
}

int pud_huge(pud_t pud)
{
	return 0;
}

struct page *
follow_huge_pmd(struct mm_struct *mm, unsigned long address,
		pmd_t *pmd, int write)
{
	BUG();
	return NULL;
}

static noinline int gup_hugepte(pte_t *ptep, unsigned long sz, unsigned long addr,
		       unsigned long end, int write, struct page **pages, int *nr)
{
	unsigned long mask;
	unsigned long pte_end;
	struct page *head, *page;
	pte_t pte;
	int refs;

	pte_end = (addr + sz) & ~(sz-1);
	if (pte_end < end)
		end = pte_end;

	pte = *ptep;
	mask = _PAGE_PRESENT | _PAGE_USER;
	if (write)
		mask |= _PAGE_RW;

	if ((pte_val(pte) & mask) != mask)
		return 0;

	/* hugepages are never "special" */
	VM_BUG_ON(!pfn_valid(pte_pfn(pte)));

	refs = 0;
	head = pte_page(pte);

	page = head + ((addr & (sz-1)) >> PAGE_SHIFT);
	do {
		VM_BUG_ON(compound_head(page) != head);
		pages[*nr] = page;
		(*nr)++;
		page++;
		refs++;
	} while (addr += PAGE_SIZE, addr != end);

	if (!page_cache_add_speculative(head, refs)) {
		*nr -= refs;
		return 0;
	}

	if (unlikely(pte_val(pte) != pte_val(*ptep))) {
		/* Could be optimized better */
		while (*nr) {
			put_page(page);
			(*nr)--;
		}
	}

	return 1;
}

static unsigned long hugepte_addr_end(unsigned long addr, unsigned long end,
				      unsigned long sz)
{
	unsigned long __boundary = (addr + sz) & ~(sz-1);
	return (__boundary - 1 < end - 1) ? __boundary : end;
}

int gup_hugepd(hugepd_t *hugepd, unsigned pdshift,
	       unsigned long addr, unsigned long end,
	       int write, struct page **pages, int *nr)
{
	pte_t *ptep;
	unsigned long sz = 1UL << hugepd_shift(*hugepd);
	unsigned long next;

	ptep = hugepte_offset(hugepd, addr, pdshift);
	do {
		next = hugepte_addr_end(addr, end, sz);
		if (!gup_hugepte(ptep, sz, addr, end, write, pages, nr))
			return 0;
	} while (ptep++, addr = next, addr != end);

	return 1;
}

unsigned long hugetlb_get_unmapped_area(struct file *file, unsigned long addr,
					unsigned long len, unsigned long pgoff,
					unsigned long flags)
{
	struct hstate *hstate = hstate_file(file);
	int mmu_psize = shift_to_mmu_psize(huge_page_shift(hstate));

	return slice_get_unmapped_area(addr, len, flags, mmu_psize, 1, 0);
}

unsigned long vma_mmu_pagesize(struct vm_area_struct *vma)
{
	unsigned int psize = get_slice_psize(vma->vm_mm, vma->vm_start);

	return 1UL << mmu_psize_to_shift(psize);
}

static int __init add_huge_page_size(unsigned long long size)
{
	int shift = __ffs(size);
	int mmu_psize;

	/* Check that it is a page size supported by the hardware and
	 * that it fits within pagetable and slice limits. */
	if (!is_power_of_2(size)
	    || (shift > SLICE_HIGH_SHIFT) || (shift <= PAGE_SHIFT))
		return -EINVAL;

	if ((mmu_psize = shift_to_mmu_psize(shift)) < 0)
		return -EINVAL;

#ifdef CONFIG_SPU_FS_64K_LS
	/* Disable support for 64K huge pages when 64K SPU local store
	 * support is enabled as the current implementation conflicts.
	 */
	if (shift == PAGE_SHIFT_64K)
		return -EINVAL;
#endif /* CONFIG_SPU_FS_64K_LS */

	BUG_ON(mmu_psize_defs[mmu_psize].shift != shift);

	/* Return if huge page size has already been setup */
	if (size_to_hstate(size))
		return 0;

	hugetlb_add_hstate(shift - PAGE_SHIFT);

	return 0;
}

static int __init hugepage_setup_sz(char *str)
{
	unsigned long long size;

	size = memparse(str, &str);

	if (add_huge_page_size(size) != 0)
		printk(KERN_WARNING "Invalid huge page size specified(%llu)\n", size);

	return 1;
}
__setup("hugepagesz=", hugepage_setup_sz);

static int __init hugetlbpage_init(void)
{
	int psize;

	if (!cpu_has_feature(CPU_FTR_16M_PAGE))
		return -ENODEV;

	for (psize = 0; psize < MMU_PAGE_COUNT; ++psize) {
		unsigned shift;
		unsigned pdshift;

		if (!mmu_psize_defs[psize].shift)
			continue;

		shift = mmu_psize_to_shift(psize);

		if (add_huge_page_size(1ULL << shift) < 0)
			continue;

		if (shift < PMD_SHIFT)
			pdshift = PMD_SHIFT;
		else if (shift < PUD_SHIFT)
			pdshift = PUD_SHIFT;
		else
			pdshift = PGDIR_SHIFT;

		pgtable_cache_add(pdshift - shift, NULL);
		if (!PGT_CACHE(pdshift - shift))
			panic("hugetlbpage_init(): could not create "
			      "pgtable cache for %d bit pagesize\n", shift);
	}

	/* Set default large page size. Currently, we pick 16M or 1M
	 * depending on what is available
	 */
	if (mmu_psize_defs[MMU_PAGE_16M].shift)
		HPAGE_SHIFT = mmu_psize_defs[MMU_PAGE_16M].shift;
	else if (mmu_psize_defs[MMU_PAGE_1M].shift)
		HPAGE_SHIFT = mmu_psize_defs[MMU_PAGE_1M].shift;

	return 0;
}

module_init(hugetlbpage_init);

void flush_dcache_icache_hugepage(struct page *page)
{
	int i;

	BUG_ON(!PageCompound(page));

	for (i = 0; i < (1UL << compound_order(page)); i++)
		__flush_dcache_icache(page_address(page+i));
}
Commit	Line	Data
1da177e4 LT	1	/*
	2	* PPC64 (POWER4) Huge TLB Page Support for Kernel.
	3	*
	4	* Copyright (C) 2003 David Gibson, IBM Corporation.
	5	*
	6	* Based on the IA-32 version:
	7	* Copyright (C) 2002, Rohit Seth <rohit.seth@intel.com>
	8	*/
	9
1da177e4	10	#include <linux/mm.h>
883a3e52	11	#include <linux/io.h>
5a0e3ad6	12	#include <linux/slab.h>
1da177e4	13	#include <linux/hugetlb.h>
883a3e52	14	#include <asm/pgtable.h>
1da177e4 LT	15	#include <asm/pgalloc.h>
1da177e4 LT	16	#include <asm/tlb.h>
1da177e4	17
91224346 JT	18	#define PAGE_SHIFT_64K 16
	19	#define PAGE_SHIFT_16M 24
	20	#define PAGE_SHIFT_16G 34
4ec161cf	21
ec4b2c0c JT	22	#define MAX_NUMBER_GPAGES 1024
	23
	24	/* Tracks the 16G pages after the device tree is scanned and before the
	25	* huge_boot_pages list is ready. */
	26	static unsigned long gpage_freearray[MAX_NUMBER_GPAGES];
	27	static unsigned nr_gpages;
c594adad	28
f10a04c0 DG	29	/* Flag to mark huge PD pointers. This means pmd_bad() and pud_bad()
	30	* will choke on pointers to hugepte tables, which is handy for
	31	* catching screwups early. */
f10a04c0	32
0d9ea754 JT	33	static inline int shift_to_mmu_psize(unsigned int shift)
0d9ea754 JT	34	{
d1837cba DG	35	int psize;
	36
	37	for (psize = 0; psize < MMU_PAGE_COUNT; ++psize)
	38	if (mmu_psize_defs[psize].shift == shift)
	39	return psize;
0d9ea754 JT	40	return -1;
	41	}
	42
	43	static inline unsigned int mmu_psize_to_shift(unsigned int mmu_psize)
	44	{
	45	if (mmu_psize_defs[mmu_psize].shift)
	46	return mmu_psize_defs[mmu_psize].shift;
	47	BUG();
	48	}
	49
a4fe3ce7 DG	50	#define hugepd_none(hpd) ((hpd).pd == 0)
a4fe3ce7 DG	51
f10a04c0 DG	52	static inline pte_t *hugepd_page(hugepd_t hpd)
f10a04c0 DG	53	{
a4fe3ce7 DG	54	BUG_ON(!hugepd_ok(hpd));
	55	return (pte_t *)((hpd.pd & ~HUGEPD_SHIFT_MASK) \| 0xc000000000000000);
	56	}
	57
	58	static inline unsigned int hugepd_shift(hugepd_t hpd)
	59	{
	60	return hpd.pd & HUGEPD_SHIFT_MASK;
f10a04c0 DG	61	}
f10a04c0 DG	62
a4fe3ce7	63	static inline pte_t hugepte_offset(hugepd_t hpdp, unsigned long addr, unsigned pdshift)
f10a04c0	64	{
a4fe3ce7	65	unsigned long idx = (addr & ((1UL << pdshift) - 1)) >> hugepd_shift(*hpdp);
f10a04c0 DG	66	pte_t dir = hugepd_page(hpdp);
	67
	68	return dir + idx;
	69	}
	70
a4fe3ce7 DG	71	pte_t find_linux_pte_or_hugepte(pgd_t pgdir, unsigned long ea, unsigned *shift)
	72	{
	73	pgd_t *pg;
	74	pud_t *pu;
	75	pmd_t *pm;
	76	hugepd_t *hpdp = NULL;
	77	unsigned pdshift = PGDIR_SHIFT;
	78
	79	if (shift)
	80	*shift = 0;
	81
	82	pg = pgdir + pgd_index(ea);
	83	if (is_hugepd(pg)) {
	84	hpdp = (hugepd_t *)pg;
	85	} else if (!pgd_none(*pg)) {
	86	pdshift = PUD_SHIFT;
	87	pu = pud_offset(pg, ea);
	88	if (is_hugepd(pu))
	89	hpdp = (hugepd_t *)pu;
	90	else if (!pud_none(*pu)) {
	91	pdshift = PMD_SHIFT;
	92	pm = pmd_offset(pu, ea);
	93	if (is_hugepd(pm))
	94	hpdp = (hugepd_t *)pm;
	95	else if (!pmd_none(*pm)) {
	96	return pte_offset_map(pm, ea);
	97	}
	98	}
	99	}
	100
	101	if (!hpdp)
	102	return NULL;
	103
	104	if (shift)
	105	shift = hugepd_shift(hpdp);
	106	return hugepte_offset(hpdp, ea, pdshift);
	107	}
	108
	109	pte_t huge_pte_offset(struct mm_struct mm, unsigned long addr)
	110	{
	111	return find_linux_pte_or_hugepte(mm->pgd, addr, NULL);
	112	}
	113
f10a04c0	114	static int __hugepte_alloc(struct mm_struct mm, hugepd_t hpdp,
a4fe3ce7	115	unsigned long address, unsigned pdshift, unsigned pshift)
f10a04c0	116	{
a4fe3ce7	117	pte_t *new = kmem_cache_zalloc(PGT_CACHE(pdshift - pshift),
a0668cdc	118	GFP_KERNEL\|__GFP_REPEAT);
f10a04c0	119
a4fe3ce7 DG	120	BUG_ON(pshift > HUGEPD_SHIFT_MASK);
	121	BUG_ON((unsigned long)new & HUGEPD_SHIFT_MASK);
	122
f10a04c0 DG	123	if (! new)
	124	return -ENOMEM;
	125
	126	spin_lock(&mm->page_table_lock);
	127	if (!hugepd_none(*hpdp))
a4fe3ce7	128	kmem_cache_free(PGT_CACHE(pdshift - pshift), new);
f10a04c0	129	else
a4fe3ce7	130	hpdp->pd = ((unsigned long)new & ~0x8000000000000000) \| pshift;
f10a04c0 DG	131	spin_unlock(&mm->page_table_lock);
	132	return 0;
	133	}
	134
a4fe3ce7	135	pte_t huge_pte_alloc(struct mm_struct mm, unsigned long addr, unsigned long sz)
0b26425c	136	{
a4fe3ce7 DG	137	pgd_t *pg;
	138	pud_t *pu;
	139	pmd_t *pm;
	140	hugepd_t *hpdp = NULL;
	141	unsigned pshift = __ffs(sz);
	142	unsigned pdshift = PGDIR_SHIFT;
	143
	144	addr &= ~(sz-1);
	145
	146	pg = pgd_offset(mm, addr);
	147	if (pshift >= PUD_SHIFT) {
	148	hpdp = (hugepd_t *)pg;
	149	} else {
	150	pdshift = PUD_SHIFT;
	151	pu = pud_alloc(mm, pg, addr);
	152	if (pshift >= PMD_SHIFT) {
	153	hpdp = (hugepd_t *)pu;
	154	} else {
	155	pdshift = PMD_SHIFT;
	156	pm = pmd_alloc(mm, pu, addr);
	157	hpdp = (hugepd_t *)pm;
	158	}
	159	}
	160
	161	if (!hpdp)
	162	return NULL;
	163
	164	BUG_ON(!hugepd_none(hpdp) && !hugepd_ok(hpdp));
	165
	166	if (hugepd_none(*hpdp) && __hugepte_alloc(mm, hpdp, addr, pdshift, pshift))
	167	return NULL;
	168
	169	return hugepte_offset(hpdp, addr, pdshift);
4ec161cf	170	}
4ec161cf	171
658013e9 JT	172	/* Build list of addresses of gigantic pages. This function is used in early
	173	* boot before the buddy or bootmem allocator is setup.
	174	*/
	175	void add_gpage(unsigned long addr, unsigned long page_size,
	176	unsigned long number_of_pages)
	177	{
	178	if (!addr)
	179	return;
	180	while (number_of_pages > 0) {
	181	gpage_freearray[nr_gpages] = addr;
	182	nr_gpages++;
	183	number_of_pages--;
	184	addr += page_size;
	185	}
	186	}
	187
ec4b2c0c	188	/* Moves the gigantic page addresses from the temporary list to the
0d9ea754 JT	189	* huge_boot_pages list.
	190	*/
	191	int alloc_bootmem_huge_page(struct hstate *hstate)
ec4b2c0c JT	192	{
	193	struct huge_bootmem_page *m;
	194	if (nr_gpages == 0)
	195	return 0;
	196	m = phys_to_virt(gpage_freearray[--nr_gpages]);
	197	gpage_freearray[nr_gpages] = 0;
	198	list_add(&m->list, &huge_boot_pages);
0d9ea754	199	m->hstate = hstate;
ec4b2c0c JT	200	return 1;
	201	}
	202
39dde65c KC	203	int huge_pmd_unshare(struct mm_struct mm, unsigned long addr, pte_t *ptep)
	204	{
	205	return 0;
	206	}
	207
a4fe3ce7 DG	208	static void free_hugepd_range(struct mmu_gather tlb, hugepd_t hpdp, int pdshift,
	209	unsigned long start, unsigned long end,
	210	unsigned long floor, unsigned long ceiling)
f10a04c0 DG	211	{
f10a04c0 DG	212	pte_t hugepte = hugepd_page(hpdp);
a4fe3ce7 DG	213	unsigned shift = hugepd_shift(*hpdp);
	214	unsigned long pdmask = ~((1UL << pdshift) - 1);
	215
	216	start &= pdmask;
	217	if (start < floor)
	218	return;
	219	if (ceiling) {
	220	ceiling &= pdmask;
	221	if (! ceiling)
	222	return;
	223	}
	224	if (end - 1 > ceiling - 1)
	225	return;
f10a04c0 DG	226
	227	hpdp->pd = 0;
	228	tlb->need_flush = 1;
a4fe3ce7	229	pgtable_free_tlb(tlb, hugepte, pdshift - shift);
f10a04c0 DG	230	}
f10a04c0 DG	231
f10a04c0 DG	232	static void hugetlb_free_pmd_range(struct mmu_gather tlb, pud_t pud,
f10a04c0 DG	233	unsigned long addr, unsigned long end,
a4fe3ce7	234	unsigned long floor, unsigned long ceiling)
f10a04c0 DG	235	{
	236	pmd_t *pmd;
	237	unsigned long next;
	238	unsigned long start;
	239
	240	start = addr;
	241	pmd = pmd_offset(pud, addr);
	242	do {
	243	next = pmd_addr_end(addr, end);
	244	if (pmd_none(*pmd))
	245	continue;
a4fe3ce7 DG	246	free_hugepd_range(tlb, (hugepd_t *)pmd, PMD_SHIFT,
a4fe3ce7 DG	247	addr, next, floor, ceiling);
f10a04c0 DG	248	} while (pmd++, addr = next, addr != end);
	249
	250	start &= PUD_MASK;
	251	if (start < floor)
	252	return;
	253	if (ceiling) {
	254	ceiling &= PUD_MASK;
	255	if (!ceiling)
	256	return;
1da177e4	257	}
f10a04c0 DG	258	if (end - 1 > ceiling - 1)
f10a04c0 DG	259	return;
1da177e4	260
f10a04c0 DG	261	pmd = pmd_offset(pud, start);
f10a04c0 DG	262	pud_clear(pud);
9e1b32ca	263	pmd_free_tlb(tlb, pmd, start);
f10a04c0	264	}
f10a04c0 DG	265
	266	static void hugetlb_free_pud_range(struct mmu_gather tlb, pgd_t pgd,
	267	unsigned long addr, unsigned long end,
	268	unsigned long floor, unsigned long ceiling)
	269	{
	270	pud_t *pud;
	271	unsigned long next;
	272	unsigned long start;
	273
	274	start = addr;
	275	pud = pud_offset(pgd, addr);
	276	do {
	277	next = pud_addr_end(addr, end);
a4fe3ce7	278	if (!is_hugepd(pud)) {
4ec161cf JT	279	if (pud_none_or_clear_bad(pud))
4ec161cf JT	280	continue;
0d9ea754	281	hugetlb_free_pmd_range(tlb, pud, addr, next, floor,
a4fe3ce7	282	ceiling);
4ec161cf	283	} else {
a4fe3ce7 DG	284	free_hugepd_range(tlb, (hugepd_t *)pud, PUD_SHIFT,
a4fe3ce7 DG	285	addr, next, floor, ceiling);
4ec161cf	286	}
f10a04c0 DG	287	} while (pud++, addr = next, addr != end);
	288
	289	start &= PGDIR_MASK;
	290	if (start < floor)
	291	return;
	292	if (ceiling) {
	293	ceiling &= PGDIR_MASK;
	294	if (!ceiling)
	295	return;
	296	}
	297	if (end - 1 > ceiling - 1)
	298	return;
	299
	300	pud = pud_offset(pgd, start);
	301	pgd_clear(pgd);
9e1b32ca	302	pud_free_tlb(tlb, pud, start);
f10a04c0 DG	303	}
	304
	305	/*
	306	* This function frees user-level page tables of a process.
	307	*
	308	* Must be called with pagetable lock held.
	309	*/
42b77728	310	void hugetlb_free_pgd_range(struct mmu_gather *tlb,
f10a04c0 DG	311	unsigned long addr, unsigned long end,
	312	unsigned long floor, unsigned long ceiling)
	313	{
	314	pgd_t *pgd;
	315	unsigned long next;
f10a04c0 DG	316
f10a04c0 DG	317	/*
a4fe3ce7 DG	318	* Because there are a number of different possible pagetable
	319	* layouts for hugepage ranges, we limit knowledge of how
	320	* things should be laid out to the allocation path
	321	* (huge_pte_alloc(), above). Everything else works out the
	322	* structure as it goes from information in the hugepd
	323	* pointers. That means that we can't here use the
	324	* optimization used in the normal page free_pgd_range(), of
	325	* checking whether we're actually covering a large enough
	326	* range to have to do anything at the top level of the walk
	327	* instead of at the bottom.
f10a04c0	328	*
a4fe3ce7 DG	329	* To make sense of this, you should probably go read the big
	330	* block comment at the top of the normal free_pgd_range(),
	331	* too.
f10a04c0	332	*/
f10a04c0	333
42b77728	334	pgd = pgd_offset(tlb->mm, addr);
f10a04c0	335	do {
f10a04c0	336	next = pgd_addr_end(addr, end);
a4fe3ce7	337	if (!is_hugepd(pgd)) {
0b26425c DG	338	if (pgd_none_or_clear_bad(pgd))
	339	continue;
	340	hugetlb_free_pud_range(tlb, pgd, addr, next, floor, ceiling);
	341	} else {
a4fe3ce7 DG	342	free_hugepd_range(tlb, (hugepd_t *)pgd, PGDIR_SHIFT,
a4fe3ce7 DG	343	addr, next, floor, ceiling);
0b26425c	344	}
f10a04c0	345	} while (pgd++, addr = next, addr != end);
1da177e4 LT	346	}
1da177e4 LT	347
1da177e4 LT	348	struct page *
	349	follow_huge_addr(struct mm_struct *mm, unsigned long address, int write)
	350	{
	351	pte_t *ptep;
	352	struct page *page;
a4fe3ce7 DG	353	unsigned shift;
	354	unsigned long mask;
	355
	356	ptep = find_linux_pte_or_hugepte(mm->pgd, address, &shift);
1da177e4	357
0d9ea754	358	/* Verify it is a huge page else bail. */
a4fe3ce7	359	if (!ptep \|\| !shift)
1da177e4 LT	360	return ERR_PTR(-EINVAL);
1da177e4 LT	361
a4fe3ce7	362	mask = (1UL << shift) - 1;
1da177e4	363	page = pte_page(*ptep);
a4fe3ce7 DG	364	if (page)
a4fe3ce7 DG	365	page += (address & mask) / PAGE_SIZE;
1da177e4 LT	366
	367	return page;
	368	}
	369
	370	int pmd_huge(pmd_t pmd)
	371	{
	372	return 0;
	373	}
	374
ceb86879 AK	375	int pud_huge(pud_t pud)
	376	{
	377	return 0;
	378	}
	379
1da177e4 LT	380	struct page *
	381	follow_huge_pmd(struct mm_struct *mm, unsigned long address,
	382	pmd_t *pmd, int write)
	383	{
	384	BUG();
	385	return NULL;
	386	}
	387
a4fe3ce7 DG	388	static noinline int gup_hugepte(pte_t *ptep, unsigned long sz, unsigned long addr,
	389	unsigned long end, int write, struct page *pages, int nr)
	390	{
	391	unsigned long mask;
	392	unsigned long pte_end;
	393	struct page head, page;
	394	pte_t pte;
	395	int refs;
	396
	397	pte_end = (addr + sz) & ~(sz-1);
	398	if (pte_end < end)
	399	end = pte_end;
	400
	401	pte = *ptep;
	402	mask = _PAGE_PRESENT \| _PAGE_USER;
	403	if (write)
	404	mask \|= _PAGE_RW;
	405
	406	if ((pte_val(pte) & mask) != mask)
	407	return 0;
	408
	409	/* hugepages are never "special" */
	410	VM_BUG_ON(!pfn_valid(pte_pfn(pte)));
	411
	412	refs = 0;
	413	head = pte_page(pte);
	414
	415	page = head + ((addr & (sz-1)) >> PAGE_SHIFT);
	416	do {
	417	VM_BUG_ON(compound_head(page) != head);
	418	pages[*nr] = page;
	419	(*nr)++;
	420	page++;
	421	refs++;
	422	} while (addr += PAGE_SIZE, addr != end);
	423
	424	if (!page_cache_add_speculative(head, refs)) {
	425	*nr -= refs;
	426	return 0;
	427	}
	428
	429	if (unlikely(pte_val(pte) != pte_val(*ptep))) {
	430	/* Could be optimized better */
	431	while (*nr) {
	432	put_page(page);
	433	(*nr)--;
	434	}
	435	}
	436
	437	return 1;
	438	}
	439
39adfa54 DG	440	static unsigned long hugepte_addr_end(unsigned long addr, unsigned long end,
	441	unsigned long sz)
	442	{
	443	unsigned long __boundary = (addr + sz) & ~(sz-1);
	444	return (__boundary - 1 < end - 1) ? __boundary : end;
	445	}
	446
a4fe3ce7 DG	447	int gup_hugepd(hugepd_t *hugepd, unsigned pdshift,
	448	unsigned long addr, unsigned long end,
	449	int write, struct page *pages, int nr)
	450	{
	451	pte_t *ptep;
	452	unsigned long sz = 1UL << hugepd_shift(*hugepd);
39adfa54	453	unsigned long next;
a4fe3ce7 DG	454
	455	ptep = hugepte_offset(hugepd, addr, pdshift);
	456	do {
39adfa54	457	next = hugepte_addr_end(addr, end, sz);
a4fe3ce7 DG	458	if (!gup_hugepte(ptep, sz, addr, end, write, pages, nr))
a4fe3ce7 DG	459	return 0;
39adfa54	460	} while (ptep++, addr = next, addr != end);
a4fe3ce7 DG	461
	462	return 1;
	463	}
1da177e4 LT	464
	465	unsigned long hugetlb_get_unmapped_area(struct file *file, unsigned long addr,
	466	unsigned long len, unsigned long pgoff,
	467	unsigned long flags)
	468	{
0d9ea754 JT	469	struct hstate *hstate = hstate_file(file);
0d9ea754 JT	470	int mmu_psize = shift_to_mmu_psize(huge_page_shift(hstate));
48f797de	471
0d9ea754	472	return slice_get_unmapped_area(addr, len, flags, mmu_psize, 1, 0);
1da177e4 LT	473	}
1da177e4 LT	474
3340289d MG	475	unsigned long vma_mmu_pagesize(struct vm_area_struct *vma)
	476	{
	477	unsigned int psize = get_slice_psize(vma->vm_mm, vma->vm_start);
	478
	479	return 1UL << mmu_psize_to_shift(psize);
	480	}
	481
d1837cba	482	static int __init add_huge_page_size(unsigned long long size)
4ec161cf	483	{
d1837cba DG	484	int shift = __ffs(size);
d1837cba DG	485	int mmu_psize;
a4fe3ce7	486
4ec161cf	487	/* Check that it is a page size supported by the hardware and
d1837cba DG	488	* that it fits within pagetable and slice limits. */
	489	if (!is_power_of_2(size)
	490	\|\| (shift > SLICE_HIGH_SHIFT) \|\| (shift <= PAGE_SHIFT))
	491	return -EINVAL;
91224346	492
d1837cba DG	493	if ((mmu_psize = shift_to_mmu_psize(shift)) < 0)
	494	return -EINVAL;
	495
	496	#ifdef CONFIG_SPU_FS_64K_LS
	497	/* Disable support for 64K huge pages when 64K SPU local store
	498	* support is enabled as the current implementation conflicts.
	499	*/
	500	if (shift == PAGE_SHIFT_64K)
	501	return -EINVAL;
	502	#endif /* CONFIG_SPU_FS_64K_LS */
	503
	504	BUG_ON(mmu_psize_defs[mmu_psize].shift != shift);
	505
	506	/* Return if huge page size has already been setup */
	507	if (size_to_hstate(size))
	508	return 0;
	509
	510	hugetlb_add_hstate(shift - PAGE_SHIFT);
	511
	512	return 0;
4ec161cf JT	513	}
	514
	515	static int __init hugepage_setup_sz(char *str)
	516	{
	517	unsigned long long size;
4ec161cf JT	518
	519	size = memparse(str, &str);
	520
d1837cba	521	if (add_huge_page_size(size) != 0)
4ec161cf JT	522	printk(KERN_WARNING "Invalid huge page size specified(%llu)\n", size);
	523
	524	return 1;
	525	}
	526	__setup("hugepagesz=", hugepage_setup_sz);
	527
f10a04c0 DG	528	static int __init hugetlbpage_init(void)
f10a04c0 DG	529	{
a4fe3ce7	530	int psize;
0d9ea754	531
f10a04c0 DG	532	if (!cpu_has_feature(CPU_FTR_16M_PAGE))
f10a04c0 DG	533	return -ENODEV;
00df438e	534
d1837cba DG	535	for (psize = 0; psize < MMU_PAGE_COUNT; ++psize) {
	536	unsigned shift;
	537	unsigned pdshift;
0d9ea754	538
d1837cba DG	539	if (!mmu_psize_defs[psize].shift)
d1837cba DG	540	continue;
00df438e	541
d1837cba DG	542	shift = mmu_psize_to_shift(psize);
	543
	544	if (add_huge_page_size(1ULL << shift) < 0)
	545	continue;
	546
	547	if (shift < PMD_SHIFT)
	548	pdshift = PMD_SHIFT;
	549	else if (shift < PUD_SHIFT)
	550	pdshift = PUD_SHIFT;
	551	else
	552	pdshift = PGDIR_SHIFT;
	553
	554	pgtable_cache_add(pdshift - shift, NULL);
	555	if (!PGT_CACHE(pdshift - shift))
	556	panic("hugetlbpage_init(): could not create "
	557	"pgtable cache for %d bit pagesize\n", shift);
0d9ea754	558	}
f10a04c0	559
d1837cba DG	560	/* Set default large page size. Currently, we pick 16M or 1M
	561	* depending on what is available
	562	*/
	563	if (mmu_psize_defs[MMU_PAGE_16M].shift)
	564	HPAGE_SHIFT = mmu_psize_defs[MMU_PAGE_16M].shift;
	565	else if (mmu_psize_defs[MMU_PAGE_1M].shift)
	566	HPAGE_SHIFT = mmu_psize_defs[MMU_PAGE_1M].shift;
	567
f10a04c0 DG	568	return 0;
	569	}
	570
	571	module_init(hugetlbpage_init);
0895ecda DG	572
	573	void flush_dcache_icache_hugepage(struct page *page)
	574	{
	575	int i;
	576
	577	BUG_ON(!PageCompound(page));
	578
	579	for (i = 0; i < (1UL << compound_order(page)); i++)
	580	__flush_dcache_icache(page_address(page+i));
	581	}