x64页表自映射

2024-11-03

由于微软需要管理内存，内存由cr3维护，但r3又不能访问物理内存，因此微软设计了一种页表基址的基址；x64下分有pml4、pdpt、pde、pte四个表，每个表的表头地址用一个固定的虚拟地址进行保存，这个地址就被成为页表基址

页表自映射原理

使用windbg命令!pte查看0地址数据。

这里的pxe、ppe、pde、pte地址为虚拟地址(pxe和ppe下边统称为pml4、pdpt)，同时也被称为对应项的页表基址。

对pml4、pdpt、pde、pte四项的页表基址进行拆分得到如下（去除页内偏移和高16位）：

Text

pte_base：   111010111 000000000 000000000 000000000（FEB8000000）
pde_base：   111010111 111010111 000000000 000000000（FEBF5C0000）
pdpte_base： 111010111 111010111 111010111 000000000（FEBF5FAE00）
pml4_base：  111010111 111010111 111010111 111010111（FEBF5FAFD7）

其中发现pml4_base拆分的每项都是111010111，使用windbg查看数据，发现读取第一项时，得到的仍然为本身！

这个就是微软设置的页表自映射，通过这种巧妙的地址索引构造，使得读取pml4_base时会连续查询四次都是得到cr3本身（cr3实际上就是pml4表头），通过这个机制很容易推导出pml4_base。

#include<ntifs.h>
#include <intrin.h>

VOID UnloadDrv(PDRIVER_OBJECT pDrv)
{
	return;
}

NTSTATUS DriverEntry(PDRIVER_OBJECT pDrv, PUNICODE_STRING pReg)
{
	NTSTATUS status = STATUS_SUCCESS;
	do
	{
		pDrv->DriverUnload = UnloadDrv;
		//获取CR3的虚地址
		PHYSICAL_ADDRESS pCr3 = {0};
		pCr3.QuadPart = __readcr3();
		PULONG64 tmp = MmGetVirtualForPhysical(pCr3); // 为cr3映射虚拟地址
		if (tmp == NULL)
		{
			DbgPrintEx(DPFLTR_IHVDRIVER_ID, DPFLTR_ERROR_LEVEL, "get cr3 virtual address failed!\r\n");
			break;
		}
		DbgPrintEx(DPFLTR_IHVDRIVER_ID, DPFLTR_ERROR_LEVEL, "cr3 virtual address = %p\r\n", tmp);

		//遍历
		ULONG_PTR pml4_base = NULL;
		for (int i = 0; i < 512; i++) //512是因为pml4表项有512个,cr3=pml4表头
		{
            // 如果读取到的地址 == cr3,则该虚拟地址为pml4的页基址
			if (pCr3.QuadPart == (tmp[i] & 0xFFFFFFFFF000)) //去除属性
			{
				pml4_base = tmp[i] & 0xFFFFFFFFF000;
				DbgPrintEx(DPFLTR_IHVDRIVER_ID, DPFLTR_ERROR_LEVEL, "&tmp[i] = %p\rpml4_base = %p\r\n",&tmp[i], pml4_base);
				break;
			}
		}
		
	} while (FALSE);
	return status;
}

实际上有了pml4_base，其他三个的基址也是可以推导得到。通过观察0地址的规律，可得如下：

uintptr_t get_pdpt_base(uintptr_t pml4_base)
{
    return (pml4_base >> 21) << 21;
}
 
uintptr_t get_pdpt_base(uintptr_t pml4_base)
{
    return (pml4_base >> 30) << 30;
}
 
uintptr_t get_pte_base(uintptr_t pml4_base)
{
    return (pml4_base >> 39) << 39;
}

假如说要获取某地址的某个表项，可通过如下表达式获取：

uinptr_t get_pte_address (uintptr_t addr)
{
  return (((addr & 0xffffffffffff) >> 12 ) << 3) + g_pte_base;
}

uinptr_t get_pde_address (uintptr_t addr)
{
  return (((addr & 0xffffffffffff) >> 21 ) << 3) + g_pde_base;
}

uinptr_t get_pdpt_address (uintptr_t addr)
{
  return (((addr & 0xffffffffffff) >> 30 ) << 3) + g_pdpt_base;
}
uinptr_t get_pml4_address(uintptr_t addr)
{
  return (((addr & 0xffffffffffff) >> 39 ) << 3) + g_pml4_base;
}

这里使用get_pte_address为例，对其中的表达式进行原理解释。这个和页表自映射有关，也是理解自映射最好的方式。回顾上边对0地址使用!pte得到的pte_base数据的拆分结果111010111 000000000 000000000 000000000。按照正常查询流程，左往右的第一项为pml4，但此时比较特殊，这里暂称为fake_pml4，原因为该项仅作为自映射，不参与实际地址的逻辑运算（该处就是通过自映射的方式填充第一项让cpu在拆分地址读的时候少读一项，使得只读到pte）。因此真正的pml4应该位于第二项中，然后紧接着为pdpt、pde，pte。呃，pte存放哪？别忘了我们这个是去除了后12位，pte就是存在后12位中，因此在页表映射的基础下，完整的拆分应该为下：