Download presentation
Presentation is loading. Please wait.
1
中国科学技术大学计算机系 陈香兰(0551-3606864) xlanchen@ustc.edu.cn Spring 2009
Linux内核源代码导读 中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
2
内存管理
3
内存管理 动态存储器 Slab算法 非连续存储区 2019/4/6 Linux操作系统源代码分析导读
4
内存管理 RAM的某些部分永久地分配给内核,用以存放内核代码以及静态数据 RAM的其余部分称为动态存储器(dynamic memory)
2019/4/6 Linux操作系统源代码分析导读
5
动态存储器 进程和内核都需要动态存储器 属于稀缺资源 整个系统的性能取决于如何有效地管理动态存储器 对于动态存储器要尽可能做到:
按需分配,不需要时释放 2019/4/6 Linux操作系统源代码分析导读
6
页框管理 Linux采用页作为内存管理的基本单位 Linux采用的标准的页框大小为4KB 例如:512M的物理内存对应于128K个页框
传输效率高 管理方便 不考虑PSE,PAE 例如:512M的物理内存对应于128K个页框 算法:伙伴算法 2019/4/6 Linux操作系统源代码分析导读
7
请求页框 内核实现了一种底层的内存分配机制,并提供了几个接口供其他内核函数调用。 分配: 释放 alloc_pages/alloc_page
__get_free_pages/__get_free_page/__get_dma_pages/get_zeroed_page 释放 free_pages/__free_pages/free_page__free_page 2019/4/6 Linux操作系统源代码分析导读
8
页框数据结构 内核必须记录每个页框当前的状态 哪些属于进程,哪些存放了内核代码/数据 是否空闲,即是否可用
如果不可用,内核需要知道是谁在用这个页框 这个页框可能的使用者有用户态进程、动态分配的内核数据结构、静态的内核代码、页面cache、设备驱动程序缓冲的数据等等 2019/4/6 Linux操作系统源代码分析导读
9
页描述符 页描述符:struct page 每个物理页框都用一个页描述符表示 count:页的使用引用计数器 0:空闲
>0:页已经分配给一个或多个进程或用户某些内核数据结构 flags:页框状态,最多可以有32个,每个使用一个位表示 参见枚举类型pageflags 2019/4/6 Linux操作系统源代码分析导读
10
当内核调用一个页框分配函数时,必须指明请求页框所在的区。这个一般是通过一些flag标志来指定的
GFP_XXX 2019/4/6 Linux操作系统源代码分析导读
11
关于NUMA 不考虑 物理内存被划分为若干个node 存取时间不等 考虑CPU局部性 Node使用数据结构pg_data_t描述
每个node被划分成若干个zone 2019/4/6 Linux操作系统源代码分析导读
12
存储区(Memory Zones) 在一个理想的体系结构中,一个页框就是一个物理存储单元,可以用于任何事情,例如
存放内核数据/用户数据/缓存磁盘数据等 实际上存在硬件制约:一些页框由于自身的物理地址的原因不能被一些任务所使用,例如 ISA总线的DMA控制器只能对ram的前16M寻址 在一些具有大容量ram的32位计算机中,CPU不能直接访问所有的物理存储器,因为线性地址空间不够 2019/4/6 Linux操作系统源代码分析导读
13
zone 为了应付这种限制,Linux把具有同样性质的物理内存划分成——区(zones) Linux把物理存储器划分为4个区
ZONE_DMA ZONE_DMA32 (未见用) ZONE_NORMAL ZONE_HIGHMEM 参见枚举类型zone_type 2019/4/6 Linux操作系统源代码分析导读
14
ZONE_DMA 和ZONE_NORMAL区 包含存储器的“常规”页,通过把它们映射到线性地址空间的3GB以上,内核就可直接访问
而ZONE_HIGHMEN区 中包含的存储器页面不能由内核直接访问 每个zone使用struct zone表示 空闲内存管理的关键:free_area 2019/4/6 Linux操作系统源代码分析导读
15
mem_map数组 所有物理页框的描述符,组织在mem_map的数组中 2019/4/6 Linux操作系统源代码分析导读
16
Mem_map、node、zone之间的关系
start_kernelsetup_archsetup_memorysetup_bootmem_allocatorinit_bootmeminit_bootmem_core 页描述符将会占用很大的一段空间 Mem_map、node、zone之间的关系 2019/4/6 Linux操作系统源代码分析导读
17
2019/4/6 Linux操作系统源代码分析导读
18
2019/4/6 Linux操作系统源代码分析导读
19
2019/4/6 Linux操作系统源代码分析导读
20
请求页框 内核实现了一种底层的内存分配机制,并提供了几个接口供其他内核函数调用。 分配: 释放
alloc_pages/alloc_page/alloc_pages_node/alloc_pages_current/… __get_free_pages/__get_free_page/__get_dma_pages/get_zeroed_page 释放 free_pages/__free_pages/free_page__free_page 2019/4/6 Linux操作系统源代码分析导读
21
关于unsigned int gfp_mask
指明可在何处并以何种方式查找空闲的页框 GFP_ATOMIC, 这种分配是高优先级的并且不能睡眠。一般在中断处理程序,下半部分和其他不能睡眠的场合下使用 GFP_KERNEL, 这是普通的分配模式,允许睡眠。一般在用户进程可能调用到的内核函数中使用,这个时候进程是可以安全的睡眠的 GFP_DMA, 设备驱动程序需要DMA内存时使用 2019/4/6 Linux操作系统源代码分析导读
22
在内核中释放页框时要非常小心,必须确保只释放了所请求的页框,否则内核可能会崩溃
page = __get_free_page(GFP_KERNEL,3); If (!page){ /*如果内存不足,分配失败,必须在这里处理这个失败*/ } /*现在’page’变量指向了8个连续页框的起始线性地址*/ free_pages(page,3); /*现在页框被释放,不应该再对page中存放的线性地址进行操作*/ 2019/4/6 Linux操作系统源代码分析导读
23
页框管理算法 内核要为分配一组连续的页框建立一种稳定、高效的分配策略
这种策略要解决碎片问题:即频繁的请求和释放不同大小的一组连续页框,必然导致在物理页框中分散许多小块的空闲页框 这样,即使有足够的空闲页框页框满足请求,但要分配一个大块的连续页框可能就无法满足了 2019/4/6 Linux操作系统源代码分析导读
24
基于下面的原因,Linux内核首选第二种方法
有两种办法可以避免这样的碎片 利用MMU把一组非连续的物理空闲页框映射到连续的线性地址空间 使用一种适当的技术来记录现存的空闲连续页框的情况,以尽量避免为满足对小块的请求而把大块的空闲块进行分割 基于下面的原因,Linux内核首选第二种方法 在某些情况下,必须使用连续的页框,如DMA 尽量少的修改内核页表 2019/4/6 Linux操作系统源代码分析导读
25
buddy算法(伙伴算法) Linux使用著名的伙伴算法来解决碎片问题。
把所有空闲页框分组为11个块链表,每个块链表分别包含大小为1,2,4,8,16,32,64,128,256,512,1024个连续的页框 每个块的第一个页框的物理地址是该块大小的整数倍 例如:大小为16个页框的块,其起址是16×4KB的倍数 2019/4/6 Linux操作系统源代码分析导读
26
伙伴的定义 例如:0和1是伙伴,1和2不是伙伴 两个伙伴的大小必须相同,物理地址必须连续 事实上伙伴是通过对大块的物理内存划分获得的
假定伙伴的大小为b 那么第一个伙伴的物理地址必须是2×b×4KB对齐 事实上伙伴是通过对大块的物理内存划分获得的 假如从第0个页面开始到第3个页面结束的内存 每次都对半划分,那么第一次划分获得大小为2页的伙伴 进一步划分,可以获得大小为1页的伙伴,例如0和1,2和3 1 2 3 1 2 3 2019/4/6 Linux操作系统源代码分析导读
27
数据结构 Linux为每个zone使用各自独立的伙伴系统 每个伙伴系统使用的主要数据结构为: 空闲内存管理数组free_area
2019/4/6 Linux操作系统源代码分析导读
28
mem_map数组 空闲内存管理数组 前面介绍过的页描述符数组 每个页描述符描述一个物理页框
整个mem_map数组描述整个zone中的所有的物理内存 空闲内存管理数组 空闲内存按照伙伴管理的方法进行组织 使用free_area结构 2019/4/6 Linux操作系统源代码分析导读
29
伙伴 当两个伙伴都为空闲的时候,就合并成一个更大的块 该过程将一直进行,直到找不到可以合并的伙伴为止 寻找伙伴 给定一个要释放的空闲块
找到其伙伴 查看其状态:合并 or 不合并 2019/4/6 Linux操作系统源代码分析导读
30
举例 假设有128MB的ram。 假设要请求一个大小为128个页框的块(0.5MB)。
128MB最多可以分成215=32768个页框,214=16384个8KB(2页)的块或213=8192个16KB(4页)的块,直至64个大小为512个页的块 假设要请求一个大小为128个页框的块(0.5MB)。 算法先free_area[7]中检查是否有空闲块(块大小为128个页框) 若没有,就到free_area[8]中找一个空闲块(块大小为256个页框) 若存在这样的块,内核就把256个页框分成两等份,一半用作满足请求,另一半插入free_area[7]中 如果在free_area[8]中也没有空闲块,就继续找free_area[9]中是否有空闲块。 2019/4/6 Linux操作系统源代码分析导读
31
若有,先将512分成伙伴,一个插入free_area[8]中,另一个进一步划分成伙伴,取其一插入free_area[7]中,另一个分配出去
2019/4/6 Linux操作系统源代码分析导读
32
内存的分配与回收 阅读相关代码 关键:nr_free __free_one_page __rmqueue __free_pages
__free_pages_ok free_one_page buffered_rmqueue get_page_from_freelist __alloc_pages_internal __alloc_pages 2019/4/6 Linux操作系统源代码分析导读
33
页框管理小结 Mem_map Zone Free_area 伙伴算法 2019/4/6 Linux操作系统源代码分析导读
34
内存区的管理(memory area) 内核中大量使用各种数据结构,大小从几个字节到几十上百k不等,都取整到2的幂次个页面那是完全不现实的
早期内核的解决方法是提供几何分布的(小)内存区域,大小为32,...,131056字节的内存区域 需要新的内存区域时,内核从伙伴系统申请页框,把它们划分成一个个区域,取一个来满足需求 如果某个页框中的内存区域都释放了,页框就交回到伙伴系统 2019/4/6 Linux操作系统源代码分析导读
35
但这种分配方法有许多值得改进的地方: 不同的数据类型用不同的方法分配内存可能提高效率。比如需要初始化的数据结构,释放后可以暂存着,再分配时就不必初始化了 内核的函数常常重复地使用同一类型的内存区,缓存最近释放的对象可以加速分配和释放 对内存的请求可以按照请求频率来分类,频繁使用的类型使用专门的缓存,很少使用的可以使用通用缓存 使用2的幂次大小的内存区域时硬件高速缓存冲突的概率较大,有可能通过仔细安排内存区域的起始地址来减少硬件高速缓存冲突 缓存一定数量的对象可以减少对buddy系统的调用,从而节省时间并减少由此引起的硬件高速缓存污染 2019/4/6 Linux操作系统源代码分析导读
36
Linux2.6.26中的内存区管理 SLOB Allocator: Simple List Of Blocks Slab
NUMA Slab Slub:slab的一个变种 Kmalloc/kfree kmem_cache_create/kmem_cache_destroy/kmem_cache_alloc/kmem_cache_free 本课介绍基本的slab算法 2019/4/6 Linux操作系统源代码分析导读
37
slab分配器 最早用于Sun公司的Solaris 2.4 slab分配器体现了这些改进思想 slab分配器把内存区看成对象
例如当一个文件被打开时,存放相应“打开文件”对象所需的内存是从一个叫做filp(file pointer)的slab分配器的高速缓存中得到的 也就是说每种对象类型对应一个高速缓存 2019/4/6 Linux操作系统源代码分析导读
38
Slab分配器的组成 每个高速缓存被分成多个slabs,每个slab由一个或多个连续的页框组成,其中包含一定数目的对象(空闲的/已分配出去的) 数据结构:slab 数据结构:kmem_cache 2019/4/6 Linux操作系统源代码分析导读
39
高速缓存描述符和slab描述符之间的关系
参见数据结构:kmem_list3 2019/4/6 Linux操作系统源代码分析导读
40
每个slab有三种状态:全满,半满,全空
半满介于两者之间 当内核函数需要一个新的对象时, 优先从半满的slab满足这个请求 否则从全空的slab中取一个对象满足请求 如果没有空的slab则向buddy系统申请页面生成一个新的slab 2019/4/6 Linux操作系统源代码分析导读
41
关于外置/内置slab描述符 一个slab的slab描述符,可能是外置/内置的 一个slab描述符的初始化参见alloc_slabmgmt
参见kmem_cache_create 2019/4/6 Linux操作系统源代码分析导读
42
Slab描述区的大小 Slab描述区的大小 slab描述符+N个缓冲区描述符 2019/4/6 Linux操作系统源代码分析导读
43
slab中空闲队列的组织 缓冲区描述符列表主要用来维护空闲队列。 缓冲区对象描述符只有在对应缓冲区对象空闲时才有效
表示下一个空闲的缓冲区对象的序号。通过这种方法形成一个空闲链表。 最后一个空闲对象对应的描述符中填写BUFCTL_END。 从slab中获得一个空闲的缓冲区对象 slab_get_obj 释放一个缓冲区对象到slab中: slab_put_obj 2019/4/6 Linux操作系统源代码分析导读
44
2019/4/6 Linux操作系统源代码分析导读
45
给高速缓存分配slab 一个新创建的高速缓存没有包含任何slab,也没有空闲对象。 当下列两个条件都为真时,才给高速缓存分配slab
已发出一个分配新对象的请求 高速缓存中不包含任何空闲对象 cache_grow 2019/4/6 Linux操作系统源代码分析导读
46
从高速缓存中释放slab 在两种条件下才能撤销slab slab_destroy Slab高速缓存中有太多的对象
2019/4/6 Linux操作系统源代码分析导读
47
普通和专用高速缓存 第一个普通高速缓存:cache_cache,名称为“kmem_cache”
普通高速缓存根据大小分配内存,“几何”高速缓存 26个,2组(一组用于DMA分配,另一组用于常规分配) 每组13个,大小从25=32个字节,到217=132017个字节 数据结构cache_sizes;数组:malloc_sizes 函数kmem_find_general_cachep用来根据大小来找到合适的普通几何高速缓存 专用高速缓存根据数据类型分配,用户直接调用函数kmem_cache_create创建 关于13是一个大概的数目, 实际上根据配置的不同而有所不同 2019/4/6 Linux操作系统源代码分析导读
48
slab分配器和伙伴系统的接口 slab分配器调用kmem_getpages()来获取一组连续的空闲页框
static void *kmem_getpages(struct kmem_cache *cachep, gfp_t flags, int nodeid) 相应的,有kmem_freepages()来释放分配给slab分配器的页框 static void kmem_freepages(struct kmem_cache *cachep, void *addr) 2019/4/6 Linux操作系统源代码分析导读
49
页框中的cache和slab指针 当一个页框属于一个slab的时候,这个页框的lru的prev指向的就是这个页框所属的slab。
page_set_slab和page_get_slab 当一个页框属于一个cache的时候,这个页框的lru的next指向的就是这个页框所属的slab。 page_set_cache和page_get_cache Slab中页框块中页框信息的初始化: slab_map_pages 2019/4/6 Linux操作系统源代码分析导读
50
空闲slab对象的本地高速缓存 为避免处理器在分配和释放slab缓冲区对象时对相关数据结构的竞争
kmem_cache中的array数组和数据结构array_cache 从本地高速缓存中分配____cache_alloc 填充本地高速缓存并分配:cache_alloc_refill 释放缓冲区对象到本地高速缓存:__cache_free 2019/4/6 Linux操作系统源代码分析导读
51
slab分配器提供的接口 专用高速缓存 从普通几何高速缓存中分配和释放 举例说明使用情况
创建专用高速缓存:kmem_cache_create 撤销专用高速缓存:kmem_cache_destroy 一般内核撤销一个模块时会调用这个函数撤销属于那个模块的cache类型 从专用高速缓冲中分配和释放 从高速缓存中分配/释放一个内存对象 kmem_cache_alloc/kmem_cache_free 从普通几何高速缓存中分配和释放 kmalloc/kfree 举例说明使用情况 2019/4/6 Linux操作系统源代码分析导读
52
如果编写的内核模块有许多创建和释放数据结构的操作,可以考虑调用前面所述的slab分配器的接口创建一个高速缓存
这样可以大大减少内存的访问时间 2019/4/6 Linux操作系统源代码分析导读
53
Slab高速缓存机制的初始化 kmem_cache_init 首先初始化cache_cache
然后调用kmem_cache_create初始化两个特殊的几何高速缓存 适合数据结构arraycache_init和数据结构kmem_list3的几何高速缓存 此时slab_early_init结束,该值被设置为0,表示以后要根据实际情况来判断是否要外置slab描述区 接下来初始化剩余的几何高速缓存 并且清除并重置一些早期信息 2019/4/6 Linux操作系统源代码分析导读
54
内存区管理:slab分配器小结 kmem_cache:高速缓存 array_cache:本地高速缓存 kmem_list3:slab链表
slab:slab buffer&kmem_bufctl_t 2019/4/6 Linux操作系统源代码分析导读
55
非连续存储区管理 把线性空间映射到一组连续的页框是很好的选择 有时候不得不将线性空间映射到一组不连续的页框 优点:避免碎片 2019/4/6
Linux操作系统源代码分析导读
56
为非连续内存区保留的线性地址空间 VMALLOC_START~VMALLOC_END 3G以上的线性地址空间有4种用途:
1)直接映射物理内存区域 2)非连续内存区域 3)用于高端内存的永久映射区域 4)固定映射区域 2019/4/6 Linux操作系统源代码分析导读
57
关于VMALLOC_START和VMALLOC_END定义
2019/4/6 Linux操作系统源代码分析导读
58
关于high_memory 的定义 2019/4/6 Linux操作系统源代码分析导读
59
非连续内存区的标志flags用来标识一个非连续内存区的类型:
非连续存储区的描述符vm_struct 非连续内存区的标志flags用来标识一个非连续内存区的类型: VM_IOREMAP表示使用ioremap()映射的硬件设备的共享内存 VM_ALLOC表示使用vmalloc()分配得到 VM_MAP表示使用vmap()映射得到 VM_USERMAP标识使用vmalloc_user分配得到的。 VM_VPAGES表示用来存放物理页框数组的内存区间也是一个vm_struct 2019/4/6 Linux操作系统源代码分析导读
60
在vmlist上找到给定地址所在的vm_struct:__find_vm_area
查找一个可用的非连续区内的线性地址区间:get_vm_area 映射/取消映射物理页map_vm_area/unmap_vm_area 为一个非连续区内的地址找到对应的物理页框:vmalloc_to_page Vmalloc等分配一个非连续存储区 Vfree释放非连续线性区间 2019/4/6 Linux操作系统源代码分析导读
61
非连续区小结 非连续区的定义 3G以上线性空间的4种用途 数据结构、分配以及映射的进行 2019/4/6 Linux操作系统源代码分析导读
62
页框管理、内存区管理、非连续存储区管理之间的关系
使用分配到缓冲区 使用分配到线性区 直接使用分配到的 页框,例如进程描述符 使用slab算法,以若干 个字节为单位进行管理 非连续存储区,映射 到非连续的物理页框上 分配出 一些页框 分配出 一些页框 物理内存:页框管理,以页框为单位进行管理 2019/4/6 Linux操作系统源代码分析导读
63
Thanks! The end.
Similar presentations