kvm内存优化:
EPT 技术
在虚拟化环境下,intel开创的硬件辅助内存虚拟化技术。即扩展页表EPT,而AMD也有类似的成为NPT。在此之前,内存虚拟化使用的一个重要技术为影子页表。(影子页表采用的是一步到位式,即完成客户机虚拟地址GVA到宿主机物理地址HPA的转换,由VMM为每个客户机进程维护。)
在虚拟化环境下,正常访问内存流程:GVA–>GPA–>HPA。
有了EPT技术,那么能够将虚拟机的物理地址直接翻译为宿主机的物理地址,从而把后面那个转换过程去掉了,增加了效率。
那么这项技术,现在的服务器都支持,只要在BIOS打开了intel 的VT设置,那么这个也一起打开了。
大页和透明大页
大页:指的是内存的大页面。
小页面:当初这个机制提出的时候,计算机的内存大小也就几十M,所以当时内存默认的页面大小都是4KB,那么这个4KB 也就是所谓的小页面。随着计算机的硬件发展,内存基本都是大容量的,操作系统如果还是小页存在,那么将会产生较多的TLB Miss和缺页中断,从而大大影响性能。
为什么小页就存在较多的Miss和缺页中断呢?比如说系统里的一个应用程序需要2MB的内容,如果操作系统还是以4KB小页为单位,那么内存里就要有512个页面(512*4KB=2M),所以在TLB里就需要512个表项以及512个页表项,因此操作系统就要经历512次的TLB miss和512次的缺页中断才能将2MB的应用程序空间全部映射到物理内存里。想想,2MB内存的需要就要经历512次的操作,如果内存需求大呢?必然操作数量会大大增加,从而间接的影响性能。(Translation Lookaside Buffer的缩写,虚拟寻址的缓存,用于虚拟地址与实地址之间的交互,提供一个寻找实地址的缓存区,能够有效减少寻找物理地址所消耗时间。)
如果把这个4KB变成2MB呢?那就很轻松了,一次TLB Miss和缺页中断操作就完成了,大大的增加了效率。
所以,虚拟机可以通过分配巨型页也就是刚才说的大页来提高运行性能。
具体怎么操作呢?
如何把这个4KB的小页变成2MB甚至1GB的大页,然后把这个大页赋给虚拟机使用?
通过命令 cat /proc/meminfo | grep HugePages 查看当前系统有多少个大页。
运行 echo 2000 > /proc/sys/vm/nr_hugepages
永久生效 :sysctl -w vm.nr_hugepages=2000
把大页进行挂载:
mount -t hugetlbfs hugetlbfs /dev/hugepages
这个hugetlbfs 是一种特殊文件系统,那至于为什么采用这样的文件系统是因为这样花费的代价小。
那么通过这几步操作,开启->设置大页数量->挂载, 那么宿主机这块就没什么问题了。
如果我们KVM里面的某个虚拟机要使用宿主机的大页,那么我们还得做如下操作:
- 重启下libvirtd服务;
- 虚拟机也开启透明巨型页;
- 关闭虚拟机编辑虚拟机XML设置虚拟机可以使用宿主机的巨型页数量
libvirtd服务重启:systemctl restart libvirtd.service;
编辑虚拟机XML文件,让它使用宿主机的大页,使用virsh edit vmname 命令修改;
在宿主机运行 cat /proc/meminfo | grep -i HugePages 查看下大页的使用情况;
注意这个虚拟机的内存是2G的配置,发现hugepages_free已经变成了912个了,那么使用了2000-912=1088 个;那么2*1088=2176M 正好跟虚拟机内存的大小2G差不多。
那么要让大页同时让多个虚拟机享用,有以下两步要做:
- 给NUMA 各个node节点分配多个2MB或者1GB的大页;
- 编辑虚拟机xml文件以使用node里分配好的大页。
给宿主机各个NUMA Node分配大页:
#echo 4 > /sys/devices/system/node/node0/hugepages/hugepages-1048576kB/nr_hugepages #echo 1024 > /sys/devices/system/node/node1/hugepages/hugepages-2048kB/nr_hugepages
这两个命令的意思就是先给node0里分配4个1GB的大页,然后再给node1分配1024个2MB的大页。
然后执行相关挂载操作,这跟刚才我们做的操作类似:
# mkdir /dev/hugepages1G # mount -t hugetlbfs -o pagesize=1G none /dev/hugepages1G # mkdir /dev/hugepages2M # mount -t hugetlbfs -o pagesize=2M none /dev/hugepages2M
挂载成功后,重启下libvirtd服务,然后虚拟机就可以使用了,但是这里要注意的是,1GB的大页,虚拟机是不能直接使用的,需要在XML里指定。
那么怎么指定? 我们目前宿主机NUMA node1和node2里面分别有4个1GB的和1024个2MB的大页。因此,只要跑在这两node上的虚拟机都可以享用了。 比如刚才我们那虚拟机,我们要让它使用1GB的大页,我们只需要在XML里这样定义 <memoryBacking> <hugepages/> <page size="1" unit="G" nodeset="0-3,5"/> <page size="2" unit="M" nodeset="4"/> </hugepages> </memoryBacking> 红色的部分就是要添加的参数,size是1,表示第一个使用的page;然后单位unit是G,nodeset="0-3,5" 意思是虚拟机的NUMA node0,node1, node2 , node3和node5将使用1GB的大页 ; 虚拟机的node4将用2MB的大页。
注意,这里的nodeset指的是虚拟机的节点,同时还要注意的是,如果宿主机大页面不够用了,你这样配置了,虚拟机是会起不来的。
以上就是给虚拟机分配大页的方法。当然如果你想把宿主机的大页关闭,只要执行: # sysctl vm.nr_hugepages=0 # umount hugetlbfs
透明大页:
从Centos6开始,linux系统自带了一技术叫透明巨型页(transparent huge page),它允许所有的空余内存被用作缓存以提高性能,而且这个设置是默认开启的。
cat /sys/kernel/mm/transparent_hugepage/enabled 可以查看。
我们看到这个中括号把这个always括起来了,说明这机器的透明巨型页的功能是打开的。当有512个页面可以整合的时候,就会合成一个2MB的大页;
如果是在括号把never括起来了,那么就是关闭状态;
madvise的话就是避免改变内存占用。
下面命令是关闭巨型页:
echo never >/sys/kernel/mm/transparent_hugepage/enabled
最后要注意的是透明巨型页跟刚才我们说的hugetlbfs 文件挂载大页是不冲突的,如果你没做任何大页的指定和挂载,那么KVM就会使用透明大页的方式。
那么说到这,大家就会疑问,既然有透明大页,我为何还要费劲的去做相关大页的指定? 其实这两种方式都差不多,区别就是一个是手动的一,个是自动的。如果你对你宿主机资源把握的更加精准,推荐的还是手动指定。
KSM 技术
KSM(Kernel SamePage Merging),也就是所谓的相同页面内存压缩技术。
KSM服务在linux系统里默认是开启的,它的作用就是让内存利用的更加高效,如果多个程序中用的内存都是相同的页面,那么KSM就会把相同的内存合并,这样就能腾出更多的空间。
KSM在系统里有个守护进程,它的作用就是不断的扫描宿主机的内存情况,检测有相同的页面就会合并,当然这或多或少会消耗点CPU。
如果你的环境,内存资源比较丰富,建议这个功能开不开启都无所谓;如果不够,又想跑多一点的虚拟机,那么可以打开这个功能,但是你一定要清楚,这个是一种内存超用的方案,假如你的大部分虚拟机内存变化比较频繁(比如内存使用率一下高,一下低),那么不建议开启,因为内存不够了,就会用到swap,那么这个会严重影响虚拟机性能。
首先是开关KSM服务
systemctl start|stop ksmd systemctl start|stop ksmtuned systemctl enable|disable ksmd systemctl enable|disable ksmtuned
其次是在宿主机KSM服务打开的情况下,如果不想让虚拟机受宿主机KSM的影响,那么可以这么操作:
编辑虚拟机的XML文件,添加:
<memoryBacking> <nosharepages/> </memoryBacking>
这样,这个KSM就不会去合并这个虚拟机的内存了
总的来说,用不用KSM视你自己的生产环境具体情况而定。
内存限制技术
通过虚拟机内存限制,可以让虚拟机的内存使用限制在一定范围内。
比如你的一台KVM宿主机,里面跑着多个业务的虚拟机,有的虚拟机业务比较大,吃得内存多,有的业务比较低,用不了多少内存,那么我们可以通过内存限制技术来手动调节宿主机的内存分配。
使用这个必须对你虚拟化环境特别清楚,比如宿主机平时的负载情况以及各个虚拟机的负载情况。
通过memtune命令或者通过改虚拟机的XML文件来设定内存的限制.
hard_limit:强制设置虚拟机最大使用内存,单位为KB soft_limit:可用最大内存,单位为KB swap_hard_limit:虚拟机最多使用的内存加上swap的大小,单位为KB min_guarantee:强制设置虚拟机最低使用的内存,单位为KB
最后一个参数虽然OPTIONS里有列出,但是实测是发现CentOS7.0 以上系统不能支持,执行的时候会报下面这样的错误:
还可以通过修改XML的方式来现在虚拟机的内存。
我们在XML里添加下面这个配置即可:
<memtune> <hard_limit unit='KiB'>9437184</hard_limit> <soft_limit unit='KiB'>8388608</soft_limit> <swap_hard_limit unit='KiB'>10485760</swap_hard_limit> </memtune>