云原生技術(shù)已經(jīng)成為加快企業(yè)數(shù)字化轉(zhuǎn)型的一個(gè)不折不扣的風(fēng)向標(biāo)。而以容器為代表的云原生技術(shù)正在成為釋放云價(jià)值的最短路徑。本期智匯華云,帶大家一起了解和體驗(yàn)安全容器kata container的?些特性。
前?
當(dāng)前云原?技術(shù)發(fā)展的如?如荼,容器化技術(shù)以及kubernetes容器化應(yīng)?管理平臺,帶來了全新的? 態(tài)系統(tǒng). 隨著容器技術(shù)的發(fā)展,容器運(yùn)?時(shí)規(guī)范OCI也逐漸脫離Docker被單獨(dú)提了出來,kubernetes?期使?的容器運(yùn)?時(shí)是runC,輕量,性能?,但因?yàn)楣?linux內(nèi)核以及namespace機(jī)制隔離的不徹 底,存在?定的安全問題,業(yè)界涌現(xiàn)了好?個(gè)安全容器的解決?案,?如Google的gVisor, Amazon的 Firecracker,vmware的CRX等, 開源世界???較有名的解決?案是kata container,本?主要就關(guān) 注在安全容器kata container的?些特性了解和體驗(yàn)。 kata Container
kata container 由?系列技術(shù)組成,來源于兩個(gè)項(xiàng)?的合并,Intel Clear Containers和Hyper runV,然 后?加上redhat貢獻(xiàn)的virtio-fs,?種在guest和宿主機(jī)之間共享?件系統(tǒng)的?案。涉及的技術(shù)有 QEMU/KVM,Linux kernel,?件系統(tǒng),容器運(yùn)?時(shí),容器?絡(luò)等,是?項(xiàng)?較復(fù)雜的組合產(chǎn)品,? 且還保持著很?的新特性開發(fā)進(jìn)度,本次主要體驗(yàn)和梳理virtiofs相關(guān)的內(nèi)容,這些內(nèi)容有部分是來源 于kata的社區(qū)郵件列表以及slack,還有微信群,?常感慨,kata的社區(qū)真是?常的Nice,專業(yè)程度和 熱?都令?感動(dòng)。
virtiofs ?件系統(tǒng)結(jié)構(gòu)
默認(rèn)容器是使?cgroup和namespace做進(jìn)程,?絡(luò),?件系統(tǒng)掛載點(diǎn)等隔離,是?常輕量級的。? kata container為了實(shí)現(xiàn)安全容器,使?了VM虛擬機(jī)作為強(qiáng)隔離?段,有獨(dú)?的內(nèi)核和虛擬機(jī)鏡像, 為了降低資源消耗,hypervisor使?了?常?的guest kernel和guest image,?度優(yōu)化了內(nèi)核的啟動(dòng) 時(shí)間,最?化了內(nèi)存占?,只提供容器負(fù)載所需要的最基本的服務(wù)。virtio-fs?件系統(tǒng),在資源消耗上 也使?了多種優(yōu)化特性。 下?就來看?看具體是怎么使?的,以及特性理解 kata container作為除了runC之外另?種runtime,需要先在kubernetes環(huán)境中做集成部署,以便做各 種觀察。當(dāng)然直接使?他的CTR?具也是可以,只是缺少CNI的?持,?絡(luò)??不能?動(dòng)配置。kata container configuration.toml 配置參數(shù)有兩種共享?件系統(tǒng)類型可以選擇,之前默認(rèn)是virtio-9p ,現(xiàn) 在基本上都會(huì)選擇 virtio-fs,有若?優(yōu)點(diǎn)。 virtio- 9p 和 virtio-fs ?件系統(tǒng)對?
1. virtio-9p基于現(xiàn)存的?絡(luò)協(xié)議,并沒有虛擬化場景提供優(yōu)化
2. virtio-fs利?了hypervisor和虛擬機(jī)處于相同節(jié)點(diǎn)的優(yōu)勢
DAX特性,?件內(nèi)容能夠映射到宿主機(jī)的內(nèi)存窗?,允許客戶機(jī)直接訪問宿主機(jī)的page cache
減少內(nèi)存占?,因?yàn)榭蛻魴C(jī)cache已經(jīng)被繞過了
不需要?絡(luò)節(jié)點(diǎn)通信,提?了IO性能
測試
kata container 與整合使?virtiofsd,把宿主機(jī)?錄共享給微虛擬機(jī)使?。測試環(huán)境版本: Centos 8
qemu-kvm 5.1
kubernetes 1.18
containerd 1.4.4
kata container 2.0.4
使?kubernetes 新版本的RuntimeClass 對象,指定handler:kata
創(chuàng)建pod
1 apiVersion: v1
2 kind: Pod
3 metadata:
4 name: kata-alpine
5 spec:
6 runtimeClassName: kataclass
7 containers:
8 - name: alpine
9 image: alpine:latest
10 imagePullPolicy: IfNotPresent
11 command:
12 - /bin/sh
13 - "-c"
14 - "sleep 60m"
15 restartPolicy: Always
16 nodeSelector:
17 kubernetes.io/hostname:
k8s05 k8s05節(jié)點(diǎn)宿主機(jī)進(jìn)程查看
1 [root@k8s05 ~]# ps aux|grep kata
2 root 500086 0.0 0.1 1412184 47796 ? Sl Jun18 14:00 /usr/bin/conta
3 root 500117 0.0 0.0 129064 4960 ? Sl Jun18 0:00 /usr/libexec/k
4 root 500155 0.2 3.2 4367516 1059672 ? Sl Jun18 41:47 /usr/bin/qemu-
5 root 500158 0.0 0.8 5667064 271696 ? Sl Jun18 0:03 /usr/libexec/k
可以看到kata container v2 啟動(dòng)了新的與kubernetes對接的CRI進(jìn)程containerd-shim-kata-v2, KVM虛擬機(jī),還有2個(gè)virtiofsd進(jìn)程。為什么會(huì)啟動(dòng)2個(gè)virtiofs呢?為了提?安全性,virtiofsd 進(jìn)程 fork??,以便進(jìn)?新的 mount/pid/net 命名空間,只有?進(jìn)程內(nèi)存映射,CPU使???處于活躍狀 態(tài)。
可以看到qemu 虛擬化了設(shè)備vhost-user-fs-pci,有?個(gè)tag為kataShared,這個(gè)就是虛擬機(jī)要 mount的源。tag就是?個(gè)?定義?件系統(tǒng)需要接收的參數(shù),定義路徑?的。
Note that Linux 4.19-based virtio-fs kernels required a different mount syntax. mount -t virtio_fs none /mnt -o tag=myfs,rootmode=040000,user_id=0,group_id=0instead. mount_tag: A tag which acts as a hint to the guest OS and is used to mount this exported path.
1 -device vhost-user-fs-pci,chardev=char-538bb1c14588b18e,tag=kataShared
進(jìn)?kata容器觀察
1[root@k8s01 kata-container]# kubectl exec-it kata-alpine--sh
2/# df-h
3Filesystem Size Used Available Use%Mounted on
4kataShared74.0G49.5G24.4G67% /
5tmpfs64.0M064.0M0% /dev
6tmpfs1.4G01.4G0% /sys/fs/cgroup
7kataShared74.0G49.5G24.4G67% /etc/hosts
8kataShared74.0G49.5G24.4G67% /dev/termination-log
9kataShared74.0G49.5G24.4G67% /etc/hostname
10kataShared74.0G49.5G24.4G67% /etc/resolv.conf
11shm1.4G01.4G0% /dev/shm
12kataShared15.7G12.0K15.7G0% /run/secrets/kubernetes.i
13tmpfs64.0M064.0M0% /proc/keys
14tmpfs64.0M064.0M0% /proc/timer_list
可以看到容器已經(jīng)掛載了tag定義的?件系統(tǒng)。tag名字可以是任意取的,只要能guest掛載時(shí)候指定相同的就可以。對于kata 來說,已經(jīng)整合好了,不需要??指定
有時(shí)候如果處于調(diào)試?的或者是想看?下虛擬機(jī)的信息,可以配置kata 開啟debug 模式,qemu暴露 vsock接?,虛擬機(jī)通過agent開啟shell
1 configuration.toml
2
3 [agent.kata]
4 debug_console_enabled = true
宿主機(jī)再?動(dòng)啟動(dòng)kata-monitor 進(jìn)程,獲取sandbox的vsock地址,??監(jiān)聽localhost:8090端?,就可以通 過kata-runtime exec $sandboxId 接?虛擬機(jī)bash了
1 [root@k8s05 kata]# /usr/bin/kata-monitor
2 INFO[0010] add sandbox to cache container=7e4cef94733381a9d9c509aa2a0be87e0c0bd
3 INFO[0020] delete sandbox from cache container=5246e787b17eeab4ca83e9e73583a1b5
進(jìn)?虛擬機(jī)查看
kata根據(jù)sandbox的ID,指定唯?的宿主機(jī)內(nèi)存共享?錄source, 傳遞給virtiofsd. 虛擬機(jī)掛載 virtiofsd導(dǎo)出的共享的?錄到/run/kata-containers/shared/containers,然后再以bind mount的? 式掛載進(jìn)容器。
1 [root@k8s05 ~]# kata-runtime exec 0965321e164975f01c85f997fbb0183773a9e97cb5767d9
2 bash-4.2# df -h
3 Filesystem Size Used Avail Use% Mounted on
4 rootfs 1.4G 350M 1.1G 25% /
5 dev 1.4G 0 1.4G 0% /dev
6 tmpfs 1.5G 0 1.5G 0% /dev/shm
7 tmpfs 1.5G 16K 1.5G 1% /run
8 tmpfs 1.5G 0 1.5G 0% /sys/fs/cgroup
9 kataShared 16G 1.6G 15G 11% /run/kata-containers/shared/containers
10 shm 1.5G 0 1.5G 0% /run/kata-containers/sandbox/shm
kata根據(jù)sandbox的ID,指定唯?的宿主機(jī)內(nèi)存共享?錄source, 傳遞給virtiofsd. 虛擬機(jī)掛載 virtiofsd導(dǎo)出的共享的?錄到/run/kata-containers/shared/containers,然后再以bind mount的? 式掛載進(jìn)容器。
持久卷掛載
?絡(luò)持久卷?如iscsi也是能直接掛載進(jìn)kata容器的,例如創(chuàng)建?個(gè)pod,直接指定pvc,pv使?某?個(gè) iscsi lun,然后在容器中創(chuàng)建?個(gè)?件
1 [root@k8s01 kata-container]# kubectl exec -it iscsipd -- sh
2 / # cd /mnt/iscsipd
3 /mnt/iscsipd # ls
4 lost+found
5 /mnt/iscsipd # touch aaaa.txt
在虛擬機(jī)??已經(jīng)通過virtiofs掛載在了?個(gè)容器id?錄之下
1 [root@k8s05 ~]# kata-runtime exec e96d0ce2249e9027f0e1102e66a0c0013473ac48a088240
2 bash-4.2# mount
3 rootfs on / type rootfs (rw,size=1444588k,nr_inodes=361147)
4 kataShared on /run/kata-containers/shared/containers type virtiofs (rw,relatime)
5 kataShared on /run/kata-containers/e96d0ce2249e9027f0e1102e66a0c0013473ac48a08824
6 kataShared on /run/kata-containers/839162f25b7907bf91ecb027305e64dd5ccf36f55b15b6
7 bash-4.2# find / -name aaaa.txt
8 /run/kata-containers/shared/containers/839162f25b7907bf91ecb027305e64dd5ccf36f55b
在宿主機(jī)上是識別為硬盤塊設(shè)備/dev/sdd,被kubelet掛載在特定?錄下?,?個(gè)是sandbox_id,? 個(gè)是應(yīng)?container_id
1 [root@k8s05 ~]# lsblk
2 NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
3 sda 8:0 0 50G 0 disk
4 ├─sda1 8:1 0 1G 0 part /boot
5 sdc 8:32 0 2G 0 disk
6 sdd 8:48 0 2G 0 disk /run/kata-containers/shared/sandboxes/e96d0ce2
就如前?說的,所有數(shù)據(jù)都要經(jīng)過virtiofs,不管是鏡像數(shù)據(jù)還是?絡(luò)存儲卷。虛擬機(jī)要和宿主機(jī)數(shù)據(jù) 交互,就必須要穿過qemu,virtiofs就是穿過qemu的橋梁,提供共享?件機(jī)制。數(shù)據(jù)相關(guān)的操作最終 還是在宿主機(jī)上,?如鏡像層的合并,仍然是containerd的存儲層插件snapshotter完成,底層仍然是 調(diào)?了overlayfs?件系統(tǒng)
1 /etc/containerd/config.toml
2 [plugins."io.containerd.grpc.v1.cri".containerd]
3 snapshotter = "overlayfs"
4 default_runtime_name = "runc"
5 no_pivot = false
6 disable_snapshot_annotations = true
7 discard_unpacked_layers = false
8 ...
9 [plugins."io.containerd.service.v1.diff-service"] 10 default = ["walking"]
另外kata container 整合使?virtiofs的?式,與獨(dú)???操作virtiofs的?式,有些地?稍有不同,? 如按virtiofs官?說明,可以指定host?件?錄$TESTDIR作為源
1 ./virtiofsd --socket-path=/tmp/vhostqemu -o source=$TESTDIR -o cache=alwa
?在kata runtime??是不允許的,?如在configuration.toml ?配置
1 virtio_fs_extra_args = ["-o","--thread-pool-size=1","-o","/opt/kata-instance"]
kubelet 會(huì)報(bào)錯(cuò):
Warning FailedCreatePodSandBox 1s (x14 over 15s) kubelet, k8s05 Failed to create pod sandbox: rpc error: code = Unknown desc = failed to create containerd task: failed to launch qemu: exit status 1, error messages from qemu log: qemu-system- x86_64: cannot create PID fifile: Cannot open pid fifile: No such fifile or directory
kata還會(huì)打開vhost-user socket ?件描述符,傳遞給virtiofsd??赡苡?會(huì)有疑問,為什么每?個(gè) virtiofsd進(jìn)程的fd參數(shù)都等于3,會(huì)不會(huì)有沖突。其實(shí)不會(huì),因?yàn)?件描述符是進(jìn)程獨(dú)?的,STDIO占 據(jù)了0,1和2,那么virtiofsd第?個(gè)可?的fd num就是3了
virtiofsd cache guest
guest ?成是會(huì)指定內(nèi)存??,virtiofsd會(huì)共享使?guest的內(nèi)存。默認(rèn)使?memory-backend-fifile內(nèi)存對象
virtiofsd共享使?VM內(nèi)存,configuration.toml 配置參數(shù)default_memory
qemu 命令?接受的參數(shù)
1 -object memory-backend-file,id=dimm1,size=3072M,mem-path=/dev/shm,share=on -numa
guest和host數(shù)據(jù)傳輸都是通過virtio-fs,包括容器鏡像和容器卷,讀寫權(quán)限取決于virtiofsd進(jìn)程的權(quán)限
DAX(直接訪問)
dax
DAX windows 是?塊虛擬內(nèi)存區(qū)域,通過PCI Bar 把?件映射到guest??,并不真正的占?主機(jī)那么多內(nèi)存,即使有100個(gè)虛擬機(jī),設(shè)置的DAX cache是1G,也不會(huì)真的使?100G內(nèi)存。只是?種page映射機(jī)制,所以也不需要任何的cache 策略。
要任何的cache 策
kata container官?下載的版本默認(rèn)沒有不?持,需要編譯安裝gitlab托管的virtio-fs qemu項(xiàng)?qemu5.0-virtiofs-dax 分?
configuration.toml 設(shè)置virtio_fs_cache_size dax window ??,qemu初始化vhost-user-fs-pci設(shè)備
1-machine q35,accel=kvm,kernel_irqchip,nvdimm
2-device nvdimm,id=nv0,memdev=mem0 -object memory-backend-file,id=mem0,mem-path=/o
3-device vhost-user-fs-pci,chardev=char-ea09ec33d071ac42,tag=kataShared,cache-size
如果是rootfs image 可以看到模擬的nvdimm信息,??編譯鏡像的話,image_builder.sh構(gòu)建腳本會(huì)在image?件頭部寫?dax metadata信息。initrd image看不到。image 相當(dāng)于是直接?rootfs引導(dǎo),initramfs(initrd)是把cpio+gz打包壓縮的rootfs解壓到內(nèi)存?,再?內(nèi)存?的initramfs來引導(dǎo)。前者可以利?dax,讓guest os認(rèn)為這就是個(gè)dimm內(nèi)存,不需要再加載到另?塊內(nèi)存?,后者就是需要解壓到?塊內(nèi)存。
DAX 背后的想法是避免在guest中使? _second_ 緩沖區(qū)緩存。?般對于常規(guī)?件,guest會(huì)維護(hù)???件系統(tǒng)緩沖區(qū)。
現(xiàn)在呢,對于與 virtiofs 共享的?件,由于它們駐留在主機(jī)上,您將在主機(jī)上擁有?份緩存副本,然后virtiofs 會(huì)將其發(fā)送給guest ,然后guest就也有了?份副本,成本就?較?。DAX 就是為了解決這個(gè)問題的,它所做的就是將主機(jī)buffffer map到客戶機(jī)中,guest使?與主機(jī)相同的物理內(nèi)存,即使它使?不同的虛擬地址。如果沒有 DAX,內(nèi)存使?量可能會(huì)?常?,因?yàn)槊總€(gè)guest都有??的?件緩沖區(qū)。例如,如果您啟動(dòng)?個(gè) Fedora 容器并“dnf install something”,您將看到內(nèi)存使?量增加了約 300M,因?yàn)樵谠摬僮髌陂g讀取/寫?了許多?件。如果沒有 DAX,那么guest也需要分配 350M。使? DAX,它就會(huì)直接使?宿主機(jī)中已為這些?件緩沖分配的350M內(nèi)存
性能測試
測測DAX window??對性能的影響(virtio_fs_cache_size = 512)
??件測試
1fio--name=small-file-multi-read--directory=/usr/share/nginx/html \
2--rw=randread--file_service_type=sequential \
3--bs=4k--filesize=10M--nrfiles=100\
4--runtime=60--time_based--numjobs=1
5...
6small-file-multi-read: (groupid=0,jobs=1):err=0:pid=190:Mon Jul5 07:05:18
7read:IOPS=12.0k,BW=46.0MiB/s(49.2MB/s)(212MiB/4505msec)
??件測試
1fio--name=5G-bigfile-rand-read--directory=/usr/share/nginx/html--rw=ra
2...
35G-bigfile-rand-read: (groupid=0,jobs=1):err=0:pid=184:Mon Jul5 06:57:08 24read:IOPS=1255,BW=5024KiB/s(5144kB/s)(294MiB/60002msec)
從壓測觀察到當(dāng)讀寫的?件超過dax window后,性能下降很多,原因和dax映射機(jī)制有關(guān),dax窗?的回收是?較慢的,當(dāng)活躍數(shù)據(jù)超過dax window ,產(chǎn)?很多的回收?作會(huì)導(dǎo)致性能很差。另外daxwindow的映射單元是按每2MB內(nèi)存??映射的,具體來說就是由512個(gè) struct page (one structpage for each 4K range) 和?個(gè) struct fuse_dax_mapping 。每個(gè)單元映射范圍?約需要消耗32K額外內(nèi)存。?如1GB of dax window: 512 * 32K = 16MB of memory usage.
同時(shí)還觀察到virtiofsd占?內(nèi)存很?,?如本實(shí)例qemu-system-x86_64 rss 內(nèi)存3.1G,virtiofsd rss1.6G,?產(chǎn)中對資源的控制需要細(xì)節(jié)控制。
總結(jié)
kata container 還是?項(xiàng)?較復(fù)雜的技術(shù)組合,實(shí)踐?檔較少,有問題要不就是求教于社區(qū),要不就得翻源碼,源碼牽涉到linux kernel,qemu/kvm,fifilesystem,內(nèi)存映射,容器等多種技術(shù),?且還是?較新的技術(shù)。但云原?安全?是未來越來越受到重視的領(lǐng)域,極?影響業(yè)務(wù)容器化的決策。希望?業(yè)能更多的參與到安全容器上來,增加實(shí)踐場景,暢快投?云原?的懷抱。
-
數(shù)字化
+關(guān)注
關(guān)注
8文章
9287瀏覽量
63089
發(fā)布評論請先 登錄
匯川技術(shù)蒞臨華電物資交流訪問
洲明科技與富士康云智匯科技深化合作
匯川技術(shù)亮相西班牙先進(jìn)工廠技術(shù)展
匯川技術(shù)年產(chǎn)40萬臺機(jī)器人生產(chǎn)基地投產(chǎn)
匯川技術(shù)南京基地正式投產(chǎn)
匯川技術(shù)與蒂森克虜伯共探新能源汽車測試領(lǐng)域合作
研華iMachine設(shè)備云智聯(lián)系統(tǒng)在煤礦行業(yè)的應(yīng)用案例
欣宏泰與匯川技術(shù)達(dá)成戰(zhàn)略合作
華為云 X 實(shí)例 CPU 性能測試詳解與優(yōu)化策略

匯川技術(shù)與華工科技達(dá)成戰(zhàn)略合作
億華云服務(wù)器怎么樣靠譜嗎?
億華云-互聯(lián)網(wǎng)基礎(chǔ)應(yīng)用云服務(wù)提供商

評論