ESXi安装k8s集群

最近ESXi 虚拟机安装完毕，开始折腾k8s集群。

我先安装了Debian 11（bullseye），但是里面的软件比如containerd都很老了，只能跑1.4.3没办法设定指定镜像，换成Debian 12和Ubuntu 22.04都有网络没办法互通的问题……怎么改iptables都不行，只好用Fedora 36。这下才终于成功了，下面记录一下我遇到的坑。

~~首先对某墙只想唱：“听我说，谢谢你”~~，大家安装过程可以用阿里云的镜像。官方文档https://kubernetes.io/docs/setup/production-environment/tools/kubeadm/install-kubeadm/ 其实已经非常全面和详细了，不要漏了任何一步，我就漏了加载overlay 模块导致的集群起不来的尴尬……

给路由器配置了自动DHCP，这样局域网里可以直接用fed-k8s-master这种域名访问了。

Fedora登入后第一步就是设置机器名称

hostnamectl set-hostname fed-k8s-master

然后是系统配置，比如必要的内核模块，sysctl一些东西，fedora还有个问题，就是要关掉防火墙

cat <<EOF | sudo tee /etc/modules-load.d/k8s.conf
overlay
br_netfilter
EOF

sudo modprobe overlay
sudo modprobe br_netfilter

# sysctl params required by setup, params persist across reboots
cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-iptables  = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward                 = 1
EOF

# Apply sysctl params without reboot
sudo sysctl --system
sudo systemctl stop firewalld && sudo systemctl disable firewalld
sudo dnf remove zram-generator-defaults

# Set SELinux in permissive mode (effectively disabling it)
sudo setenforce 0
sudo sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config

接着配置k8s fedora源，记得把里面的proxy换成你科学上网用的（用aliyun的也问题不大，就是我不太喜欢……）

cat <<EOF | sudo tee /etc/yum.repos.d/kubernetes.repo
[kubernetes]
name=Kubernetes
baseurl=https://packages.cloud.google.com/yum/repos/kubernetes-el7-\$basearch
enabled=1
gpgcheck=1
gpgkey=https://packages.cloud.google.com/yum/doc/yum-key.gpg https://packages.cloud.google.com/yum/doc/rpm-package-key.gpg
exclude=kubelet kubeadm kubectl
proxy=<你的代理地址>
EOF

sudo yum install -y kubelet kubeadm kubectl containerd iproute-tc --disableexcludes=kubernetes
sudo systemctl enable --now kubelet containerd

接下来就是配置containerd，这里有3个坑：

一个是cgroup driver要配置成systemd
runtime 的type 得手动配置
还有就是坑爹的sandbox镜像源（可以理解成占位）

最后使用的配置文件就是：/etc/containerd/config.toml

version = 2

[plugins]
  [plugins."io.containerd.grpc.v1.cri"]
    sandbox_image = "registry.aliyuncs.com/google_containers/pause:3.6"
    [plugins."io.containerd.grpc.v1.cri".cni]
      bin_dir = "/usr/libexec/cni/"
      conf_dir = "/etc/cni/net.d"
  [plugins."io.containerd.internal.v1.opt"]
    path = "/var/lib/containerd/opt"
  [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
    runtime_type = "io.containerd.runc.v2"
    [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
      SystemdCgroup = true

开始初始化master control-plane（控制面主机）,10.0.0.39 改成你自己的主机ip

kubeadm init --apiserver-advertise-address 10.0.0.39 --image-repository registry.aliyuncs.com/google_containers

执行成功会返回一个token

kubeadm join 10.0.0.39:6443 --token xlstub.uvzof5s4mz504ev1 \
--discovery-token-ca-cert-hash sha256:9cc767e5d1e2f2707d4e1f5a1270c569aeca3a49185aa591a9d2142f8d352198

先拷下来，然后不管他，因为我们还需要CNI（container network interface），简单来说就是容器间互相访问的网络，我这里选了flannel，下载flanneld二进制，并应用配置

mkdir -p /opt/bin && wget https://github.com/flannel-io/flannel/releases/download/v0.19.0/flanneld-amd64 -O /opt/bin/flanneld
kubectl apply -f https://raw.githubusercontent.com/flannel-io/flannel/master/Documentation/kube-flannel.yml

这里也有个坑：不管是coredns还是flanneld都一直起不来。其实就是k8s的一个bug……效果是

[root@fed-k8s-master ~]# kubectl get pods --all-namespaces
NAMESPACE      NAME                                     READY   STATUS              RESTARTS        AGE
kube-flannel   kube-flannel-ds-95sv7                    0/1     CrashLoopBackOff    7 (3m52s ago)   15m
kube-flannel   kube-flannel-ds-qjjcn                    0/1     CrashLoopBackOff    7 (3m36s ago)   15m
kube-system    coredns-74586cf9b6-fkd5x                 0/1     ContainerCreating   0               79m
kube-system    coredns-74586cf9b6-ktvk7                 0/1     ContainerCreating   0               79m
kube-system    etcd-fed-k8s-master                      1/1     Running             0               79m
kube-system    kube-apiserver-fed-k8s-master            1/1     Running             0               79m
kube-system    kube-controller-manager-fed-k8s-master   1/1     Running             0               79m
kube-system    kube-proxy-cl2l6                         1/1     Running             0               79m
kube-system    kube-proxy-llln9                         1/1     Running             0               30m
kube-system    kube-scheduler-fed-k8s-master            1/1     Running             0               79m

要是crictl logs 看为啥起不来，就会发现：

I0721 03:54:55.082767       1 match.go:206] Determining IP address of default interface
I0721 03:54:55.083292       1 match.go:259] Using interface with name ens192 and address 10.0.0.39
I0721 03:54:55.083350       1 match.go:281] Defaulting external address to interface address (10.0.0.39)
I0721 03:54:55.083485       1 vxlan.go:138] VXLAN config: VNI=1 Port=0 GBP=false Learning=false DirectRouting=false
E0721 03:54:55.084170       1 main.go:330] Error registering network: failed to acquire lease: node "fed-k8s-master" pod
 cidr not assigned
I0721 03:54:55.084272       1 main.go:447] Stopping shutdownHandler...
W0721 03:54:55.084438       1 reflector.go:436] github.com/flannel-io/flannel/subnet/kube/kube.go:403: watch of *v1.Node
 ended with: an error on the server ("unable to decode an event from the watch stream: context canceled") has prevented
the request from succeeding

这是个k8s的bug ！，需要手动调整/etc/kubernetes/manifests/kube-controller-manager.yaml 这个文件，加上这两个选项……

--allocate-node-cidrs=true
--cluster-cidr=10.244.0.0/16

重启kubelet，master就配置好了。

在另一台一样配置好的fedora机器上，执行刚才的join命令，这样，一个简单的集群就配置好了

在Hifive unmatched上安装FreeBSD

发表评论

最近手痒想试试FreeBSD，正好FreeBSD ports 也在找一台builder，吴老板给我凑了2台Unmatched 跑Linux的Go builder，所以我这台就空出来了~

其实按着官方的教程就好，官方教程：https://wiki.freebsd.org/riscv/HiFiveUnmatched

不过要注意2点！！（花了我两个晚上），一切的错误都从我没仔细看教程开始……第一个错误是直接把FreeBSD的镜像直接烧进了SD卡里！然后以为这就行了~结果发现，其实Unmatched的固件决定了必须从SD上特定的分区才能启动！所以直接烧进SD卡里，应该是根据教程写进一个U盘里。

也就是一共需要三个东西：

装有原生镜像的sd卡
dd有FreeBSD memstick image的U盘
一个空的nvme （三星970最好）

诡异的是，重新给SD卡烧录了Ubuntu的镜像，系统nvme就因为找不到root直接进（initramfs)了。

我脑子抽了就直接用SD卡里的Ubuntu shell 直接 dd if=/dev/zero of=/dev/nvme0n1 …… 想通过干掉分区表（GPT）来阻止从nvme启动。结果噩梦就开始了，SD卡里的Ubuntu怎么都找不到nvme和U盘了。折腾了一晚没啥收获，第二天不停的重启和对比才发现。UBoot启动的过程中需要启动pci！要不然你怎么执行命令启动USB都是不行的，usb start 就会报错 no working controllers found

所以正确的做法是，在U-boot自动启动过程中先启动pci 子系统

pci enum
setenv boot_targets usb0
boot

最后就是标准的FreeBSD安装流程了~ yes~

Go团队如何解bug[1]: 乱序执行与内存屏障

发表评论

开篇前言

Go项目在发展过程中有过许许多多的bug，核心开发组在解决bug的时候有各种各样的方法，涉及的知识点都很值得学习。
我觉得这些都挺值得跟大家分享，也希望做成一个不鸽系列。

正题

Issue地址：issues/35541

开发：Cherry Zhang， Michael Knyszek

这个bug是由Go的自动构建机器linux-mipsle-mengzhuo在日常测试过程中首次发现的，
表现是某个对象里的指针指向了一个不存在的span上，导致runtime panic。

Cherry根据经验判断出这个span类型是goroutine用的，并且贴出了对应的对象映射（如下）

object=0xc000106300 s.base()=0xc000106000 s.limit=0xc000107f80 s.spanclass=42 s.elemsize=384 s.state=mSpanInUse
*(object+0) = 0xc00052a000 g.stack.lo
*(object+8) = 0xc000532000 g.stack.hi
*(object+16) = 0xc00052a380 g.stackguard0 = g.stack.lo + _Stackguard = g.stack.lo + 896
*(object+24) = 0xffffffffffffffff g.stackguard1
*(object+32) = 0x0 g._panic
*(object+40) = 0xc0005313e0 <== // 故障点 g._defer
*(object+48) = 0xc000080380 g.m
*(object+56) = 0xc0005310b8 g.sched.sp
*(object+64) = 0x87038 g.sched.pc
*(object+72) = 0xc000106300 g.sched.g

虽然Cherry没有明说如何判断出是goroutine，但其中的偏移量24字节处的数据正好是64位的满位，
看起来确实像一般的goroutine的stackguard1 （malg时分配的）

这个bug奇怪的地方在于不是必现，是在不同的函数，时不时runtime panic, 而且出问题的span有时是在用的，有时又是废弃的。
更奇怪的是，RTRK（塞尔维亚的一家科研机构）提供的MIPS构建机从来都没有出现过一次类似原因的runtime panic。

一开始，开发组认为是MIPS的问题，时间长了，发现还有plan9-arm,
darwin-arm64-corellium这两个架构也出现了类似问题，然而出现的频率远不如MIPS高。
因为没有有效解，几乎每周Bryan Mills（负责Go开发质量的工程师）都会在Github Issue中填上新增的panic日志地址，最后他也嫌烦了……

脑袋疼.jpg

问题定位

事情的转机是我有一次debug过程中，发现runtime有个测试函数TestDeferHeapAndStack 总是会引发这个panic。
而在Go项目的自动化整体测试中，为了测试尽快完成，通常速度慢的机器都会选择short mode，
而恰好这个short mode不会导致panic。

本身这个测试也很有意思，因为编译器只会把函数作用域中无指针的defer分配在stack上，而循环体中的defer就会分配在heap中。

测试用例如下：

func deferHeapAndStack(n int) (r int) {
if n == 0 {
return 0
}
if n%2 == 0 {
// heap-allocated defers
for i := 0; i < 2; i++ {
defer func() {
r++
}()
}
} else {
// stack-allocated defers
defer func() {
r++
}()
defer func() {
r++
}()
}
r = deferHeapAndStack(n - 1)
escapeMe(new([1024]byte)) // force some GCs
return
}

我尝试着自己修复这个bug，然而失败了，不过既然可以稳定重现，那可以帮助核心团队来bisect这个bug。

这个技能是从Austin（Go runtime leader）学来的（他如何从Go定位Linux bug正好可以写下一期哈）。

因为这个bug是从1.13之后才有的，所以我选择了HEAD 和 go1.13.9之间开始定位。

$ git bisect HEAD go1.13.9
$ git bisect run ./test.sh // 就是跑上面deferTest的脚本

最后发现是runtime: rearrange mheap_.alloc* into allocSpan这个commit导致了bug。

修复方法

Cherry在和Michael聊这个bug之后发现在allocSpan的过程中由于缺了一个内存屏障（memory barrier），
在弱内存顺序模型的机器上这个bug会随机出现。以下是她的修复commit：

When copying a stack, we
1. allocate a new stack,
2. adjust pointers pointing to the old stack to pointing to the
new stack.
If the GC is running on another thread concurrently, on a machine
with weak memory model, the GC could observe the adjusted pointer
(e.g. through gp._defer which could be a special heap-to-stack
pointer), but not observe the publish of the new stack span. In
this case, the GC will see the adjusted pointer pointing to an
unallocated span, and throw. Fixing this by adding a publication
barrier between the allocation of the span and adjusting pointers.
One testcase for this is TestDeferHeapAndStack in long mode. It
fails reliably on linux-mips64le-mengzhuo builder without the fix,
and passes reliably after the fix.

简单翻译一下：

当拷贝一个栈数据（stack）时，我们先：
1. 申请一个新的栈空间
2. 将老的栈上的指针（pointer）从老栈指向新栈上。
如果此时在另一个线程并行地执行着GC（垃圾回收），且架构是弱内存顺序模型时，GC可以观察到指针的调整
（例如： gp._defer 就是一个特殊的 heap-to-stack 指针），但是观察不到新的栈分配。
这时GC就会观察到指针分配到了一个没有分配的空间中。
我们通过在分配和调整指针之间添加内存屏障（memory barrier）来修复这个bug。

代码就更简单了，只是在allocSpan的过程中添加了一个函数publicationBarrier()。

什么是内存顺序模型可以参考这个系列的文章《Memory Barriers Are Like Source Control Operations》。

X86没有问题，是因为强内存模型保证了每个写入操作的顺序能在各个CPU之间保证同步。
而弱内存模型就没有保证这点，所以强制sync

等等，你问为啥ARM没有这个问题？这是玄学（划掉
因为ARM虽然是弱内存模型，但是保证了“Data dependency barrires”

所以以后碰到诡异的多线程问题，就先sync（手动狗头

那么什么是内存顺序模型？

咕咕咕……回头再补

多线程问题

MESI

小结

参考资料

[^1] https://blog.golang.org/ismmkeynote
[^2] https://www.ardanlabs.com/blog/2018/12/garbage-collection-in-go-part1-semantics.html
[^3] https://zhuanlan.zhihu.com/p/48157076

龙芯 & Golang！

发表评论

龙芯，不少人都比较陌生，见过的就更少了。

龙芯活着，还在云时代的2019年拯救了一下MIPS这棵34年的枯树。

一点背景故事

事情还要从去18年底，Go的MIPS架构的构建机（builder）集体下线说起。
这里顺便说一下builder的功能，其实就是Go在验证各个平台兼容性用的机器，
主要是各大公司和志愿者捐赠的，绝大部分是国内开发者很少见的PowerPC、ARM、S390X这类ISA，
操作系统更多，具体可以看看build.golang.org

19年4月时，
Go核心团队的Bradfitz发现ImgTec负责的mips、
mipsle、mips64le、mips64（大小端/32/64位）四种机型的builder已经下线半年多了，
根据Go的平台支持条件要求，任何一个架构+操作系统组合都需要有验证机型，否则就要踢出Go的支持列表。
所以Bradfitz发邮件给ImgTec维护者，
收到的只有查无此人的自动回复，
他觉得是这哥们离职的原因，
但实际上是2017年底的时候MIPS背后的ImgTec把MIPS卖了……这些builder竟然还多撑了一年。

大概同时，我从国内Go开发大牛Ben那里获得了一台龙芯3A1500，
这台机器是龙芯团队希望能有人维护Go MIPS，毕竟Go已经是云时代的C了，
不少服务是运行在Go的runtime上的，
另一方面docker已经成了事实标准，龙芯云也是基于docker的。
所以把机器寄给了Ben，但Ben忙于工作，我又喜欢多管闲事性能优化……于是我愉快地收下了这台3A1500。

Loongson 3A1500

不过这台机器可能因为暴力的快递摔坏了，一直点不亮，我只好退给了Ben，
从龙梦公司通过古老的转账汇款方式买了一台3A3000。

就在我搜索MIPS可优化点的时候，发现了MIPS要被踢出去的帖子，
所以我回帖说可以让我的这台龙芯替代ImgTec做builder。
经过自己

龙芯的builder: linux-mipsle-mengzhuo终于上线了。(名字不是我挑的）
具体的申请builder的wiki可以看这里

龙芯Go现状

毕竟3A3000是16年的CPU，加上是1.5Ghz/8KB L3 Cache/28nm 制程自然也不能和Intel、AMD比。

其他问题嘛……

Unalign access penalty，没有Hyper Threading，SIMD支持也几乎没有。
就算这么多缺陷，龙芯也是目前市面上零售方式能买到的唯一的MIPS架构的CPU了，
MIPS新东家Wave computing是搞AI的，不知道买MIPS来干嘛，架构不发展，只是
开源了r6架构，但是看官网制程还是28nm的……
所以可以说龙芯是MIPS，这个1985年就出现的架构最后脸面了（欢迎打脸）。

大家可以看看龙芯的cpuinfo哈

Linux ls-3a3k 4.19.53+ #1 SMP PREEMPT Wed Jul 10 15:12:52 UTC 2019 mips64 mips64 mips64 GNU/Linux
system type : generic-loongson-machine
machine : loongson,generic
processor : 0
cpu model : Loongson-3 V0.13 FPU V0.1
model name : Loongson-3A R3 (Loongson-3A3000) @ 1450MHz
CPU MHz : 1450.00
BogoMIPS : 2887.52
wait instruction : yes
microsecond timers : yes
tlb_entries : 1088
extra interrupt vector : no
hardware watchpoint : yes, count: 0, address/irw mask: []
isa : mips1 mips2 mips3 mips4 mips5 mips32r1 mips32r2 mips64r1 mips64r2
ASEs implemented : dsp dsp2 vz
shadow register sets : 1
kscratch registers : 6
package : 0
core : 0
VCED exceptions : not available
VCEI exceptions : not available

说到Go在龙芯上的实际性能，通过观察，大概比PPC64、ARM这些builder快点，
Go所有源代码编译+测试一次大概要耗时25分钟左右。

不过我发现不少性能关键路径上的代码甚至都没按一台正常的64位机器写，
而是明显的“能用”的状态，可能和Minux和Cherry移植的时候先让MIPS架构能跑起来有关。
更要命的是，Go不知道为啥，最小版本要求竟然是MIPS III（1993年发布），
想在Go上用常见的优化指令，比如count leading zero(CLZ)，
conditional move (CMOV.CON)，
BSWAP ( ROR DSHB )
prefech统统都不行……

不过我还是提交了一些优化的CL，平时还要忙无聊的工作，精力有限，目前只有:

internal/bytealg: (re)adding mips64x compare implementation: bytes测试时间直接从100秒降到10秒
bytes: add endian base compare test (上面CL发现了一个Go标准库测试的漏洞)

未来的展望

如果我能多提交一些bytealg，syscall，SSA相关优化之后应该就能更快点，
就算没有向量优化，硬件指令集，至少总体性能也应该能提升30%左右。
国内我知道在优化的人也就Xenon一个了，如果你也有兴趣搞龙芯Go优化的欢迎联系我。

有可能的话，我也想尽可能地推动核心团队提升Go MIPS的版本，MIPS III 实在是太老了。

同时我也希望各位开发们能借着“国产化”的春风，在工作中多用国产CPU，帮助提升性能，
丰富一下生态，多影响一下上游。至少不是做个冷嘲热讽的键盘侠。顺便祈祷MIPS的新东家Wave computing
不要再搞什么幺蛾子把MIPS真的送进博物馆里了。

最后附上这台builder的样子，毕竟应该是国内第一台在Go项目里的服务器。

LS 3A3K

Go Contributor Summit 2019参会记

发表评论

今年有幸去美国圣地亚哥参加了Go Contributor Summit 2019，主要是Go的代码贡献者和核心开发团队在一起讨论关于Go相关的话题。

紧跟着的GopherCon也是第一次换城市到了圣地亚哥，还在中途岛号航母（USS Midway）上搞了欢迎party，真是毕生难忘了。

破冰环节

刚进门，就发现Russ Cox站在门口，跟他打了打招呼，顺便吐槽了一番他的范型设计在国内引起的巨大讨论，不过大佬很快就被其他人抓去讨论别的话题了。
这时热情的Joe Tsai（Protobuf维护者）跟我打招呼，然后给我介绍他认识的Google同事，
但毕竟是大型网友见面会，除了Github上见过照片的，基本都名字对不上脸，大家很腼腆，当然也有像Möhrmann（Google SRE）热心地跑来跑去介绍自己的人。

这么尴尬怎么玩？没事，Google组织方已经想好了，接下来就是破冰环节。

图1: 会议日程表，左spf13 右rsc

其实很简单，就是一桌人按生日的月排序，小的介绍大的。介绍内容除了名字公司以外还要介绍个自己的fun fact，这下真难倒我了，
幸好我的介绍人Julie Qiu（Go文档维护）给我想到了一个，坐了14个小时的飞机第一次来美国（虽然我没get到fun是啥……
轮到我介绍了，正好介绍的是Joe，他的fun fact是一家3姐弟都在Google上班，又一次没get到。
最让我震惊的是Cherry Zhang（ARM/MIPS 维护者）是个妹子！主要是看代码和说话风格，感觉都是个男的，轮到她介绍的时候了才发现是个妹子。

因为是贡献者大会，所以主办方希望大家自选话题并分组讨论各自感兴趣的话题。
大家先头脑风暴，讲出了自己关心的话题，然后经过投票之后，上午的话题分成以下4组：

编译器
范型和错误处理
社区相关问题，发展和规划
工具相关问题，proxy mod这类

讨论环节

每个组讨论都要选一个负责人来组织讨论，防止一言堂，然后有个两个志愿者来记录一下大家说的话题。
我参加了编译器组，见识到了Keith Randell（编译器维护），Austin Clements（编译器组负责人）和其他大牛们讨论的问题：

SSA更加激进地向量优化还是直接提供向量优化包x/vector
怎么让不同架构兼容互通，可以再增加一层高等汇编，白胡子的David Chase(编译器维护)就吐槽当年Sun就类似的替换机制，不过Google的核心开发们纷纷表示没有精力搞。
编译器如何识别用户的可优化Loop pattern，例如for range byte并xor，组里决定还是先试试x/vector
goroutine如何绑定CPU核，这里Keith说其实有试验过，很多地方需要调优，但是组内人力实在是不够
增添FDO（feeback-directed optimization）记录运行时数据，形成一个优化profile文件，给下一次编译时提供一个参考。
内部ABI文档构建，Austin说其实Go的ABI已经稳定了，现在就缺人手搞。
添加一个可选参数，把编译时数据发送给Google，好让他们优化（大家纷纷吐槽各种隐私问题

后来的事实证明，我适合去社区相关组，毕竟我在组里几乎没发言，而我又是唯一一个从中国来的开发者，而Go的核心团队相当关心Go在中国的发展。

图2：社区组讨论如何提Bug和proposal，大佬云集

杂事体会

国外开会真心体验到了什么叫人性化，每40分钟就停下来休息，然后每2次休息就有茶歇。这样开会一点都不累。
由于是Contributor Summit，所以是管午饭的，吃的嘛……真不敢恭维，都是三明治+沙拉。
在午饭时，Joe Tsai跟我聊了聊中国用户时怎么使用文档的，我跟他说大家基本都能看懂英语的或者代码，
所以一般不用操心中国用户看文档，当然也聊了protobuf维护的坑啊，中国美国社会、政治问题之类的。
期间还有些其他开发者看到我衣服上的公司名字，跑过来问某鹅怎么用Go啊，中国开发者怎么盗用weather.com的API的这类的事。

还有就是我真心不建议英语不好的朋友来参加，我雅思听力6.5、平时基本能不看字幕看美剧也扛不住各种口音的攻击，特别是8小时的大型听力考试+技术能力考试+时差，
脑子基本转不动了，而且很多俚语和文化确实需要浸入式地学习才能了解，出现了几次全场大笑，我还很懵逼的状态。

总体还是收获特别大，不仅是跟一堆核心开发面对面，而且还认识了不少好朋友哈～