1. 问题背景本文是由字节跳动系统部 STE 团队出品的“kernel trace tools”系列文章之一,以介绍团队自研多类延迟问题追踪工具。
在实际工作中,会遇到由于内核态不调度而引发的高网络延迟或者卡顿问题。但是,对于该类问题的定位和追踪缺乏行之有效的方案或客观依据,需要耗费大量时间和精力用于问题排查,trace-noschedule 工具便是在该背景下诞生的自研工具。
目前,trace-noschedule 已开源,感兴趣详见 Open Source Repo:
(https://github.com/bytedance/trace-noschedule)
在实际项目实践中,我们经常会遇到延迟高导致的问题。由于我们服务器的内核默认配成内核态不支持抢占,因此不抢占这点也是可能导致问题的原因之一。例如 A 进程陷入内核态执行时间过长,必然影响其他希望在该核运行的进程。此时就会导致调度延迟。针对这种 case,我们开发了一款工具专门跟踪陷入内核态长时间不调度的进程。这对于我们排查问题可以有一定的指导方向。同时如果是此类原因导致的延迟,也可以快速定位问题原因。
2. 我们想做什么当一个进程陷入内核态时,我们应该记录其时间戳。当离开内核时,再一次记录时间戳。然后求差值即可得到进程在内核态运行的时间。思路比较清晰。
3. 如何实现我们知道应用程序陷入内核态的方式主要是系统调用。我们是否可以通过系统调用提供的 tracepoint 完成呢?当系统调用开始,记录时间戳,系统调用退出,再次记录时间戳。求差值,就是本次系统调用花费的时间。这种方法是否可靠?很明显不可靠。因为进程在内核态很可能由于资源不满足导致主动 schedule。这种情况下,根本不是一直占用 CPU 不调度的情况。因此,这种方法不可行。
既然系统调用这条路走不通,我们就换一种方式。我们知道一个线程执行的生命周期,起于 schedule,止于 schedule。所以我们可以知道一个线程从开始执行到主动或被动放弃 CPU 之间的时间差。这部分时间是总时间,即 user kernel 的时间。我们是否有办法获取总时间呢?很幸运我们有 schedule 的 tracepoint 可以获取。
static void __sched notrace __schedule(bool preempt)
{
/* ... */
trace_sched_switch(preempt, prev, next);
/* ... */
}
我们只需要 enable sched_switch 即可获取每个线程执行的总时间。是不是激动的心,颤抖的手,是不是马上想用 bcc 行动了?但是有个新的问题摆在我们面前,如何过滤掉 user 态执行的时间?因为用户态支持抢占,内核态不支持抢占。所以统计内核态的时间才是有意义的。
过滤用户态执行时间可以间接的通过定时器实现。我们知道周期性定时中断,可以获取被打断的上下文是用户态或者内核态。所以开始时间戳 last 需要不断的更新。第一次是从 schedule 开始,后面每次更新是在定时器中断中,如果发现当前中断是打断的用户态,那么更新 last 时间戳,否则不更新。此刻认为用户线程在内核态执行。我们看下示例代码。
static enum hrtimer_restart trace_nosched_hrtimer_handler(struct hrtimer *hrtimer)
{
/*
* Skip the idle task and make sure we are not only the
* running task on the CPU. If we are interrupted from
* user mode, it indicate that we are not executing in
* the kernel space, so we should also skip it.
*/
if (!is_idle_task(current) && regs && !user_mode(regs) &&
!single_task_running()) {
/* The kernel mode */
/*
* If the execution time exceeds the threshold, record
* the call trace.
*/
} else {
/* The user mode */
stack_trace->last_timestamp = now;
}
}
我们看到不更新时间戳的条件比较苛刻。主要考虑以下几种情况:
我们再看下 tracepoint 的 hook 函数实现。
static void probe_sched_switch(void *priv, bool preempt,
struct task_struct *prev,
struct task_struct *next)
{
u64 now = local_clock();
u64 last = cpu_stack_trace->last_timestamp;
cpu_stack_trace->last_timestamp = now;
/*
* Skip the idle task and make sure we are not only the
* running task on the CPU.
*/
if (!is_idle_task(prev) && !single_task_running())
hist_update(cpu_stack_trace, now - last);
}
记录时间差值,差不多可以认为是内核态执行的时间。当操作设定阈值,我们更新柱状图统计计数。
4. 如何安装安装 trace-noschedule 工具很简单,git clone 代码后执行如下命令即可安装。
make -j8
make install
5. 如何使用
安装 trace-noschedule 工具成功后。会创建如下 /proc/trace_noschedule 目录。
root@n18-061-206:/proc/trace_noschedule# ls
distribution enable stack_trace threshold
/proc/trace_noschedule 目录下存在 4 个文件,分别:distribution, enable, stack_trace 和 threshold。工具安装后,默认是关闭状态。
5.1 打开 tracer
执行以下命令打开 tracer。
echo 1 > /proc/trace_noschedule/enable
5.2 关闭 tracer
执行如下命令关闭 tracer。
echo 0 > /proc/trace_noschedule/enable
Note: debug 问题后请记得关闭 tracer。因为模块内部实现基于 sched tracepoint,overhead 不能忽略。
5.3 设置阈值
trace_noschedule 只会针对内核态执行时间超过阈值不调度的进程记录 stack trace。为了更高效的运作,我们有必要设定一个合理阈值。例如设置 60ms 的阈值(单位:ns):
echo 60000000 > /proc/trace_noschedule/threshold
5.4 查看内核态长时间未调度进程执行的时间分布。
root@n18-061-206:/proc/trace_noschedule# cat distribution
Trace noschedule thread:
msecs : count distribution
20 -> 39 : 1 |********** |
40 -> 79 : 0 | |
80 -> 159 : 4 |****************************************|
160 -> 319 : 2 |******************** |
在内核态有 4 次执行时间在[80, 159]ms 范围内没有调度。
5.5 是谁占用 CPU 不调度
stack_trace 记录占用 CPU 时间超过阈值不调度进程的栈。
root@n18-061-206:/proc/trace_noschedule# cat stack_trace
cpu: 0
COMM: sh PID: 1270013 DURATION: 100ms
delay_tsc 0x21/0x50
nosched_test_write 0x53/0x90 [trace_noschedule]
proc_reg_write 0x36/0x60
__vfs_write 0x33/0x190
vfs_write 0xb0/0x190
ksys_write 0x52/0xc0
do_syscall_64 0x4f/0xe0
entry_SYSCALL_64_after_hwframe 0x44/0xa9
这是个内核态测试的 case,在内核态执行 mdelay(100)占用 CPU 100ms 不调度。此时记录的栈如上面所示。"DURATION"记录的就是执行持续时间。
5.6 清除 stack trace
如果我们需要清除 stack trace 记录的信息(stack trace buffer 是有大小限制的,必要的时候需要 clear)。
echo 0 > /proc/trace_noschedule/stack_trace
6. 案例展示
这里以一个实际问题带你了解工具的使用。问题是背景是,业务发现 docker 好像有问题,pull 不下来镜像。登录机器会卡顿,执行很多命令也会卡顿。
6.1 首先看下 CPU 使用情况。
有几个 CPU 100%,而且还是 sys 态使用。系统究竟在干吗?
6.2 使用 perf 工具
使用 perf top 看下 CPU 情况,发现 60%左右的时间在 spinlock 上。但是没看出内核哪个路径的 spinlock。使用 trace-noschedule 工具看看是否有发现。
6.3 trace-noschedule 跟踪
root@n131-103-013:/proc/trace_noschedule# cat distribution
Trace noschedule thread:
msecs : count distribution
20 -> 39 : 760 |****************************************|
40 -> 79 : 488 |************************* |
80 -> 159 : 73 |*** |
内核态长时间未调度,而且时间很长。看下工具记录的栈信息,截取如下:
COMM: runc PID: 499045 DURATION: 75ms
native_queued_spin_lock_slowpath 0x112/0x190
_raw_spin_lock 0x1d/0x20
prepend_path 0x266/0x2d0
__d_path 0x4b/0x80
seq_path_root 0x53/0xb0
show_mountinfo 0xb8/0x290
seq_read 0x321/0x3f0
__vfs_read 0x33/0x160
vfs_read 0x91/0x130
SyS_read 0x52/0xc0
do_syscall_64 0x68/0x100
entry_SYSCALL_64_after_hwframe 0x3d/0xa2
COMM: falcon-agent PID: 3002056 DURATION: 114ms
native_queued_spin_lock_slowpath 0x10f/0x190
_raw_spin_lock 0x1d/0x20
prepend_path 0x266/0x2d0
__d_path 0x4b/0x80
seq_path_root 0x53/0xb0
show_vfsmnt 0x7a/0x170
seq_read 0x321/0x3f0
__vfs_read 0x33/0x160
vfs_read 0x91/0x130
SyS_read 0x52/0xc0
do_syscall_64 0x68/0x100
entry_SYSCALL_64_after_hwframe 0x3d/0xa2
说明内核态确实一直在 spin。主要集中在以上两个路径文件的读取。分别是/proc/$pid/mounts和/proc/$pid/mountinfo文件。
6.4 查看 mountinfo 信息
可能是 mount 太多,导致遍历时间很久。而且长时间持锁。
root@n131-103-013:/var/log/atop# mount -v | wc -l
65803
确实很多,65803 多个。大量的/dev/shm 挂载。以下信息只是其中一部分展示。既然知道了问题原因就可以对症下药了,下一步就是排查为什么/dev/shm 挂载很多。这让我们很快定位问题原因。
7. 总结根据字节内部实践来看,trace-noschedule 安装便捷且使用灵活度高,能将问题定位耗时缩短至分钟级别,使用收益可观,并且已经通过该工具定位一些,提高了工作效率。
更多分享字节跳动系统部 STE 团队字节跳动系统部 STE 团队一直致力于操作系统内核与虚拟化、系统基础软件与基础库的构建和性能优化、超大规模数据中心的稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。同时,团队积极关注社区技术动向,拥抱开源和标准。欢迎更多有志之士加入,如有意向可发送简历至 sysrecruitment@bytedance.com。
欢迎关注字节跳动技术团队
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved