12月 132012
 

这两个从一定程度上都可以反映一台机器的繁忙程度.

cpu使用率反映的是当前cpu的繁忙程度,忽高忽低的原因在于占用cpu处理时间的进程可能处于io等待状态但却还未释放进入wait。

平均负载(load average)是指某段时间内占用cpu时间的进程和等待cpu时间的进程数,这里等待cpu时间的进程是指等待被唤醒的进程,不包括处于wait状态进程。

以上分析可以看出,一台机器很有可能处于低cpu使用率高负载的情况,因此看机器的繁忙程度应该结合两者,从实际的使用情况观察 Continue reading »

12月 132012
 

昨天查看Nagios警报信息,发现其中一台服务器CPU负载过重,机器为CentOS系统。信息如下:

2011-2-15 (星期二) 17:50WARNING - load average: 9.73, 10.67, 10.49

还有前两个小时发出的警报信息:
2011-2-15 (星期二) 16:50WARNING - load average: 10.52, 10.10, 10.06
2011-2-15 (星期二) 15:40WARNING - load average: 8.27, 9.23, 9.48

一、警报信息的三个参数到底是什么意思?

9.73、10.67、10.49分别代表前一分钟,五分钟,十五分钟的平均CPU负载,最重要的指标是最后一个数字,即前15分钟的平均CPU负载,这个数字越小越好。所谓CPU负载指的是一段时间内任务队列的长度,通俗的讲,就是一段时间内一共有多少任务在使用或等待使用CPU。 Continue reading »