JVM性能监控与故障处理工具

引言

在实际生产中,我们经常需要使用适当的监控和分析工具加快分析问题,定位解决问题。本文将介绍一些JVM中的性能监控与故障处理工具,其中大部分都是JDK自带的。采用的实验环境是Linux操作系统,JDK为openjdk 1.8.0_201。

jps:虚拟机进程状况工具

jps(JVM Process Status Tool)除了名字像UNIX的ps命令之外,它的功能也和ps命令类似:可以列出正在运行的虚拟机进程,并显示虚拟机执行主类(Main Class,main函数所在的类)名称以及这些进程的本地虚拟机唯一ID(Local Virtual Machine Identifier,LVMID)。虽然功能比较单一,但它是使用频率最高的JDK命令行工具,因为其他的JDK工具大多需要输入它查询到的LVMID来确定要监控的是哪一个虚拟机进程。对于本地虚拟机进程来说,LVMID与操作系统的进程ID(Process Identifier,PID)是一致的,使用Windows的任务管理器或者UNIX的ps命令也可以查询到虚拟机进程的LVMID,但如果同时启动了多个虚拟机进程,无法根据进程名称定位时,那就只能依赖jps命令显示主类的功能才能区分了。

jsp命令格式:jps [options] [hostid]

我们在本机上执行一下:

1
2
3
4
5
6
/ # jps -l
1 /scheduler.jar
1269 sun.tools.jps.Jps
/ # jps -v
1 jar -Djava.security.egd=file:/dev/./urandom
1302 Jps -Dapplication.home=/usr/lib/jvm/java-1.8-openjdk -Xms8m

主要选项

选项 作用
-q 仅输出VM标识符,不包括class name,jar name,arguments in main method
-m 输出虚拟机进程启动时传递给主类main()函数的参数
-l 输出完全的包名,应用主类名,jar的完全路径名
-v 输出JVM参数
-V 输出通过flag文件传递到JVM中的参数(.hotspotrc文件或-XX:Flags=所指定的文件

jstat:虚拟机统计信息监视工具

jstat(JVM Statistics Monitoring Tool)是用于监视虚拟机各种运行状态信息的命令行工具。它可以显示本地或者远程虚拟机进程中的类装载、内存、垃圾收集、JIT编译等运行数据,在没有GUI图形界面,只提供了纯文本控制台环境的服务器上,它将是运行期定位虚拟机性能问题的首选工具。

jstat命令格式为:jstat[ option vmid [interval[s|ms] [count]] ]

对于命令格式中的VMID与LVMID需要特别说明一下:如果是本地虚拟机进程,VMID与LVMID是一致的,如果是远程虚拟机进程,那VMID的格式应当是:[protocol:][//]lvmid[@hostname[:port]/servername]

参数interval和count代表查询间隔和次数,如果省略这两个参数,说明只查询一次。假设需要每500毫秒查询一次进程3999垃圾收集状况,一共查询10次,那命令应当是:

1
2
3
4
5
6
7
8
/ # jstat -gc 1 500 10
S0C S1C S0U S1U EC EU OC OU MC MU CCSC CCSU YGC YGCT FGC FGCT GCT
4096.0 4096.0 0.0 3328.0 253952.0 133671.7 102912.0 74309.5 77952.0 76822.8 8576.0 8301.2 4885 99.323 5 2.000 101.323
4096.0 4096.0 0.0 3328.0 253952.0 133706.1 102912.0 74309.5 77952.0 76822.8 8576.0 8301.2 4885 99.323 5 2.000 101.323
4096.0 4096.0 0.0 3328.0 253952.0 133706.1 102912.0 74309.5 77952.0 76822.8 8576.0 8301.2 4885 99.323 5 2.000 101.323
4096.0 4096.0 0.0 3328.0 253952.0 133740.6 102912.0 74309.5 77952.0 76822.8 8576.0 8301.2 4885 99.323 5 2.000 101.323
4096.0 4096.0 0.0 3328.0 253952.0 133740.6 102912.0 74309.5 77952.0 76822.8 8576.0 8301.2 4885 99.323 5 2.000 101.323
...

主要选项

选项 作用
-class 监视类装载、卸载数量、总空间以及类装载所耗费的时间。
-gc 监视Java堆状况,包括Eden区、两个survivor区、老年代、永久代等的容量、已用空间、GC时间合计等信息。
-gccapacity 监视内容与-gc 基本相同,但输出主要关注Java堆各个区域使用到的最大、最小空间。
-gcutil 监视内容与-gc基本相同,但输出主要关注已使用空间占总空间的百分比。
-gccause 与-gcuti功能一样,但是会额外输出导致上一次GC产生的原因。
-gcnew 监视新生代GC状况。
-gcnewcapacity 监视内容与-genew基本相同,输出主要关注使用到的最大、最小空间。
-gcold 监视老年代GC状况。
-gcoldcapacity 监视内容与gcold 基本相同,输出主要关注使用到的最大、最小空间。
-gcpermcapacity 输出永久代使用到的最大、最小空间。
-compiler 输出JIT编译器编译过的方法、耗时等信息。
-printcompilation 输出已经被JIT编译的方法。

各命令显示内容含义

  • jstat –class \<pid>:监视类装载、卸载数量、总空间以及类装载所耗费的时间。
    1
    2
    3
    / # jstat -class 1
    Loaded Bytes Unloaded Bytes Time
    12551 24437.3 115 167.4 36.37
显示列名 具体描述
Loaded 装载的类的数量
Bytes 装载类所占用的字节数
Unloaded 卸载类的数量
Bytes 卸载类的字节数
Time 装载和卸载类所花费的时间
  • jstat -gc \<pid>:监视Java堆状况,包括Eden区、两个survivor区、老年代、永久代等的容量、已用空间、GC时间合计等信息。
    1
    2
    3
    / # jstat -gc 1
    S0C S1C S0U S1U EC EU OC OU MC MU CCSC CCSU YGC YGCT FGC FGCT GCT
    4096.0 4096.0 3344.0 0.0 253952.0 177177.3 102912.0 74365.5 77952.0 76822.8 8576.0 8301.2 4894 99.537 5 2.000 101.538
显示列名 具体描述
S0C 年轻代中第一个survivor(幸存区)的容量 (字节)
S1C 年轻代中第二个survivor(幸存区)的容量 (字节)
S0U 年轻代中第一个survivor(幸存区)目前已使用空间 (字节)
S1U 年轻代中第二个survivor(幸存区)目前已使用空间 (字节)
EC 年轻代中Eden(伊甸园)的容量 (字节)
EU 年轻代中Eden(伊甸园)目前已使用空间 (字节)
OC Old代的容量 (字节)
OU Old代目前已使用空间 (字节)
PC Perm(持久代)的容量 (字节)
PU Perm(持久代)目前已使用空间 (字节)
YGC 从应用程序启动到采样时年轻代中gc次数
YGCT 从应用程序启动到采样时年轻代中gc所用时间(s)
FGC 从应用程序启动到采样时old代(全gc)gc次数
FGCT 从应用程序启动到采样时old代(全gc)gc所用时间(s)
GCT 从应用程序启动到采样时gc用的总时间(s)
  • jstat -gccapacity \<pid>:监视内容与-gc 基本相同,但输出主要关注Java堆各个区域使用到的最大、最小空间。
    1
    2
    3
    / # jstat -gccapacity 1
    NGCMN NGCMX NGC S0C S1C EC OGCMN OGCMX OGC OC MCMN MCMX MC CCSMN CCSMX CCSC YGC FGC
    16384.0 262144.0 262144.0 4096.0 4096.0 253952.0 32768.0 524288.0 102912.0 102912.0 0.0 1118208.0 77952.0 0.0 1048576.0 8576.0 4899 5
显示列名 具体描述
NGCMN 年轻代(young)中初始化(最小)的大小(字节)
NGCMX 年轻代(young)的最大容量 (字节)
NGC 年轻代(young)中当前的容量 (字节)
S0C 年轻代中第一个survivor(幸存区)的容量 (字节)
S1C 年轻代中第二个survivor(幸存区)的容量 (字节)
EC 年轻代中Eden(伊甸园)的容量 (字节)
OGCMN old代中初始化(最小)的大小 (字节)
OGCMX old代的最大容量(字节)
OGC old代当前新生成的容量 (字节)
OC Old代的容量 (字节)
PGCMN perm代中初始化(最小)的大小 (字节)
PGCMX perm代的最大容量 (字节)
PGC perm代当前新生成的容量 (字节)
PC Perm(持久代)的容量 (字节)
YGC 从应用程序启动到采样时年轻代中gc次数
FGC 从应用程序启动到采样时old代(全gc)gc次数
  • jstat -gcutil \<pid>:监视内容与-gc基本相同,但输出主要关注已使用空间占总空间的百分比。
    1
    2
    3
    / # jstat -gcutil 1
    S0 S1 E O M CCS YGC YGCT FGC FGCT GCT
    0.00 85.94 38.56 72.31 98.55 96.80 4899 99.659 5 2.000 101.660
显示列名 具体描述
S0 年轻代中第一个survivor(幸存区)已使用的占当前容量百分比
S1 年轻代中第二个survivor(幸存区)已使用的占当前容量百分比
E 年轻代中Eden(伊甸园)已使用的占当前容量百分比
O old代已使用的占当前容量百分比
P perm代已使用的占当前容量百分比
YGC 从应用程序启动到采样时年轻代中gc次数
YGCT 从应用程序启动到采样时年轻代中gc所用时间(s)
FGC 从应用程序启动到采样时old代(全gc)gc次数
FGCT 从应用程序启动到采样时old代(全gc)gc所用时间(s)
GCT 从应用程序启动到采样时gc用的总时间(s)
  • jstat -compiler :输出JIT编译器编译过的方法、耗时等信息。
    1
    2
    3
    / # jstat -compiler 1
    Compiled Failed Invalid Time FailedType FailedMethod
    16516 6 0 371.01 1 com/mysql/jdbc/AbandonedConnectionCleanupThread run
显示列名 具体描述
Compiled 编译任务执行数量
Failed 编译任务执行失败数量
Invalid 编译任务执行失效数量
Time 编译任务消耗时间
FailedType 最后一次编译失败的编译类型
FailedMethod 最后一个编译失败任务所在的类及方法

jinfo:Java配置信息工具

info(Configuration Info for Java)的作用是实时地查看和调整虚拟机各项参数。使用jps命令的-v参数可以查看虚拟机启动时显式指定的参数列表,但如果想知道未被显式指定的参数的系统默认值,除了去找资料外,就只能使用jinfo的-flag选项进行查询了(如果只限于JDK 1.6或以上版本的话,使用java-XX:+PrintFlagsFinal查看参数默认值也是一个很好的选择),jinfo还可以使用-sysprops选项把虚拟机进程的System.getProperties()的内容打印出来。这个命令在JDK 1.5时期已经随着Linux版的JDK发布,当时只提供了信息查询的功能,JDK 1.6之后,jinfo在Windows和Linux平台都有提供,并且加入了运行期修改参数的能力,可以使用-flag [+|-] name或者-flag name=value修改一部分运行期可写的虚拟机参数值。JDK 1.6中,jinfo对于Windows平台功能仍然有较大限制,只提供了最基本的-flag选项。

jinfo命令格式:jinfo [option] [pid]

jmap:Java内存映像工具

jmap(Memory Map for Java)命令用于生成堆转储快照(一般称为heapdump或dump文件)。如果不使用jmap命令,要想获取Java堆转储快照,还有一些比较“暴力”的手段:譬如-XX:+HeapDumpOnOutOfMemoryError参数,可以让虚拟机在OOM异常出现之后自动生成dump文件,通过-XX:+HeapDumpOnCtrlBreak参数则可以使用[Ctrl]+[Break]键让虚拟机生成dump文件,又或者在Linux系统下通过kill -3命令发送进程退出信号“吓唬”一下虚拟机,也能拿到dump文件。

jmap的作用并不仅仅是为了获取dump文件,它还可以查询finalize执行队列、Java堆和永久代的详细信息,如空间使用率、当前用的是哪种收集器等。

和jinfo命令一样,jmap有不少功能在Windows平台下都是受限的,除了生成dump文件的-dump选项和用于查看每个类的实例、空间占用统计的-histo选项在所有操作系统都提供之外,其余选项都只能在Linux/Solaris下使用。

jmap命令格式:jmap [option] [vmid]。

比如我们使用jmap生成一个正在运行的Java应用的dump快照文件,生成的文件可以用Eclipse MAT插件进行分析

jmap -dump:format=b,file=test.hprof 1

主要选项

选项 作用
-dump 生成Java堆转储快照。格式为:-dump:[live,]format=b,file=,其中live子参数说明是否只dump出存活的对象。
-finalizerinfo 显示在F-Queue中等待Finalizer线程执行finalize方法的对象。只在Linux/Solaris平台下有效。
-heap 显示Java堆详细信息,如使用哪种回收器、参数配置、分代状况等。只在Linux/Solaris平台下有效。
-histo 显示堆中对象统计信息,包括类、实例数量和合计容量。
-permstat 以ClassLoader为统计口径显示永久代内存状态。只在Linux/Solaris平台下有效 。
-F 当虚拟机进程对-dump选项没有响应时,可使用这个选项强制生成dump快照。只在Linux/Solaris平台下有效。

jstack:Java堆栈跟踪工具

jstack(Stack Trace for Java)命令用于生成虚拟机当前时刻的线程快照(一般称为threaddump或者javacore文件)。线程快照就是当前虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等都是导致线程长时间停顿的常见原因。线程出现停顿的时候通过jstack来查看各个线程的调用堆栈,就可以知道没有响应的线程到底在后台做些什么事情,或者等待着什么资源。

jstack命令格式:jstack [option] [vmid]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
/ # jstack -l 1
"DiscoveryClient-2" #87 daemon prio=5 os_prio=0 tid=0x00007f5fb4004000 nid=0x67 waiting on condition [0x00007f5fb9cdf000]
java.lang.Thread.State: TIMED_WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x00000005d0d515b8> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2078)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:1093)
at java.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:809)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

Locked ownable synchronizers:
- None
...

主要选项

选项 作用
-F 当正常输出的请求不被响应时,强制输出线程堆栈。
-l 除堆栈外,显示关于锁的附加信息。
-m 如果调用到本地方法的话,可以显示C/C++的堆栈。

参考资料: