...
failover controller 的 rpc timeout 超过 45 秒后会触发主备切换,也会延迟服务的恢复时间。由于监控告警,问题可能会更严重些。秒后会触发主备切换,也会延迟服务的恢复时间。由于没有监控告警,实际上问题可能会更严重些。
平均 RPC 队列和处理时间:队列时间:
分析原因
进程内存已经被同事调整过,分配 200G 内存,并设置 ParNew 为 16 G,加了一些优化的 GC 配置。虽然 namenode 有超过 5 亿个文件对象,内存压力比较大,但是还是不至于有这么大的阻塞问题。
...
最初我监控的是 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getContentSummary,发现很多长时间函数调用,所以没有能够定位到具体的调用。
从另一个角度来说,平均 RPC 调用处理时长 这个数据其实并不太能可靠的反应 处理时间 这个数据其实并不太能可靠的反应 namenode 的运行状况,单个类型的 rpc 调用的处理时长更能反应问题。
...