Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

failover controller 的 rpc timeout 超过 45 秒后会触发主备切换,也会延迟服务的恢复时间。由于监控告警,问题可能会更严重些。秒后会触发主备切换,也会延迟服务的恢复时间。由于没有监控告警,实际上问题可能会更严重些。

分析原因

进程内存已经被同事调整过,分配 200G 内存,并设置 ParNew 为 16 G,加了一些优化的 GC 配置。虽然 namenode 有超过 5 亿个文件对象,内存压力比较大,但是还是不至于有这么大的阻塞问题。

...

最初我监控的是 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getContentSummary,发现很多长时间函数调用,所以没有能够定位到具体的调用。

从另一个角度来说,平均 RPC 调用处理时长 这个数据其实并不太能可靠的反应 处理时间 这个数据其实并不太能可靠的反应 namenode 的运行状况,单个类型的 rpc 调用的处理时长更能反应问题。

...