Make ctdb_diagnostics more resilient to uncontactable nodes.
authorMartin Schwenke <martin@meltin.net>
Fri, 7 Oct 2011 04:00:42 +0000 (15:00 +1100)
committerRonnie Sahlberg <ronniesahlberg@gmail.com>
Thu, 13 Oct 2011 03:27:34 +0000 (14:27 +1100)
commit8c3b6427dbaade87e1a0f5590f0894c2e69b31a3
tree317830b68678d387bd8b9b2c26a6b11fe5e6ca3d
parent137299fadd0537612701c5902517857028236ed7
Make ctdb_diagnostics more resilient to uncontactable nodes.

Current behaviour is for onnode to timeout (for about 20s) for each
attempted ssh to a down node.  With 40 or 50 invocations of onnode
this takes a long time.

2 changes to work around this:

* If EXTRA_SSH_OPTS (which is passed to ssh by onnode) does not
  contains a ConnectTimeout= setting then add a setting for a 5 second
  timeout.

* Filter the nodes before starting any diagnosis, taking out any "bad
  nodes" that are uncontactable via onnode.

  In the nodes summary at the beginning of the output, print
  information about any "bad nodes".

Signed-off-by: Martin Schwenke <martin@meltin.net>
tools/ctdb_diagnostics