fixed problem with looping ctdb recoveries obnox/origin origin/origin
authorAndrew Tridgell <tridge@samba.org>
Thu, 20 Nov 2008 21:05:59 +0000 (08:05 +1100)
committerAndrew Tridgell <tridge@samba.org>
Thu, 20 Nov 2008 23:24:13 +0000 (10:24 +1100)
commit6579a6a2a7161214adedf0f67dce62f4a4ad1afe
treeb79c55e199bf04364ef8f677d3f6fa8006f1f7bb
parentfe6ddf7992ca3e72a26dbac6666e0f6270da611f
fixed problem with looping ctdb recoveries

After a node failure, GPFS can get into a state where non-blocking
fcntl() locks can take a long time. This means to the ctdb set_recmode
test timing out, which leads to a recovery failure, and a new
recovery. The recovery loop can last a long time.

The fix is to consider a fcntl timeout as a success of this test. The
test is to see that we can't lock the shared reclock file, so a
timeout is fine for a success.
server/ctdb_recover.c