change the libctdb_ prefix to ctdb_
[sahlberg/ctdb.git] / libctdb / ctdb_util.c
1 /* 
2    ctdb utility code
3
4    Copyright (C) Andrew Tridgell  2006
5
6    This program is free software; you can redistribute it and/or modify
7    it under the terms of the GNU General Public License as published by
8    the Free Software Foundation; either version 3 of the License, or
9    (at your option) any later version.
10    
11    This program is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14    GNU General Public License for more details.
15    
16    You should have received a copy of the GNU General Public License
17    along with this program; if not, see <http://www.gnu.org/licenses/>.
18 */
19
20 #include "includes.h"
21 #include "lib/events/events.h"
22 #include "lib/tdb/include/tdb.h"
23 #include "system/network.h"
24 #include "system/filesys.h"
25 #include "system/wait.h"
26 #include "system/shmem.h"
27 #include "include/ctdb_protocol.h"
28 #include "include/ctdb_private.h"
29
30 int LogLevel = DEBUG_NOTICE;
31 int this_log_level = 0;
32
33 ctdb_ringbuf_log_fn *ctdb_ringbuf_log = NULL;
34
35 pid_t ctdbd_pid;
36
37 /*
38   return error string for last error
39 */
40 const char *ctdb_errstr(struct ctdb_context *ctdb)
41 {
42         return ctdb->err_msg;
43 }
44
45
46 /*
47   remember an error message
48 */
49 void ctdb_set_error(struct ctdb_context *ctdb, const char *fmt, ...)
50 {
51         va_list ap;
52         talloc_free(ctdb->err_msg);
53         va_start(ap, fmt);
54         ctdb->err_msg = talloc_vasprintf(ctdb, fmt, ap);
55         DEBUG(DEBUG_ERR,("ctdb error: %s\n", ctdb->err_msg));
56         va_end(ap);
57 }
58
59 /*
60   a fatal internal error occurred - no hope for recovery
61 */
62 void ctdb_fatal(struct ctdb_context *ctdb, const char *msg)
63 {
64         DEBUG(DEBUG_ALERT,("ctdb fatal error: %s\n", msg));
65         abort();
66 }
67
68 /*
69   parse a IP:port pair
70 */
71 int ctdb_parse_address(struct ctdb_context *ctdb,
72                        TALLOC_CTX *mem_ctx, const char *str,
73                        struct ctdb_address *address)
74 {
75         struct servent *se;
76
77         setservent(0);
78         se = getservbyname("ctdb", "tcp");
79         endservent();
80         
81         address->address = talloc_strdup(mem_ctx, str);
82         CTDB_NO_MEMORY(ctdb, address->address);
83
84         if (se == NULL) {
85                 address->port = CTDB_PORT;
86         } else {
87                 address->port = ntohs(se->s_port);
88         }
89         return 0;
90 }
91
92
93 /*
94   check if two addresses are the same
95 */
96 bool ctdb_same_address(struct ctdb_address *a1, struct ctdb_address *a2)
97 {
98         return strcmp(a1->address, a2->address) == 0 && a1->port == a2->port;
99 }
100
101
102 /*
103   hash function for mapping data to a VNN - taken from tdb
104 */
105 uint32_t ctdb_hash(const TDB_DATA *key)
106 {
107         uint32_t value; /* Used to compute the hash value.  */
108         uint32_t i;     /* Used to cycle through random values. */
109
110         /* Set the initial value from the key size. */
111         for (value = 0x238F13AF * key->dsize, i=0; i < key->dsize; i++)
112                 value = (value + (key->dptr[i] << (i*5 % 24)));
113
114         return (1103515243 * value + 12345);  
115 }
116
117 /*
118   a type checking varient of idr_find
119  */
120 static void *_idr_find_type(struct idr_context *idp, int id, const char *type, const char *location)
121 {
122         void *p = idr_find(idp, id);
123         if (p && talloc_check_name(p, type) == NULL) {
124                 DEBUG(DEBUG_ERR,("%s idr_find_type expected type %s  but got %s\n",
125                          location, type, talloc_get_name(p)));
126                 return NULL;
127         }
128         return p;
129 }
130
131
132 /*
133   update a max latency number
134  */
135 void ctdb_latency(struct ctdb_db_context *ctdb_db, const char *name, double *latency, struct timeval t)
136 {
137         double l = timeval_elapsed(&t);
138         if (l > *latency) {
139                 *latency = l;
140         }
141
142         if (ctdb_db->ctdb->tunable.log_latency_ms !=0) {
143                 if (l*1000 > ctdb_db->ctdb->tunable.log_latency_ms) {
144                         DEBUG(DEBUG_WARNING, ("High latency %.6fs for operation %s on database %s\n", l, name, ctdb_db->db_name));
145                 }
146         }
147 }
148
149 /*
150   update a reclock latency number
151  */
152 void ctdb_reclock_latency(struct ctdb_context *ctdb, const char *name, double *latency, double l)
153 {
154         if (l > *latency) {
155                 *latency = l;
156         }
157
158         if (ctdb->tunable.reclock_latency_ms !=0) {
159                 if (l*1000 > ctdb->tunable.reclock_latency_ms) {
160                         DEBUG(DEBUG_ERR, ("High RECLOCK latency %fs for operation %s\n", l, name));
161                 }
162         }
163 }
164
165 uint32_t ctdb_reqid_new(struct ctdb_context *ctdb, void *state)
166 {
167         uint32_t id;
168
169         id  = ctdb->idr_cnt++ & 0xFFFF;
170         id |= (idr_get_new(ctdb->idr, state, 0xFFFF)<<16);
171         return id;
172 }
173
174 void *_ctdb_reqid_find(struct ctdb_context *ctdb, uint32_t reqid, const char *type, const char *location)
175 {
176         void *p;
177
178         p = _idr_find_type(ctdb->idr, (reqid>>16)&0xFFFF, type, location);
179         if (p == NULL) {
180                 DEBUG(DEBUG_WARNING, ("Could not find idr:%u\n",reqid));
181         }
182
183         return p;
184 }
185
186
187 void ctdb_reqid_remove(struct ctdb_context *ctdb, uint32_t reqid)
188 {
189         int ret;
190
191         ret = idr_remove(ctdb->idr, (reqid>>16)&0xFFFF);
192         if (ret != 0) {
193                 DEBUG(DEBUG_ERR, ("Removing idr that does not exist\n"));
194         }
195 }
196
197
198 /*
199   form a ctdb_rec_data record from a key/data pair
200   
201   note that header may be NULL. If not NULL then it is included in the data portion
202   of the record
203  */
204 struct ctdb_rec_data *ctdb_marshall_record(TALLOC_CTX *mem_ctx, uint32_t reqid, 
205                                            TDB_DATA key, 
206                                            struct ctdb_ltdb_header *header,
207                                            TDB_DATA data)
208 {
209         size_t length;
210         struct ctdb_rec_data *d;
211
212         length = offsetof(struct ctdb_rec_data, data) + key.dsize + 
213                 data.dsize + (header?sizeof(*header):0);
214         d = (struct ctdb_rec_data *)talloc_size(mem_ctx, length);
215         if (d == NULL) {
216                 return NULL;
217         }
218         d->length = length;
219         d->reqid = reqid;
220         d->keylen = key.dsize;
221         memcpy(&d->data[0], key.dptr, key.dsize);
222         if (header) {
223                 d->datalen = data.dsize + sizeof(*header);
224                 memcpy(&d->data[key.dsize], header, sizeof(*header));
225                 memcpy(&d->data[key.dsize+sizeof(*header)], data.dptr, data.dsize);
226         } else {
227                 d->datalen = data.dsize;
228                 memcpy(&d->data[key.dsize], data.dptr, data.dsize);
229         }
230         return d;
231 }
232
233
234 /* helper function for marshalling multiple records */
235 struct ctdb_marshall_buffer *ctdb_marshall_add(TALLOC_CTX *mem_ctx, 
236                                                struct ctdb_marshall_buffer *m,
237                                                uint64_t db_id,
238                                                uint32_t reqid,
239                                                TDB_DATA key,
240                                                struct ctdb_ltdb_header *header,
241                                                TDB_DATA data)
242 {
243         struct ctdb_rec_data *r;
244         size_t m_size, r_size;
245         struct ctdb_marshall_buffer *m2;
246
247         r = ctdb_marshall_record(mem_ctx, reqid, key, header, data);
248         if (r == NULL) {
249                 talloc_free(m);
250                 return NULL;
251         }
252
253         if (m == NULL) {
254                 m = talloc_zero_size(mem_ctx, offsetof(struct ctdb_marshall_buffer, data));
255                 if (m == NULL) {
256                         return NULL;
257                 }
258                 m->db_id = db_id;
259         }
260
261         m_size = talloc_get_size(m);
262         r_size = talloc_get_size(r);
263
264         m2 = talloc_realloc_size(mem_ctx, m,  m_size + r_size);
265         if (m2 == NULL) {
266                 talloc_free(m);
267                 return NULL;
268         }
269
270         memcpy(m_size + (uint8_t *)m2, r, r_size);
271
272         talloc_free(r);
273
274         m2->count++;
275
276         return m2;
277 }
278
279 /* we've finished marshalling, return a data blob with the marshalled records */
280 TDB_DATA ctdb_marshall_finish(struct ctdb_marshall_buffer *m)
281 {
282         TDB_DATA data;
283         data.dptr = (uint8_t *)m;
284         data.dsize = talloc_get_size(m);
285         return data;
286 }
287
288 /* 
289    loop over a marshalling buffer 
290    
291      - pass r==NULL to start
292      - loop the number of times indicated by m->count
293 */
294 struct ctdb_rec_data *ctdb_marshall_loop_next(struct ctdb_marshall_buffer *m, struct ctdb_rec_data *r,
295                                               uint32_t *reqid,
296                                               struct ctdb_ltdb_header *header,
297                                               TDB_DATA *key, TDB_DATA *data)
298 {
299         if (r == NULL) {
300                 r = (struct ctdb_rec_data *)&m->data[0];
301         } else {
302                 r = (struct ctdb_rec_data *)(r->length + (uint8_t *)r);
303         }
304
305         if (reqid != NULL) {
306                 *reqid = r->reqid;
307         }
308         
309         if (key != NULL) {
310                 key->dptr   = &r->data[0];
311                 key->dsize  = r->keylen;
312         }
313         if (data != NULL) {
314                 data->dptr  = &r->data[r->keylen];
315                 data->dsize = r->datalen;
316                 if (header != NULL) {
317                         data->dptr += sizeof(*header);
318                         data->dsize -= sizeof(*header);
319                 }
320         }
321
322         if (header != NULL) {
323                 if (r->datalen < sizeof(*header)) {
324                         return NULL;
325                 }
326                 *header = *(struct ctdb_ltdb_header *)&r->data[r->keylen];
327         }
328
329         return r;
330 }
331
332 /*
333   if possible, make this task very high priority
334  */
335 void ctdb_high_priority(struct ctdb_context *ctdb)
336 {
337         errno = 0;
338         if (nice(-20) == -1 && errno != 0) {
339                 DEBUG(DEBUG_WARNING,("Unable to renice self: %s\n",
340                                      strerror(errno)));
341         } else {
342                 DEBUG(DEBUG_NOTICE,("Scheduler says I'm nice: %i\n",
343                                     getpriority(PRIO_PROCESS, getpid())));
344         }
345 }
346
347 /*
348   make ourselves slightly nicer: eg. a ctdb child.
349  */
350 void ctdb_reduce_priority(struct ctdb_context *ctdb)
351 {
352         errno = 0;
353         if (nice(10) == -1 && errno != 0) {
354                 DEBUG(DEBUG_WARNING,("Unable to lower priority: %s\n",
355                                      strerror(errno)));
356         }
357 }
358
359 void set_nonblocking(int fd)
360 {
361         unsigned v;
362         v = fcntl(fd, F_GETFL, 0);
363         fcntl(fd, F_SETFL, v | O_NONBLOCK);
364 }
365
366 void set_close_on_exec(int fd)
367 {
368         unsigned v;
369         v = fcntl(fd, F_GETFD, 0);
370         fcntl(fd, F_SETFD, v | FD_CLOEXEC);
371 }
372
373
374 bool parse_ipv4(const char *s, unsigned port, struct sockaddr_in *sin)
375 {
376         sin->sin_family = AF_INET;
377         sin->sin_port   = htons(port);
378
379         if (inet_pton(AF_INET, s, &sin->sin_addr) != 1) {
380                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin_addr\n", s));
381                 return false;
382         }
383
384         return true;
385 }
386
387 static bool parse_ipv6(const char *s, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
388 {
389         saddr->ip6.sin6_family   = AF_INET6;
390         saddr->ip6.sin6_port     = htons(port);
391         saddr->ip6.sin6_flowinfo = 0;
392         saddr->ip6.sin6_scope_id = 0;
393
394         if (inet_pton(AF_INET6, s, &saddr->ip6.sin6_addr) != 1) {
395                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin6_addr\n", s));
396                 return false;
397         }
398
399         if (ifaces && IN6_IS_ADDR_LINKLOCAL(&saddr->ip6.sin6_addr)) {
400                 if (strchr(ifaces, ',')) {
401                         DEBUG(DEBUG_ERR, (__location__ " Link local address %s "
402                                           "is specified for multiple ifaces %s\n",
403                                           s, ifaces));
404                         return false;
405                 }
406                 saddr->ip6.sin6_scope_id = if_nametoindex(ifaces);
407         }
408
409         return true;
410 }
411 /*
412   parse a ip:port pair
413  */
414 bool parse_ip_port(const char *addr, ctdb_sock_addr *saddr)
415 {
416         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
417         char *s, *p;
418         unsigned port;
419         char *endp = NULL;
420         bool ret;
421
422         s = talloc_strdup(tmp_ctx, addr);
423         if (s == NULL) {
424                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
425                 talloc_free(tmp_ctx);
426                 return false;
427         }
428
429         p = rindex(s, ':');
430         if (p == NULL) {
431                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a port number\n", s));
432                 talloc_free(tmp_ctx);
433                 return false;
434         }
435
436         port = strtoul(p+1, &endp, 10);
437         if (endp == NULL || *endp != 0) {
438                 /* trailing garbage */
439                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the port in %s\n", s));
440                 talloc_free(tmp_ctx);
441                 return false;
442         }
443         *p = 0;
444
445
446         /* now is this a ipv4 or ipv6 address ?*/
447         ret = parse_ip(s, NULL, port, saddr);
448
449         talloc_free(tmp_ctx);
450         return ret;
451 }
452
453 /*
454   parse an ip
455  */
456 bool parse_ip(const char *addr, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
457 {
458         char *p;
459         bool ret;
460
461         /* now is this a ipv4 or ipv6 address ?*/
462         p = index(addr, ':');
463         if (p == NULL) {
464                 ret = parse_ipv4(addr, port, &saddr->ip);
465         } else {
466                 ret = parse_ipv6(addr, ifaces, port, saddr);
467         }
468
469         return ret;
470 }
471
472 /*
473   parse a ip/mask pair
474  */
475 bool parse_ip_mask(const char *str, const char *ifaces, ctdb_sock_addr *addr, unsigned *mask)
476 {
477         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
478         char *s, *p;
479         char *endp = NULL;
480         bool ret;
481
482         ZERO_STRUCT(*addr);
483         s = talloc_strdup(tmp_ctx, str);
484         if (s == NULL) {
485                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
486                 talloc_free(tmp_ctx);
487                 return false;
488         }
489
490         p = rindex(s, '/');
491         if (p == NULL) {
492                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a mask\n", s));
493                 talloc_free(tmp_ctx);
494                 return false;
495         }
496
497         *mask = strtoul(p+1, &endp, 10);
498         if (endp == NULL || *endp != 0) {
499                 /* trailing garbage */
500                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the mask in %s\n", s));
501                 talloc_free(tmp_ctx);
502                 return false;
503         }
504         *p = 0;
505
506
507         /* now is this a ipv4 or ipv6 address ?*/
508         ret = parse_ip(s, ifaces, 0, addr);
509
510         talloc_free(tmp_ctx);
511         return ret;
512 }
513
514 /*
515    This is used to canonicalize a ctdb_sock_addr structure.
516 */
517 void ctdb_canonicalize_ip(const ctdb_sock_addr *ip, ctdb_sock_addr *cip)
518 {
519         char prefix[12] = { 0,0,0,0,0,0,0,0,0,0,0xff,0xff };
520
521         memcpy(cip, ip, sizeof (*cip));
522
523         if ( (ip->sa.sa_family == AF_INET6)
524         && !memcmp(&ip->ip6.sin6_addr, prefix, 12)) {
525                 memset(cip, 0, sizeof(*cip));
526 #ifdef HAVE_SOCK_SIN_LEN
527                 cip->ip.sin_len = sizeof(*cip);
528 #endif
529                 cip->ip.sin_family = AF_INET;
530                 cip->ip.sin_port   = ip->ip6.sin6_port;
531                 memcpy(&cip->ip.sin_addr, &ip->ip6.sin6_addr.s6_addr32[3], 4);
532         }
533 }
534
535 bool ctdb_same_ip(const ctdb_sock_addr *tip1, const ctdb_sock_addr *tip2)
536 {
537         ctdb_sock_addr ip1, ip2;
538
539         ctdb_canonicalize_ip(tip1, &ip1);
540         ctdb_canonicalize_ip(tip2, &ip2);
541         
542         if (ip1.sa.sa_family != ip2.sa.sa_family) {
543                 return false;
544         }
545
546         switch (ip1.sa.sa_family) {
547         case AF_INET:
548                 return ip1.ip.sin_addr.s_addr == ip2.ip.sin_addr.s_addr;
549         case AF_INET6:
550                 return !memcmp(&ip1.ip6.sin6_addr.s6_addr[0],
551                                 &ip2.ip6.sin6_addr.s6_addr[0],
552                                 16);
553         default:
554                 DEBUG(DEBUG_ERR, (__location__ " CRITICAL Can not compare sockaddr structures of type %u\n", ip1.sa.sa_family));
555                 return false;
556         }
557
558         return true;
559 }
560
561 /*
562   compare two ctdb_sock_addr structures
563  */
564 bool ctdb_same_sockaddr(const ctdb_sock_addr *ip1, const ctdb_sock_addr *ip2)
565 {
566         return ctdb_same_ip(ip1, ip2) && ip1->ip.sin_port == ip2->ip.sin_port;
567 }
568
569 char *ctdb_addr_to_str(ctdb_sock_addr *addr)
570 {
571         static char cip[128] = "";
572
573         switch (addr->sa.sa_family) {
574         case AF_INET:
575                 inet_ntop(addr->ip.sin_family, &addr->ip.sin_addr, cip, sizeof(cip));
576                 break;
577         case AF_INET6:
578                 inet_ntop(addr->ip6.sin6_family, &addr->ip6.sin6_addr, cip, sizeof(cip));
579                 break;
580         default:
581                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
582         }
583
584         return cip;
585 }
586
587 unsigned ctdb_addr_to_port(ctdb_sock_addr *addr)
588 {
589         switch (addr->sa.sa_family) {
590         case AF_INET:
591                 return ntohs(addr->ip.sin_port);
592                 break;
593         case AF_INET6:
594                 return ntohs(addr->ip6.sin6_port);
595                 break;
596         default:
597                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
598         }
599
600         return 0;
601 }
602
603 void ctdb_block_signal(int signum)
604 {
605         sigset_t set;
606         sigemptyset(&set);
607         sigaddset(&set,signum);
608         sigprocmask(SIG_BLOCK,&set,NULL);
609 }
610
611 void ctdb_unblock_signal(int signum)
612 {
613         sigset_t set;
614         sigemptyset(&set);
615         sigaddset(&set,signum);
616         sigprocmask(SIG_UNBLOCK,&set,NULL);
617 }
618
619 struct debug_levels debug_levels[] = {
620         {DEBUG_EMERG,   "EMERG"},
621         {DEBUG_ALERT,   "ALERT"},
622         {DEBUG_CRIT,    "CRIT"},
623         {DEBUG_ERR,     "ERR"},
624         {DEBUG_WARNING, "WARNING"},
625         {DEBUG_NOTICE,  "NOTICE"},
626         {DEBUG_INFO,    "INFO"},
627         {DEBUG_DEBUG,   "DEBUG"},
628         {0, NULL}
629 };
630
631 const char *get_debug_by_level(int32_t level)
632 {
633         int i;
634
635         for (i=0; debug_levels[i].description != NULL; i++) {
636                 if (debug_levels[i].level == level) {
637                         return debug_levels[i].description;
638                 }
639         }
640         return "Unknown";
641 }
642
643 int32_t get_debug_by_desc(const char *desc)
644 {
645         int i;
646
647         for (i=0; debug_levels[i].description != NULL; i++) {
648                 if (!strcmp(debug_levels[i].description, desc)) {
649                         return debug_levels[i].level;
650                 }
651         }
652
653         return DEBUG_ERR;
654 }
655
656 /* we don't lock future pages here; it would increase the chance that
657  * we'd fail to mmap later on. */
658 void ctdb_lockdown_memory(struct ctdb_context *ctdb)
659 {
660 #ifdef HAVE_MLOCKALL
661         /* Extra stack, please! */
662         char dummy[10000];
663         memset(dummy, 0, sizeof(dummy));
664
665         if (ctdb->valgrinding) {
666                 return;
667         }
668
669         /* Avoid compiler optimizing out dummy. */
670         mlock(dummy, sizeof(dummy));
671         if (mlockall(MCL_CURRENT) != 0) {
672                 DEBUG(DEBUG_WARNING,("Failed to lock memory: %s'\n",
673                                      strerror(errno)));
674         }
675 #endif
676 }
677
678 const char *ctdb_eventscript_call_names[] = {
679         "init",
680         "setup",
681         "startup",
682         "startrecovery",
683         "recovered",
684         "takeip",
685         "releaseip",
686         "stopped",
687         "monitor",
688         "status",
689         "shutdown",
690         "reload",
691         "updateip"
692 };
693
694 /*
695   setup the local socket name
696 */
697 int ctdb_set_socketname(struct ctdb_context *ctdb, const char *socketname)
698 {
699         ctdb->daemon.name = talloc_strdup(ctdb, socketname);
700         CTDB_NO_MEMORY(ctdb, ctdb->daemon.name);
701
702         return 0;
703 }