Revert scheduling back to use real-time processes
[sahlberg/ctdb.git] / common / ctdb_util.c
1 /* 
2    ctdb utility code
3
4    Copyright (C) Andrew Tridgell  2006
5
6    This program is free software; you can redistribute it and/or modify
7    it under the terms of the GNU General Public License as published by
8    the Free Software Foundation; either version 3 of the License, or
9    (at your option) any later version.
10    
11    This program is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14    GNU General Public License for more details.
15    
16    You should have received a copy of the GNU General Public License
17    along with this program; if not, see <http://www.gnu.org/licenses/>.
18 */
19
20 #include "includes.h"
21 #include "lib/tevent/tevent.h"
22 #include "lib/tdb/include/tdb.h"
23 #include "system/network.h"
24 #include "system/filesys.h"
25 #include "system/wait.h"
26 #include "system/shmem.h"
27 #include "../include/ctdb_private.h"
28
29 int LogLevel = DEBUG_NOTICE;
30 int this_log_level = 0;
31
32 /*
33   return error string for last error
34 */
35 const char *ctdb_errstr(struct ctdb_context *ctdb)
36 {
37         return ctdb->err_msg;
38 }
39
40
41 /*
42   remember an error message
43 */
44 void ctdb_set_error(struct ctdb_context *ctdb, const char *fmt, ...)
45 {
46         va_list ap;
47         talloc_free(ctdb->err_msg);
48         va_start(ap, fmt);
49         ctdb->err_msg = talloc_vasprintf(ctdb, fmt, ap);
50         DEBUG(DEBUG_ERR,("ctdb error: %s\n", ctdb->err_msg));
51         va_end(ap);
52 }
53
54 /*
55   a fatal internal error occurred - no hope for recovery
56 */
57 void ctdb_fatal(struct ctdb_context *ctdb, const char *msg)
58 {
59         DEBUG(DEBUG_ALERT,("ctdb fatal error: %s\n", msg));
60         abort();
61 }
62
63 /*
64   parse a IP:port pair
65 */
66 int ctdb_parse_address(struct ctdb_context *ctdb,
67                        TALLOC_CTX *mem_ctx, const char *str,
68                        struct ctdb_address *address)
69 {
70         struct servent *se;
71
72         setservent(0);
73         se = getservbyname("ctdb", "tcp");
74         endservent();
75         
76         address->address = talloc_strdup(mem_ctx, str);
77         CTDB_NO_MEMORY(ctdb, address->address);
78
79         if (se == NULL) {
80                 address->port = CTDB_PORT;
81         } else {
82                 address->port = ntohs(se->s_port);
83         }
84         return 0;
85 }
86
87
88 /*
89   check if two addresses are the same
90 */
91 bool ctdb_same_address(struct ctdb_address *a1, struct ctdb_address *a2)
92 {
93         return strcmp(a1->address, a2->address) == 0 && a1->port == a2->port;
94 }
95
96
97 /*
98   hash function for mapping data to a VNN - taken from tdb
99 */
100 uint32_t ctdb_hash(const TDB_DATA *key)
101 {
102         return tdb_jenkins_hash(discard_const(key));
103 }
104
105 /*
106   a type checking varient of idr_find
107  */
108 static void *_idr_find_type(struct idr_context *idp, int id, const char *type, const char *location)
109 {
110         void *p = idr_find(idp, id);
111         if (p && talloc_check_name(p, type) == NULL) {
112                 DEBUG(DEBUG_ERR,("%s idr_find_type expected type %s  but got %s\n",
113                          location, type, talloc_get_name(p)));
114                 return NULL;
115         }
116         return p;
117 }
118
119 uint32_t ctdb_reqid_new(struct ctdb_context *ctdb, void *state)
120 {
121         int id = idr_get_new_above(ctdb->idr, state, ctdb->lastid+1, INT_MAX);
122         if (id < 0) {
123                 DEBUG(DEBUG_DEBUG, ("Reqid wrap!\n"));
124                 id = idr_get_new(ctdb->idr, state, INT_MAX);
125         }
126         ctdb->lastid = id;
127         return id;
128 }
129
130 void *_ctdb_reqid_find(struct ctdb_context *ctdb, uint32_t reqid, const char *type, const char *location)
131 {
132         void *p;
133
134         p = _idr_find_type(ctdb->idr, reqid, type, location);
135         if (p == NULL) {
136                 DEBUG(DEBUG_WARNING, ("Could not find idr:%u\n",reqid));
137         }
138
139         return p;
140 }
141
142
143 void ctdb_reqid_remove(struct ctdb_context *ctdb, uint32_t reqid)
144 {
145         int ret;
146
147         ret = idr_remove(ctdb->idr, reqid);
148         if (ret != 0) {
149                 DEBUG(DEBUG_ERR, ("Removing idr that does not exist\n"));
150         }
151 }
152
153
154 /*
155   form a ctdb_rec_data record from a key/data pair
156   
157   note that header may be NULL. If not NULL then it is included in the data portion
158   of the record
159  */
160 struct ctdb_rec_data *ctdb_marshall_record(TALLOC_CTX *mem_ctx, uint32_t reqid, 
161                                            TDB_DATA key, 
162                                            struct ctdb_ltdb_header *header,
163                                            TDB_DATA data)
164 {
165         size_t length;
166         struct ctdb_rec_data *d;
167
168         length = offsetof(struct ctdb_rec_data, data) + key.dsize + 
169                 data.dsize + (header?sizeof(*header):0);
170         d = (struct ctdb_rec_data *)talloc_size(mem_ctx, length);
171         if (d == NULL) {
172                 return NULL;
173         }
174         d->length = length;
175         d->reqid = reqid;
176         d->keylen = key.dsize;
177         memcpy(&d->data[0], key.dptr, key.dsize);
178         if (header) {
179                 d->datalen = data.dsize + sizeof(*header);
180                 memcpy(&d->data[key.dsize], header, sizeof(*header));
181                 memcpy(&d->data[key.dsize+sizeof(*header)], data.dptr, data.dsize);
182         } else {
183                 d->datalen = data.dsize;
184                 memcpy(&d->data[key.dsize], data.dptr, data.dsize);
185         }
186         return d;
187 }
188
189
190 /* helper function for marshalling multiple records */
191 struct ctdb_marshall_buffer *ctdb_marshall_add(TALLOC_CTX *mem_ctx, 
192                                                struct ctdb_marshall_buffer *m,
193                                                uint64_t db_id,
194                                                uint32_t reqid,
195                                                TDB_DATA key,
196                                                struct ctdb_ltdb_header *header,
197                                                TDB_DATA data)
198 {
199         struct ctdb_rec_data *r;
200         size_t m_size, r_size;
201         struct ctdb_marshall_buffer *m2;
202
203         r = ctdb_marshall_record(mem_ctx, reqid, key, header, data);
204         if (r == NULL) {
205                 talloc_free(m);
206                 return NULL;
207         }
208
209         if (m == NULL) {
210                 m = talloc_zero_size(mem_ctx, offsetof(struct ctdb_marshall_buffer, data));
211                 if (m == NULL) {
212                         return NULL;
213                 }
214                 m->db_id = db_id;
215         }
216
217         m_size = talloc_get_size(m);
218         r_size = talloc_get_size(r);
219
220         m2 = talloc_realloc_size(mem_ctx, m,  m_size + r_size);
221         if (m2 == NULL) {
222                 talloc_free(m);
223                 return NULL;
224         }
225
226         memcpy(m_size + (uint8_t *)m2, r, r_size);
227
228         talloc_free(r);
229
230         m2->count++;
231
232         return m2;
233 }
234
235 /* we've finished marshalling, return a data blob with the marshalled records */
236 TDB_DATA ctdb_marshall_finish(struct ctdb_marshall_buffer *m)
237 {
238         TDB_DATA data;
239         data.dptr = (uint8_t *)m;
240         data.dsize = talloc_get_size(m);
241         return data;
242 }
243
244 /* 
245    loop over a marshalling buffer 
246    
247      - pass r==NULL to start
248      - loop the number of times indicated by m->count
249 */
250 struct ctdb_rec_data *ctdb_marshall_loop_next(struct ctdb_marshall_buffer *m, struct ctdb_rec_data *r,
251                                               uint32_t *reqid,
252                                               struct ctdb_ltdb_header *header,
253                                               TDB_DATA *key, TDB_DATA *data)
254 {
255         if (r == NULL) {
256                 r = (struct ctdb_rec_data *)&m->data[0];
257         } else {
258                 r = (struct ctdb_rec_data *)(r->length + (uint8_t *)r);
259         }
260
261         if (reqid != NULL) {
262                 *reqid = r->reqid;
263         }
264         
265         if (key != NULL) {
266                 key->dptr   = &r->data[0];
267                 key->dsize  = r->keylen;
268         }
269         if (data != NULL) {
270                 data->dptr  = &r->data[r->keylen];
271                 data->dsize = r->datalen;
272                 if (header != NULL) {
273                         data->dptr += sizeof(*header);
274                         data->dsize -= sizeof(*header);
275                 }
276         }
277
278         if (header != NULL) {
279                 if (r->datalen < sizeof(*header)) {
280                         return NULL;
281                 }
282                 *header = *(struct ctdb_ltdb_header *)&r->data[r->keylen];
283         }
284
285         return r;
286 }
287
288
289 #if HAVE_SCHED_H
290 #include <sched.h>
291 #endif
292
293 /*
294   if possible, make this task real time
295  */
296 void ctdb_set_scheduler(struct ctdb_context *ctdb)
297 {
298 #if HAVE_SCHED_SETSCHEDULER     
299         struct sched_param p;
300         if (ctdb->saved_scheduler_param == NULL) {
301                 ctdb->saved_scheduler_param = talloc_size(ctdb, sizeof(p));
302         }
303         
304         if (sched_getparam(0, (struct sched_param *)ctdb->saved_scheduler_param) == -1) {
305                 DEBUG(DEBUG_ERR,("Unable to get old scheduler params\n"));
306                 return;
307         }
308
309         p = *(struct sched_param *)ctdb->saved_scheduler_param;
310         p.sched_priority = 1;
311
312         if (sched_setscheduler(0, SCHED_FIFO, &p) == -1) {
313                 DEBUG(DEBUG_CRIT,("Unable to set scheduler to SCHED_FIFO (%s)\n", 
314                          strerror(errno)));
315         } else {
316                 DEBUG(DEBUG_NOTICE,("Set scheduler to SCHED_FIFO\n"));
317         }
318 #endif
319 }
320
321 /*
322   restore previous scheduler parameters
323  */
324 void ctdb_restore_scheduler(struct ctdb_context *ctdb)
325 {
326 #if HAVE_SCHED_SETSCHEDULER     
327         if (ctdb->saved_scheduler_param == NULL) {
328                 ctdb_fatal(ctdb, "No saved scheduler parameters\n");
329         }
330         if (sched_setscheduler(0, SCHED_OTHER, (struct sched_param *)ctdb->saved_scheduler_param) == -1) {
331                 ctdb_fatal(ctdb, "Unable to restore old scheduler parameters\n");
332         }
333 #endif
334 }
335
336 /*
337   make ourselves slightly nicer: eg. a ctdb child.
338  */
339 void ctdb_reduce_priority(struct ctdb_context *ctdb)
340 {
341         errno = 0;
342         if (nice(10) == -1 && errno != 0) {
343                 DEBUG(DEBUG_WARNING,("Unable to lower priority: %s\n",
344                                      strerror(errno)));
345         }
346 }
347
348 void set_nonblocking(int fd)
349 {
350         unsigned v;
351         v = fcntl(fd, F_GETFL, 0);
352         fcntl(fd, F_SETFL, v | O_NONBLOCK);
353 }
354
355 void set_close_on_exec(int fd)
356 {
357         unsigned v;
358         v = fcntl(fd, F_GETFD, 0);
359         fcntl(fd, F_SETFD, v | FD_CLOEXEC);
360 }
361
362
363 bool parse_ipv4(const char *s, unsigned port, struct sockaddr_in *sin)
364 {
365         sin->sin_family = AF_INET;
366         sin->sin_port   = htons(port);
367
368         if (inet_pton(AF_INET, s, &sin->sin_addr) != 1) {
369                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin_addr\n", s));
370                 return false;
371         }
372
373         return true;
374 }
375
376 static bool parse_ipv6(const char *s, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
377 {
378         saddr->ip6.sin6_family   = AF_INET6;
379         saddr->ip6.sin6_port     = htons(port);
380         saddr->ip6.sin6_flowinfo = 0;
381         saddr->ip6.sin6_scope_id = 0;
382
383         if (inet_pton(AF_INET6, s, &saddr->ip6.sin6_addr) != 1) {
384                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin6_addr\n", s));
385                 return false;
386         }
387
388         if (ifaces && IN6_IS_ADDR_LINKLOCAL(&saddr->ip6.sin6_addr)) {
389                 if (strchr(ifaces, ',')) {
390                         DEBUG(DEBUG_ERR, (__location__ " Link local address %s "
391                                           "is specified for multiple ifaces %s\n",
392                                           s, ifaces));
393                         return false;
394                 }
395                 saddr->ip6.sin6_scope_id = if_nametoindex(ifaces);
396         }
397
398         return true;
399 }
400 /*
401   parse a ip:port pair
402  */
403 bool parse_ip_port(const char *addr, ctdb_sock_addr *saddr)
404 {
405         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
406         char *s, *p;
407         unsigned port;
408         char *endp = NULL;
409         bool ret;
410
411         s = talloc_strdup(tmp_ctx, addr);
412         if (s == NULL) {
413                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
414                 talloc_free(tmp_ctx);
415                 return false;
416         }
417
418         p = rindex(s, ':');
419         if (p == NULL) {
420                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a port number\n", s));
421                 talloc_free(tmp_ctx);
422                 return false;
423         }
424
425         port = strtoul(p+1, &endp, 10);
426         if (endp == NULL || *endp != 0) {
427                 /* trailing garbage */
428                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the port in %s\n", s));
429                 talloc_free(tmp_ctx);
430                 return false;
431         }
432         *p = 0;
433
434
435         /* now is this a ipv4 or ipv6 address ?*/
436         ret = parse_ip(s, NULL, port, saddr);
437
438         talloc_free(tmp_ctx);
439         return ret;
440 }
441
442 /*
443   parse an ip
444  */
445 bool parse_ip(const char *addr, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
446 {
447         char *p;
448         bool ret;
449
450         /* now is this a ipv4 or ipv6 address ?*/
451         p = index(addr, ':');
452         if (p == NULL) {
453                 ret = parse_ipv4(addr, port, &saddr->ip);
454         } else {
455                 ret = parse_ipv6(addr, ifaces, port, saddr);
456         }
457
458         return ret;
459 }
460
461 /*
462   parse a ip/mask pair
463  */
464 bool parse_ip_mask(const char *str, const char *ifaces, ctdb_sock_addr *addr, unsigned *mask)
465 {
466         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
467         char *s, *p;
468         char *endp = NULL;
469         bool ret;
470
471         ZERO_STRUCT(*addr);
472         s = talloc_strdup(tmp_ctx, str);
473         if (s == NULL) {
474                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
475                 talloc_free(tmp_ctx);
476                 return false;
477         }
478
479         p = rindex(s, '/');
480         if (p == NULL) {
481                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a mask\n", s));
482                 talloc_free(tmp_ctx);
483                 return false;
484         }
485
486         *mask = strtoul(p+1, &endp, 10);
487         if (endp == NULL || *endp != 0) {
488                 /* trailing garbage */
489                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the mask in %s\n", s));
490                 talloc_free(tmp_ctx);
491                 return false;
492         }
493         *p = 0;
494
495
496         /* now is this a ipv4 or ipv6 address ?*/
497         ret = parse_ip(s, ifaces, 0, addr);
498
499         talloc_free(tmp_ctx);
500         return ret;
501 }
502
503 /*
504    This is used to canonicalize a ctdb_sock_addr structure.
505 */
506 void ctdb_canonicalize_ip(const ctdb_sock_addr *ip, ctdb_sock_addr *cip)
507 {
508         char prefix[12] = { 0,0,0,0,0,0,0,0,0,0,0xff,0xff };
509
510         memcpy(cip, ip, sizeof (*cip));
511
512         if ( (ip->sa.sa_family == AF_INET6)
513         && !memcmp(&ip->ip6.sin6_addr, prefix, 12)) {
514                 memset(cip, 0, sizeof(*cip));
515 #ifdef HAVE_SOCK_SIN_LEN
516                 cip->ip.sin_len = sizeof(*cip);
517 #endif
518                 cip->ip.sin_family = AF_INET;
519                 cip->ip.sin_port   = ip->ip6.sin6_port;
520                 memcpy(&cip->ip.sin_addr, &ip->ip6.sin6_addr.s6_addr32[3], 4);
521         }
522 }
523
524 bool ctdb_same_ip(const ctdb_sock_addr *tip1, const ctdb_sock_addr *tip2)
525 {
526         ctdb_sock_addr ip1, ip2;
527
528         ctdb_canonicalize_ip(tip1, &ip1);
529         ctdb_canonicalize_ip(tip2, &ip2);
530         
531         if (ip1.sa.sa_family != ip2.sa.sa_family) {
532                 return false;
533         }
534
535         switch (ip1.sa.sa_family) {
536         case AF_INET:
537                 return ip1.ip.sin_addr.s_addr == ip2.ip.sin_addr.s_addr;
538         case AF_INET6:
539                 return !memcmp(&ip1.ip6.sin6_addr.s6_addr[0],
540                                 &ip2.ip6.sin6_addr.s6_addr[0],
541                                 16);
542         default:
543                 DEBUG(DEBUG_ERR, (__location__ " CRITICAL Can not compare sockaddr structures of type %u\n", ip1.sa.sa_family));
544                 return false;
545         }
546
547         return true;
548 }
549
550 /*
551   compare two ctdb_sock_addr structures
552  */
553 bool ctdb_same_sockaddr(const ctdb_sock_addr *ip1, const ctdb_sock_addr *ip2)
554 {
555         return ctdb_same_ip(ip1, ip2) && ip1->ip.sin_port == ip2->ip.sin_port;
556 }
557
558 char *ctdb_addr_to_str(ctdb_sock_addr *addr)
559 {
560         static char cip[128] = "";
561
562         switch (addr->sa.sa_family) {
563         case AF_INET:
564                 inet_ntop(addr->ip.sin_family, &addr->ip.sin_addr, cip, sizeof(cip));
565                 break;
566         case AF_INET6:
567                 inet_ntop(addr->ip6.sin6_family, &addr->ip6.sin6_addr, cip, sizeof(cip));
568                 break;
569         default:
570                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
571         }
572
573         return cip;
574 }
575
576 unsigned ctdb_addr_to_port(ctdb_sock_addr *addr)
577 {
578         switch (addr->sa.sa_family) {
579         case AF_INET:
580                 return ntohs(addr->ip.sin_port);
581                 break;
582         case AF_INET6:
583                 return ntohs(addr->ip6.sin6_port);
584                 break;
585         default:
586                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
587         }
588
589         return 0;
590 }
591
592 void ctdb_block_signal(int signum)
593 {
594         sigset_t set;
595         sigemptyset(&set);
596         sigaddset(&set,signum);
597         sigprocmask(SIG_BLOCK,&set,NULL);
598 }
599
600 void ctdb_unblock_signal(int signum)
601 {
602         sigset_t set;
603         sigemptyset(&set);
604         sigaddset(&set,signum);
605         sigprocmask(SIG_UNBLOCK,&set,NULL);
606 }
607
608 struct debug_levels debug_levels[] = {
609         {DEBUG_EMERG,   "EMERG"},
610         {DEBUG_ALERT,   "ALERT"},
611         {DEBUG_CRIT,    "CRIT"},
612         {DEBUG_ERR,     "ERR"},
613         {DEBUG_WARNING, "WARNING"},
614         {DEBUG_NOTICE,  "NOTICE"},
615         {DEBUG_INFO,    "INFO"},
616         {DEBUG_DEBUG,   "DEBUG"},
617         {0, NULL}
618 };
619
620 const char *get_debug_by_level(int32_t level)
621 {
622         int i;
623
624         for (i=0; debug_levels[i].description != NULL; i++) {
625                 if (debug_levels[i].level == level) {
626                         return debug_levels[i].description;
627                 }
628         }
629         return "Unknown";
630 }
631
632 int32_t get_debug_by_desc(const char *desc)
633 {
634         int i;
635
636         for (i=0; debug_levels[i].description != NULL; i++) {
637                 if (!strcmp(debug_levels[i].description, desc)) {
638                         return debug_levels[i].level;
639                 }
640         }
641
642         return DEBUG_ERR;
643 }
644
645 /* we don't lock future pages here; it would increase the chance that
646  * we'd fail to mmap later on. */
647 void ctdb_lockdown_memory(struct ctdb_context *ctdb)
648 {
649 #ifdef HAVE_MLOCKALL
650         /* Extra stack, please! */
651         char dummy[10000];
652         memset(dummy, 0, sizeof(dummy));
653
654         if (ctdb->valgrinding) {
655                 return;
656         }
657
658         /* Avoid compiler optimizing out dummy. */
659         mlock(dummy, sizeof(dummy));
660         if (mlockall(MCL_CURRENT) != 0) {
661                 DEBUG(DEBUG_WARNING,("Failed to lock memory: %s'\n",
662                                      strerror(errno)));
663         }
664 #endif
665 }
666
667 const char *ctdb_eventscript_call_names[] = {
668         "init",
669         "setup",
670         "startup",
671         "startrecovery",
672         "recovered",
673         "takeip",
674         "releaseip",
675         "stopped",
676         "monitor",
677         "status",
678         "shutdown",
679         "reload",
680         "updateip",
681         "ipreallocated"
682 };