drivers/block/drbd/drbd_receiver.c

   1 /*
   2    drbd_receiver.c
   3
   4    This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
   5
   6    Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
   7    Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
   8    Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
   9
  10    drbd is free software; you can redistribute it and/or modify
  11    it under the terms of the GNU General Public License as published by
  12    the Free Software Foundation; either version 2, or (at your option)
  13    any later version.
  14
  15    drbd is distributed in the hope that it will be useful,
  16    but WITHOUT ANY WARRANTY; without even the implied warranty of
  17    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  18    GNU General Public License for more details.
  19
  20    You should have received a copy of the GNU General Public License
  21    along with drbd; see the file COPYING.  If not, write to
  22    the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
  23  */
  24
  25
  26 #include <linux/module.h>
  27
  28 #include <asm/uaccess.h>
  29 #include <net/sock.h>
  30
  31 #include <linux/drbd.h>
  32 #include <linux/fs.h>
  33 #include <linux/file.h>
  34 #include <linux/in.h>
  35 #include <linux/mm.h>
  36 #include <linux/memcontrol.h>
  37 #include <linux/mm_inline.h>
  38 #include <linux/slab.h>
  39 #include <linux/pkt_sched.h>
  40 #define __KERNEL_SYSCALLS__
  41 #include <linux/unistd.h>
  42 #include <linux/vmalloc.h>
  43 #include <linux/random.h>
  44 #include <linux/string.h>
  45 #include <linux/scatterlist.h>
  46 #include "drbd_int.h"
  47 #include "drbd_req.h"
  48
  49 #include "drbd_vli.h"
  50
  51 enum finish_epoch {
  52         FE_STILL_LIVE,
  53         FE_DESTROYED,
  54         FE_RECYCLED,
  55 };
  56
  57 static int drbd_do_handshake(struct drbd_conf *mdev);
  58 static int drbd_do_auth(struct drbd_conf *mdev);
  59
  60 static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf *, struct drbd_epoch *, enum epoch_event);
  61 static int e_end_block(struct drbd_conf *, struct drbd_work *, int);
  62
  63
  64 #define GFP_TRY (__GFP_HIGHMEM | __GFP_NOWARN)
  65
  66 /*
  67  * some helper functions to deal with single linked page lists,
  68  * page->private being our "next" pointer.
  69  */
  70
  71 /* If at least n pages are linked at head, get n pages off.
  72  * Otherwise, don't modify head, and return NULL.
  73  * Locking is the responsibility of the caller.
  74  */
  75 static struct page *page_chain_del(struct page **head, int n)
  76 {
  77         struct page *page;
  78         struct page *tmp;
  79
  80         BUG_ON(!n);
  81         BUG_ON(!head);
  82
  83         page = *head;
  84
  85         if (!page)
  86                 return NULL;
  87
  88         while (page) {
  89                 tmp = page_chain_next(page);
  90                 if (--n == 0)
  91                         break; /* found sufficient pages */
  92                 if (tmp == NULL)
  93                         /* insufficient pages, don't use any of them. */
  94                         return NULL;
  95                 page = tmp;
  96         }
  97
  98         /* add end of list marker for the returned list */
  99         set_page_private(page, 0);
 100         /* actual return value, and adjustment of head */
 101         page = *head;
 102         *head = tmp;
 103         return page;
 104 }
 105
 106 /* may be used outside of locks to find the tail of a (usually short)
 107  * "private" page chain, before adding it back to a global chain head
 108  * with page_chain_add() under a spinlock. */
 109 static struct page *page_chain_tail(struct page *page, int *len)
 110 {
 111         struct page *tmp;
 112         int i = 1;
 113         while ((tmp = page_chain_next(page)))
 114                 ++i, page = tmp;
 115         if (len)
 116                 *len = i;
 117         return page;
 118 }
 119
 120 static int page_chain_free(struct page *page)
 121 {
 122         struct page *tmp;
 123         int i = 0;
 124         page_chain_for_each_safe(page, tmp) {
 125                 put_page(page);
 126                 ++i;
 127         }
 128         return i;
 129 }
 130
 131 static void page_chain_add(struct page **head,
 132                 struct page *chain_first, struct page *chain_last)
 133 {
 134 #if 1
 135         struct page *tmp;
 136         tmp = page_chain_tail(chain_first, NULL);
 137         BUG_ON(tmp != chain_last);
 138 #endif
 139
 140         /* add chain to head */
 141         set_page_private(chain_last, (unsigned long)*head);
 142         *head = chain_first;
 143 }
 144
 145 static struct page *drbd_pp_first_pages_or_try_alloc(struct drbd_conf *mdev, int number)
 146 {
 147         struct page *page = NULL;
 148         struct page *tmp = NULL;
 149         int i = 0;
 150
 151         /* Yes, testing drbd_pp_vacant outside the lock is racy.
 152          * So what. It saves a spin_lock. */
 153         if (drbd_pp_vacant >= number) {
 154                 spin_lock(&drbd_pp_lock);
 155                 page = page_chain_del(&drbd_pp_pool, number);
 156                 if (page)
 157                         drbd_pp_vacant -= number;
 158                 spin_unlock(&drbd_pp_lock);
 159                 if (page)
 160                         return page;
 161         }
 162
 163         /* GFP_TRY, because we must not cause arbitrary write-out: in a DRBD
 164          * "criss-cross" setup, that might cause write-out on some other DRBD,
 165          * which in turn might block on the other node at this very place.  */
 166         for (i = 0; i < number; i++) {
 167                 tmp = alloc_page(GFP_TRY);
 168                 if (!tmp)
 169                         break;
 170                 set_page_private(tmp, (unsigned long)page);
 171                 page = tmp;
 172         }
 173
 174         if (i == number)
 175                 return page;
 176
 177         /* Not enough pages immediately available this time.
 178          * No need to jump around here, drbd_pp_alloc will retry this
 179          * function "soon". */
 180         if (page) {
 181                 tmp = page_chain_tail(page, NULL);
 182                 spin_lock(&drbd_pp_lock);
 183                 page_chain_add(&drbd_pp_pool, page, tmp);
 184                 drbd_pp_vacant += i;
 185                 spin_unlock(&drbd_pp_lock);
 186         }
 187         return NULL;
 188 }
 189
 190 static void reclaim_net_ee(struct drbd_conf *mdev, struct list_head *to_be_freed)
 191 {
 192         struct drbd_epoch_entry *e;
 193         struct list_head *le, *tle;
 194
 195         /* The EEs are always appended to the end of the list. Since
 196            they are sent in order over the wire, they have to finish
 197            in order. As soon as we see the first not finished we can
 198            stop to examine the list... */
 199
 200         list_for_each_safe(le, tle, &mdev->net_ee) {
 201                 e = list_entry(le, struct drbd_epoch_entry, w.list);
 202                 if (drbd_ee_has_active_page(e))
 203                         break;
 204                 list_move(le, to_be_freed);
 205         }
 206 }
 207
 208 static void drbd_kick_lo_and_reclaim_net(struct drbd_conf *mdev)
 209 {
 210         LIST_HEAD(reclaimed);
 211         struct drbd_epoch_entry *e, *t;
 212
 213         spin_lock_irq(&mdev->req_lock);
 214         reclaim_net_ee(mdev, &reclaimed);
 215         spin_unlock_irq(&mdev->req_lock);
 216
 217         list_for_each_entry_safe(e, t, &reclaimed, w.list)
 218                 drbd_free_net_ee(mdev, e);
 219 }
 220
 221 /**
 222  * drbd_pp_alloc() - Returns @number pages, retries forever (or until signalled)
 223  * @mdev:       DRBD device.
 224  * @number:     number of pages requested
 225  * @retry:      whether to retry, if not enough pages are available right now
 226  *
 227  * Tries to allocate number pages, first from our own page pool, then from
 228  * the kernel, unless this allocation would exceed the max_buffers setting.
 229  * Possibly retry until DRBD frees sufficient pages somewhere else.
 230  *
 231  * Returns a page chain linked via page->private.
 232  */
 233 static struct page *drbd_pp_alloc(struct drbd_conf *mdev, unsigned number, bool retry)
 234 {
 235         struct page *page = NULL;
 236         DEFINE_WAIT(wait);
 237
 238         /* Yes, we may run up to @number over max_buffers. If we
 239          * follow it strictly, the admin will get it wrong anyways. */
 240         if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers)
 241                 page = drbd_pp_first_pages_or_try_alloc(mdev, number);
 242
 243         while (page == NULL) {
 244                 prepare_to_wait(&drbd_pp_wait, &wait, TASK_INTERRUPTIBLE);
 245
 246                 drbd_kick_lo_and_reclaim_net(mdev);
 247
 248                 if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers) {
 249                         page = drbd_pp_first_pages_or_try_alloc(mdev, number);
 250                         if (page)
 251                                 break;
 252                 }
 253
 254                 if (!retry)
 255                         break;
 256
 257                 if (signal_pending(current)) {
 258                         dev_warn(DEV, "drbd_pp_alloc interrupted!\n");
 259                         break;
 260                 }
 261
 262                 schedule();
 263         }
 264         finish_wait(&drbd_pp_wait, &wait);
 265
 266         if (page)
 267                 atomic_add(number, &mdev->pp_in_use);
 268         return page;
 269 }
 270
 271 /* Must not be used from irq, as that may deadlock: see drbd_pp_alloc.
 272  * Is also used from inside an other spin_lock_irq(&mdev->req_lock);
 273  * Either links the page chain back to the global pool,
 274  * or returns all pages to the system. */
 275 static void drbd_pp_free(struct drbd_conf *mdev, struct page *page, int is_net)
 276 {
 277         atomic_t *a = is_net ? &mdev->pp_in_use_by_net : &mdev->pp_in_use;
 278         int i;
 279
 280         if (drbd_pp_vacant > (DRBD_MAX_BIO_SIZE/PAGE_SIZE)*minor_count)
 281                 i = page_chain_free(page);
 282         else {
 283                 struct page *tmp;
 284                 tmp = page_chain_tail(page, &i);
 285                 spin_lock(&drbd_pp_lock);
 286                 page_chain_add(&drbd_pp_pool, page, tmp);
 287                 drbd_pp_vacant += i;
 288                 spin_unlock(&drbd_pp_lock);
 289         }
 290         i = atomic_sub_return(i, a);
 291         if (i < 0)
 292                 dev_warn(DEV, "ASSERTION FAILED: %s: %d < 0\n",
 293                         is_net ? "pp_in_use_by_net" : "pp_in_use", i);
 294         wake_up(&drbd_pp_wait);
 295 }
 296
 297 /*
 298 You need to hold the req_lock:
 299  _drbd_wait_ee_list_empty()
 300
 301 You must not have the req_lock:
 302  drbd_free_ee()
 303  drbd_alloc_ee()
 304  drbd_init_ee()
 305  drbd_release_ee()
 306  drbd_ee_fix_bhs()
 307  drbd_process_done_ee()
 308  drbd_clear_done_ee()
 309  drbd_wait_ee_list_empty()
 310 */
 311
 312 struct drbd_epoch_entry *drbd_alloc_ee(struct drbd_conf *mdev,
 313                                      u64 id,
 314                                      sector_t sector,
 315                                      unsigned int data_size,
 316                                      gfp_t gfp_mask) __must_hold(local)
 317 {
 318         struct drbd_epoch_entry *e;
 319         struct page *page;
 320         unsigned nr_pages = (data_size + PAGE_SIZE -1) >> PAGE_SHIFT;
 321
 322         if (drbd_insert_fault(mdev, DRBD_FAULT_AL_EE))
 323                 return NULL;
 324
 325         e = mempool_alloc(drbd_ee_mempool, gfp_mask & ~__GFP_HIGHMEM);
 326         if (!e) {
 327                 if (!(gfp_mask & __GFP_NOWARN))
 328                         dev_err(DEV, "alloc_ee: Allocation of an EE failed\n");
 329                 return NULL;
 330         }
 331
 332         page = drbd_pp_alloc(mdev, nr_pages, (gfp_mask & __GFP_WAIT));
 333         if (!page)
 334                 goto fail;
 335
 336         INIT_HLIST_NODE(&e->colision);
 337         e->epoch = NULL;
 338         e->mdev = mdev;
 339         e->pages = page;
 340         atomic_set(&e->pending_bios, 0);
 341         e->size = data_size;
 342         e->flags = 0;
 343         e->sector = sector;
 344         e->block_id = id;
 345
 346         return e;
 347
 348  fail:
 349         mempool_free(e, drbd_ee_mempool);
 350         return NULL;
 351 }
 352
 353 void drbd_free_some_ee(struct drbd_conf *mdev, struct drbd_epoch_entry *e, int is_net)
 354 {
 355         if (e->flags & EE_HAS_DIGEST)
 356                 kfree(e->digest);
 357         drbd_pp_free(mdev, e->pages, is_net);
 358         D_ASSERT(atomic_read(&e->pending_bios) == 0);
 359         D_ASSERT(hlist_unhashed(&e->colision));
 360         mempool_free(e, drbd_ee_mempool);
 361 }
 362
 363 int drbd_release_ee(struct drbd_conf *mdev, struct list_head *list)
 364 {
 365         LIST_HEAD(work_list);
 366         struct drbd_epoch_entry *e, *t;
 367         int count = 0;
 368         int is_net = list == &mdev->net_ee;
 369
 370         spin_lock_irq(&mdev->req_lock);
 371         list_splice_init(list, &work_list);
 372         spin_unlock_irq(&mdev->req_lock);
 373
 374         list_for_each_entry_safe(e, t, &work_list, w.list) {
 375                 drbd_free_some_ee(mdev, e, is_net);
 376                 count++;
 377         }
 378         return count;
 379 }
 380
 381
 382 /*
 383  * This function is called from _asender only_
 384  * but see also comments in _req_mod(,barrier_acked)
 385  * and receive_Barrier.
 386  *
 387  * Move entries from net_ee to done_ee, if ready.
 388  * Grab done_ee, call all callbacks, free the entries.
 389  * The callbacks typically send out ACKs.
 390  */
 391 static int drbd_process_done_ee(struct drbd_conf *mdev)
 392 {
 393         LIST_HEAD(work_list);
 394         LIST_HEAD(reclaimed);
 395         struct drbd_epoch_entry *e, *t;
 396         int ok = (mdev->state.conn >= C_WF_REPORT_PARAMS);
 397
 398         spin_lock_irq(&mdev->req_lock);
 399         reclaim_net_ee(mdev, &reclaimed);
 400         list_splice_init(&mdev->done_ee, &work_list);
 401         spin_unlock_irq(&mdev->req_lock);
 402
 403         list_for_each_entry_safe(e, t, &reclaimed, w.list)
 404                 drbd_free_net_ee(mdev, e);
 405
 406         /* possible callbacks here:
 407          * e_end_block, and e_end_resync_block, e_send_discard_ack.
 408          * all ignore the last argument.
 409          */
 410         list_for_each_entry_safe(e, t, &work_list, w.list) {
 411                 /* list_del not necessary, next/prev members not touched */
 412                 ok = e->w.cb(mdev, &e->w, !ok) && ok;
 413                 drbd_free_ee(mdev, e);
 414         }
 415         wake_up(&mdev->ee_wait);
 416
 417         return ok;
 418 }
 419
 420 void _drbd_wait_ee_list_empty(struct drbd_conf *mdev, struct list_head *head)
 421 {
 422         DEFINE_WAIT(wait);
 423
 424         /* avoids spin_lock/unlock
 425          * and calling prepare_to_wait in the fast path */
 426         while (!list_empty(head)) {
 427                 prepare_to_wait(&mdev->ee_wait, &wait, TASK_UNINTERRUPTIBLE);
 428                 spin_unlock_irq(&mdev->req_lock);
 429                 io_schedule();
 430                 finish_wait(&mdev->ee_wait, &wait);
 431                 spin_lock_irq(&mdev->req_lock);
 432         }
 433 }
 434
 435 void drbd_wait_ee_list_empty(struct drbd_conf *mdev, struct list_head *head)
 436 {
 437         spin_lock_irq(&mdev->req_lock);
 438         _drbd_wait_ee_list_empty(mdev, head);
 439         spin_unlock_irq(&mdev->req_lock);
 440 }
 441
 442 /* see also kernel_accept; which is only present since 2.6.18.
 443  * also we want to log which part of it failed, exactly */
 444 static int drbd_accept(struct drbd_conf *mdev, const char **what,
 445                 struct socket *sock, struct socket **newsock)
 446 {
 447         struct sock *sk = sock->sk;
 448         int err = 0;
 449
 450         *what = "listen";
 451         err = sock->ops->listen(sock, 5);
 452         if (err < 0)
 453                 goto out;
 454
 455         *what = "sock_create_lite";
 456         err = sock_create_lite(sk->sk_family, sk->sk_type, sk->sk_protocol,
 457                                newsock);
 458         if (err < 0)
 459                 goto out;
 460
 461         *what = "accept";
 462         err = sock->ops->accept(sock, *newsock, 0);
 463         if (err < 0) {
 464                 sock_release(*newsock);
 465                 *newsock = NULL;
 466                 goto out;
 467         }
 468         (*newsock)->ops  = sock->ops;
 469
 470 out:
 471         return err;
 472 }
 473
 474 static int drbd_recv_short(struct drbd_conf *mdev, struct socket *sock,
 475                     void *buf, size_t size, int flags)
 476 {
 477         mm_segment_t oldfs;
 478         struct kvec iov = {
 479                 .iov_base = buf,
 480                 .iov_len = size,
 481         };
 482         struct msghdr msg = {
 483                 .msg_iovlen = 1,
 484                 .msg_iov = (struct iovec *)&iov,
 485                 .msg_flags = (flags ? flags : MSG_WAITALL | MSG_NOSIGNAL)
 486         };
 487         int rv;
 488
 489         oldfs = get_fs();
 490         set_fs(KERNEL_DS);
 491         rv = sock_recvmsg(sock, &msg, size, msg.msg_flags);
 492         set_fs(oldfs);
 493
 494         return rv;
 495 }
 496
 497 static int drbd_recv(struct drbd_conf *mdev, void *buf, size_t size)
 498 {
 499         mm_segment_t oldfs;
 500         struct kvec iov = {
 501                 .iov_base = buf,
 502                 .iov_len = size,
 503         };
 504         struct msghdr msg = {
 505                 .msg_iovlen = 1,
 506                 .msg_iov = (struct iovec *)&iov,
 507                 .msg_flags = MSG_WAITALL | MSG_NOSIGNAL
 508         };
 509         int rv;
 510
 511         oldfs = get_fs();
 512         set_fs(KERNEL_DS);
 513
 514         for (;;) {
 515                 rv = sock_recvmsg(mdev->data.socket, &msg, size, msg.msg_flags);
 516                 if (rv == size)
 517                         break;
 518
 519                 /* Note:
 520                  * ECONNRESET   other side closed the connection
 521                  * ERESTARTSYS  (on  sock) we got a signal
 522                  */
 523
 524                 if (rv < 0) {
 525                         if (rv == -ECONNRESET)
 526                                 dev_info(DEV, "sock was reset by peer\n");
 527                         else if (rv != -ERESTARTSYS)
 528                                 dev_err(DEV, "sock_recvmsg returned %d\n", rv);
 529                         break;
 530                 } else if (rv == 0) {
 531                         dev_info(DEV, "sock was shut down by peer\n");
 532                         break;
 533                 } else  {
 534                         /* signal came in, or peer/link went down,
 535                          * after we read a partial message
 536                          */
 537                         /* D_ASSERT(signal_pending(current)); */
 538                         break;
 539                 }
 540         };
 541
 542         set_fs(oldfs);
 543
 544         if (rv != size)
 545                 drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
 546
 547         return rv;
 548 }
 549
 550 /* quoting tcp(7):
 551  *   On individual connections, the socket buffer size must be set prior to the
 552  *   listen(2) or connect(2) calls in order to have it take effect.
 553  * This is our wrapper to do so.
 554  */
 555 static void drbd_setbufsize(struct socket *sock, unsigned int snd,
 556                 unsigned int rcv)
 557 {
 558         /* open coded SO_SNDBUF, SO_RCVBUF */
 559         if (snd) {
 560                 sock->sk->sk_sndbuf = snd;
 561                 sock->sk->sk_userlocks |= SOCK_SNDBUF_LOCK;
 562         }
 563         if (rcv) {
 564                 sock->sk->sk_rcvbuf = rcv;
 565                 sock->sk->sk_userlocks |= SOCK_RCVBUF_LOCK;
 566         }
 567 }
 568
 569 static struct socket *drbd_try_connect(struct drbd_conf *mdev)
 570 {
 571         const char *what;
 572         struct socket *sock;
 573         struct sockaddr_in6 src_in6;
 574         int err;
 575         int disconnect_on_error = 1;
 576
 577         if (!get_net_conf(mdev))
 578                 return NULL;
 579
 580         what = "sock_create_kern";
 581         err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
 582                 SOCK_STREAM, IPPROTO_TCP, &sock);
 583         if (err < 0) {
 584                 sock = NULL;
 585                 goto out;
 586         }
 587
 588         sock->sk->sk_rcvtimeo =
 589         sock->sk->sk_sndtimeo =  mdev->net_conf->try_connect_int*HZ;
 590         drbd_setbufsize(sock, mdev->net_conf->sndbuf_size,
 591                         mdev->net_conf->rcvbuf_size);
 592
 593        /* explicitly bind to the configured IP as source IP
 594         *  for the outgoing connections.
 595         *  This is needed for multihomed hosts and to be
 596         *  able to use lo: interfaces for drbd.
 597         * Make sure to use 0 as port number, so linux selects
 598         *  a free one dynamically.
 599         */
 600         memcpy(&src_in6, mdev->net_conf->my_addr,
 601                min_t(int, mdev->net_conf->my_addr_len, sizeof(src_in6)));
 602         if (((struct sockaddr *)mdev->net_conf->my_addr)->sa_family == AF_INET6)
 603                 src_in6.sin6_port = 0;
 604         else
 605                 ((struct sockaddr_in *)&src_in6)->sin_port = 0; /* AF_INET & AF_SCI */
 606
 607         what = "bind before connect";
 608         err = sock->ops->bind(sock,
 609                               (struct sockaddr *) &src_in6,
 610                               mdev->net_conf->my_addr_len);
 611         if (err < 0)
 612                 goto out;
 613
 614         /* connect may fail, peer not yet available.
 615          * stay C_WF_CONNECTION, don't go Disconnecting! */
 616         disconnect_on_error = 0;
 617         what = "connect";
 618         err = sock->ops->connect(sock,
 619                                  (struct sockaddr *)mdev->net_conf->peer_addr,
 620                                  mdev->net_conf->peer_addr_len, 0);
 621
 622 out:
 623         if (err < 0) {
 624                 if (sock) {
 625                         sock_release(sock);
 626                         sock = NULL;
 627                 }
 628                 switch (-err) {
 629                         /* timeout, busy, signal pending */
 630                 case ETIMEDOUT: case EAGAIN: case EINPROGRESS:
 631                 case EINTR: case ERESTARTSYS:
 632                         /* peer not (yet) available, network problem */
 633                 case ECONNREFUSED: case ENETUNREACH:
 634                 case EHOSTDOWN:    case EHOSTUNREACH:
 635                         disconnect_on_error = 0;
 636                         break;
 637                 default:
 638                         dev_err(DEV, "%s failed, err = %d\n", what, err);
 639                 }
 640                 if (disconnect_on_error)
 641                         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
 642         }
 643         put_net_conf(mdev);
 644         return sock;
 645 }
 646
 647 static struct socket *drbd_wait_for_connect(struct drbd_conf *mdev)
 648 {
 649         int timeo, err;
 650         struct socket *s_estab = NULL, *s_listen;
 651         const char *what;
 652
 653         if (!get_net_conf(mdev))
 654                 return NULL;
 655
 656         what = "sock_create_kern";
 657         err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
 658                 SOCK_STREAM, IPPROTO_TCP, &s_listen);
 659         if (err) {
 660                 s_listen = NULL;
 661                 goto out;
 662         }
 663
 664         timeo = mdev->net_conf->try_connect_int * HZ;
 665         timeo += (random32() & 1) ? timeo / 7 : -timeo / 7; /* 28.5% random jitter */
 666
 667         s_listen->sk->sk_reuse    = 1; /* SO_REUSEADDR */
 668         s_listen->sk->sk_rcvtimeo = timeo;
 669         s_listen->sk->sk_sndtimeo = timeo;
 670         drbd_setbufsize(s_listen, mdev->net_conf->sndbuf_size,
 671                         mdev->net_conf->rcvbuf_size);
 672
 673         what = "bind before listen";
 674         err = s_listen->ops->bind(s_listen,
 675                               (struct sockaddr *) mdev->net_conf->my_addr,
 676                               mdev->net_conf->my_addr_len);
 677         if (err < 0)
 678                 goto out;
 679
 680         err = drbd_accept(mdev, &what, s_listen, &s_estab);
 681
 682 out:
 683         if (s_listen)
 684                 sock_release(s_listen);
 685         if (err < 0) {
 686                 if (err != -EAGAIN && err != -EINTR && err != -ERESTARTSYS) {
 687                         dev_err(DEV, "%s failed, err = %d\n", what, err);
 688                         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
 689                 }
 690         }
 691         put_net_conf(mdev);
 692
 693         return s_estab;
 694 }
 695
 696 static int drbd_send_fp(struct drbd_conf *mdev,
 697         struct socket *sock, enum drbd_packets cmd)
 698 {
 699         struct p_header80 *h = &mdev->data.sbuf.header.h80;
 700
 701         return _drbd_send_cmd(mdev, sock, cmd, h, sizeof(*h), 0);
 702 }
 703
 704 static enum drbd_packets drbd_recv_fp(struct drbd_conf *mdev, struct socket *sock)
 705 {
 706         struct p_header80 *h = &mdev->data.rbuf.header.h80;
 707         int rr;
 708
 709         rr = drbd_recv_short(mdev, sock, h, sizeof(*h), 0);
 710
 711         if (rr == sizeof(*h) && h->magic == BE_DRBD_MAGIC)
 712                 return be16_to_cpu(h->command);
 713
 714         return 0xffff;
 715 }
 716
 717 /**
 718  * drbd_socket_okay() - Free the socket if its connection is not okay
 719  * @mdev:       DRBD device.
 720  * @sock:       pointer to the pointer to the socket.
 721  */
 722 static int drbd_socket_okay(struct drbd_conf *mdev, struct socket **sock)
 723 {
 724         int rr;
 725         char tb[4];
 726
 727         if (!*sock)
 728                 return false;
 729
 730         rr = drbd_recv_short(mdev, *sock, tb, 4, MSG_DONTWAIT | MSG_PEEK);
 731
 732         if (rr > 0 || rr == -EAGAIN) {
 733                 return true;
 734         } else {
 735                 sock_release(*sock);
 736                 *sock = NULL;
 737                 return false;
 738         }
 739 }
 740
 741 /*
 742  * return values:
 743  *   1 yes, we have a valid connection
 744  *   0 oops, did not work out, please try again
 745  *  -1 peer talks different language,
 746  *     no point in trying again, please go standalone.
 747  *  -2 We do not have a network config...
 748  */
 749 static int drbd_connect(struct drbd_conf *mdev)
 750 {
 751         struct socket *s, *sock, *msock;
 752         int try, h, ok;
 753
 754         D_ASSERT(!mdev->data.socket);
 755
 756         if (drbd_request_state(mdev, NS(conn, C_WF_CONNECTION)) < SS_SUCCESS)
 757                 return -2;
 758
 759         clear_bit(DISCARD_CONCURRENT, &mdev->flags);
 760
 761         sock  = NULL;
 762         msock = NULL;
 763
 764         do {
 765                 for (try = 0;;) {
 766                         /* 3 tries, this should take less than a second! */
 767                         s = drbd_try_connect(mdev);
 768                         if (s || ++try >= 3)
 769                                 break;
 770                         /* give the other side time to call bind() & listen() */
 771                         schedule_timeout_interruptible(HZ / 10);
 772                 }
 773
 774                 if (s) {
 775                         if (!sock) {
 776                                 drbd_send_fp(mdev, s, P_HAND_SHAKE_S);
 777                                 sock = s;
 778                                 s = NULL;
 779                         } else if (!msock) {
 780                                 drbd_send_fp(mdev, s, P_HAND_SHAKE_M);
 781                                 msock = s;
 782                                 s = NULL;
 783                         } else {
 784                                 dev_err(DEV, "Logic error in drbd_connect()\n");
 785                                 goto out_release_sockets;
 786                         }
 787                 }
 788
 789                 if (sock && msock) {
 790                         schedule_timeout_interruptible(HZ / 10);
 791                         ok = drbd_socket_okay(mdev, &sock);
 792                         ok = drbd_socket_okay(mdev, &msock) && ok;
 793                         if (ok)
 794                                 break;
 795                 }
 796
 797 retry:
 798                 s = drbd_wait_for_connect(mdev);
 799                 if (s) {
 800                         try = drbd_recv_fp(mdev, s);
 801                         drbd_socket_okay(mdev, &sock);
 802                         drbd_socket_okay(mdev, &msock);
 803                         switch (try) {
 804                         case P_HAND_SHAKE_S:
 805                                 if (sock) {
 806                                         dev_warn(DEV, "initial packet S crossed\n");
 807                                         sock_release(sock);
 808                                 }
 809                                 sock = s;
 810                                 break;
 811                         case P_HAND_SHAKE_M:
 812                                 if (msock) {
 813                                         dev_warn(DEV, "initial packet M crossed\n");
 814                                         sock_release(msock);
 815                                 }
 816                                 msock = s;
 817                                 set_bit(DISCARD_CONCURRENT, &mdev->flags);
 818                                 break;
 819                         default:
 820                                 dev_warn(DEV, "Error receiving initial packet\n");
 821                                 sock_release(s);
 822                                 if (random32() & 1)
 823                                         goto retry;
 824                         }
 825                 }
 826
 827                 if (mdev->state.conn <= C_DISCONNECTING)
 828                         goto out_release_sockets;
 829                 if (signal_pending(current)) {
 830                         flush_signals(current);
 831                         smp_rmb();
 832                         if (get_t_state(&mdev->receiver) == Exiting)
 833                                 goto out_release_sockets;
 834                 }
 835
 836                 if (sock && msock) {
 837                         ok = drbd_socket_okay(mdev, &sock);
 838                         ok = drbd_socket_okay(mdev, &msock) && ok;
 839                         if (ok)
 840                                 break;
 841                 }
 842         } while (1);
 843
 844         msock->sk->sk_reuse = 1; /* SO_REUSEADDR */
 845         sock->sk->sk_reuse = 1; /* SO_REUSEADDR */
 846
 847         sock->sk->sk_allocation = GFP_NOIO;
 848         msock->sk->sk_allocation = GFP_NOIO;
 849
 850         sock->sk->sk_priority = TC_PRIO_INTERACTIVE_BULK;
 851         msock->sk->sk_priority = TC_PRIO_INTERACTIVE;
 852
 853         /* NOT YET ...
 854          * sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
 855          * sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
 856          * first set it to the P_HAND_SHAKE timeout,
 857          * which we set to 4x the configured ping_timeout. */
 858         sock->sk->sk_sndtimeo =
 859         sock->sk->sk_rcvtimeo = mdev->net_conf->ping_timeo*4*HZ/10;
 860
 861         msock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
 862         msock->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
 863
 864         /* we don't want delays.
 865          * we use TCP_CORK where apropriate, though */
 866         drbd_tcp_nodelay(sock);
 867         drbd_tcp_nodelay(msock);
 868
 869         mdev->data.socket = sock;
 870         mdev->meta.socket = msock;
 871         mdev->last_received = jiffies;
 872
 873         D_ASSERT(mdev->asender.task == NULL);
 874
 875         h = drbd_do_handshake(mdev);
 876         if (h <= 0)
 877                 return h;
 878
 879         if (mdev->cram_hmac_tfm) {
 880                 /* drbd_request_state(mdev, NS(conn, WFAuth)); */
 881                 switch (drbd_do_auth(mdev)) {
 882                 case -1:
 883                         dev_err(DEV, "Authentication of peer failed\n");
 884                         return -1;
 885                 case 0:
 886                         dev_err(DEV, "Authentication of peer failed, trying again.\n");
 887                         return 0;
 888                 }
 889         }
 890
 891         if (drbd_request_state(mdev, NS(conn, C_WF_REPORT_PARAMS)) < SS_SUCCESS)
 892                 return 0;
 893
 894         sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
 895         sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
 896
 897         atomic_set(&mdev->packet_seq, 0);
 898         mdev->peer_seq = 0;
 899
 900         drbd_thread_start(&mdev->asender);
 901
 902         if (mdev->agreed_pro_version < 95 && get_ldev(mdev)) {
 903                 drbd_setup_queue_param(mdev, DRBD_MAX_SIZE_H80_PACKET);
 904                 put_ldev(mdev);
 905         }
 906
 907         if (drbd_send_protocol(mdev) == -1)
 908                 return -1;
 909         drbd_send_sync_param(mdev, &mdev->sync_conf);
 910         drbd_send_sizes(mdev, 0, 0);
 911         drbd_send_uuids(mdev);
 912         drbd_send_state(mdev);
 913         clear_bit(USE_DEGR_WFC_T, &mdev->flags);
 914         clear_bit(RESIZE_PENDING, &mdev->flags);
 915
 916         return 1;
 917
 918 out_release_sockets:
 919         if (sock)
 920                 sock_release(sock);
 921         if (msock)
 922                 sock_release(msock);
 923         return -1;
 924 }
 925
 926 static int drbd_recv_header(struct drbd_conf *mdev, enum drbd_packets *cmd, unsigned int *packet_size)
 927 {
 928         union p_header *h = &mdev->data.rbuf.header;
 929         int r;
 930
 931         r = drbd_recv(mdev, h, sizeof(*h));
 932         if (unlikely(r != sizeof(*h))) {
 933                 dev_err(DEV, "short read expecting header on sock: r=%d\n", r);
 934                 return false;
 935         }
 936
 937         if (likely(h->h80.magic == BE_DRBD_MAGIC)) {
 938                 *cmd = be16_to_cpu(h->h80.command);
 939                 *packet_size = be16_to_cpu(h->h80.length);
 940         } else if (h->h95.magic == BE_DRBD_MAGIC_BIG) {
 941                 *cmd = be16_to_cpu(h->h95.command);
 942                 *packet_size = be32_to_cpu(h->h95.length);
 943         } else {
 944                 dev_err(DEV, "magic?? on data m: 0x%08x c: %d l: %d\n",
 945                     be32_to_cpu(h->h80.magic),
 946                     be16_to_cpu(h->h80.command),
 947                     be16_to_cpu(h->h80.length));
 948                 return false;
 949         }
 950         mdev->last_received = jiffies;
 951
 952         return true;
 953 }
 954
 955 static void drbd_flush(struct drbd_conf *mdev)
 956 {
 957         int rv;
 958
 959         if (mdev->write_ordering >= WO_bdev_flush && get_ldev(mdev)) {
 960                 rv = blkdev_issue_flush(mdev->ldev->backing_bdev, GFP_KERNEL,
 961                                         NULL);
 962                 if (rv) {
 963                         dev_err(DEV, "local disk flush failed with status %d\n", rv);
 964                         /* would rather check on EOPNOTSUPP, but that is not reliable.
 965                          * don't try again for ANY return value != 0
 966                          * if (rv == -EOPNOTSUPP) */
 967                         drbd_bump_write_ordering(mdev, WO_drain_io);
 968                 }
 969                 put_ldev(mdev);
 970         }
 971 }
 972
 973 /**
 974  * drbd_may_finish_epoch() - Applies an epoch_event to the epoch's state, eventually finishes it.
 975  * @mdev:       DRBD device.
 976  * @epoch:      Epoch object.
 977  * @ev:         Epoch event.
 978  */
 979 static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf *mdev,
 980                                                struct drbd_epoch *epoch,
 981                                                enum epoch_event ev)
 982 {
 983         int epoch_size;
 984         struct drbd_epoch *next_epoch;
 985         enum finish_epoch rv = FE_STILL_LIVE;
 986
 987         spin_lock(&mdev->epoch_lock);
 988         do {
 989                 next_epoch = NULL;
 990
 991                 epoch_size = atomic_read(&epoch->epoch_size);
 992
 993                 switch (ev & ~EV_CLEANUP) {
 994                 case EV_PUT:
 995                         atomic_dec(&epoch->active);
 996                         break;
 997                 case EV_GOT_BARRIER_NR:
 998                         set_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags);
 999                         break;
1000                 case EV_BECAME_LAST:
1001                         /* nothing to do*/
1002                         break;
1003                 }
1004
1005                 if (epoch_size != 0 &&
1006                     atomic_read(&epoch->active) == 0 &&
1007                     test_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags)) {
1008                         if (!(ev & EV_CLEANUP)) {
1009                                 spin_unlock(&mdev->epoch_lock);
1010                                 drbd_send_b_ack(mdev, epoch->barrier_nr, epoch_size);
1011                                 spin_lock(&mdev->epoch_lock);
1012                         }
1013                         dec_unacked(mdev);
1014
1015                         if (mdev->current_epoch != epoch) {
1016                                 next_epoch = list_entry(epoch->list.next, struct drbd_epoch, list);
1017                                 list_del(&epoch->list);
1018                                 ev = EV_BECAME_LAST | (ev & EV_CLEANUP);
1019                                 mdev->epochs--;
1020                                 kfree(epoch);
1021
1022                                 if (rv == FE_STILL_LIVE)
1023                                         rv = FE_DESTROYED;
1024                         } else {
1025                                 epoch->flags = 0;
1026                                 atomic_set(&epoch->epoch_size, 0);
1027                                 /* atomic_set(&epoch->active, 0); is already zero */
1028                                 if (rv == FE_STILL_LIVE)
1029                                         rv = FE_RECYCLED;
1030                                 wake_up(&mdev->ee_wait);
1031                         }
1032                 }
1033
1034                 if (!next_epoch)
1035                         break;
1036
1037                 epoch = next_epoch;
1038         } while (1);
1039
1040         spin_unlock(&mdev->epoch_lock);
1041
1042         return rv;
1043 }
1044
1045 /**
1046  * drbd_bump_write_ordering() - Fall back to an other write ordering method
1047  * @mdev:       DRBD device.
1048  * @wo:         Write ordering method to try.
1049  */
1050 void drbd_bump_write_ordering(struct drbd_conf *mdev, enum write_ordering_e wo) __must_hold(local)
1051 {
1052         enum write_ordering_e pwo;
1053         static char *write_ordering_str[] = {
1054                 [WO_none] = "none",
1055                 [WO_drain_io] = "drain",
1056                 [WO_bdev_flush] = "flush",
1057         };
1058
1059         pwo = mdev->write_ordering;
1060         wo = min(pwo, wo);
1061         if (wo == WO_bdev_flush && mdev->ldev->dc.no_disk_flush)
1062                 wo = WO_drain_io;
1063         if (wo == WO_drain_io && mdev->ldev->dc.no_disk_drain)
1064                 wo = WO_none;
1065         mdev->write_ordering = wo;
1066         if (pwo != mdev->write_ordering || wo == WO_bdev_flush)
1067                 dev_info(DEV, "Method to ensure write ordering: %s\n", write_ordering_str[mdev->write_ordering]);
1068 }
1069
1070 /**
1071  * drbd_submit_ee()
1072  * @mdev:       DRBD device.
1073  * @e:          epoch entry
1074  * @rw:         flag field, see bio->bi_rw
1075  */
1076 /* TODO allocate from our own bio_set. */
1077 int drbd_submit_ee(struct drbd_conf *mdev, struct drbd_epoch_entry *e,
1078                 const unsigned rw, const int fault_type)
1079 {
1080         struct bio *bios = NULL;
1081         struct bio *bio;
1082         struct page *page = e->pages;
1083         sector_t sector = e->sector;
1084         unsigned ds = e->size;
1085         unsigned n_bios = 0;
1086         unsigned nr_pages = (ds + PAGE_SIZE -1) >> PAGE_SHIFT;
1087
1088         /* In most cases, we will only need one bio.  But in case the lower
1089          * level restrictions happen to be different at this offset on this
1090          * side than those of the sending peer, we may need to submit the
1091          * request in more than one bio. */
1092 next_bio:
1093         bio = bio_alloc(GFP_NOIO, nr_pages);
1094         if (!bio) {
1095                 dev_err(DEV, "submit_ee: Allocation of a bio failed\n");
1096                 goto fail;
1097         }
1098         /* > e->sector, unless this is the first bio */
1099         bio->bi_sector = sector;
1100         bio->bi_bdev = mdev->ldev->backing_bdev;
1101         bio->bi_rw = rw;
1102         bio->bi_private = e;
1103         bio->bi_end_io = drbd_endio_sec;
1104
1105         bio->bi_next = bios;
1106         bios = bio;
1107         ++n_bios;
1108
1109         page_chain_for_each(page) {
1110                 unsigned len = min_t(unsigned, ds, PAGE_SIZE);
1111                 if (!bio_add_page(bio, page, len, 0)) {
1112                         /* a single page must always be possible! */
1113                         BUG_ON(bio->bi_vcnt == 0);
1114                         goto next_bio;
1115                 }
1116                 ds -= len;
1117                 sector += len >> 9;
1118                 --nr_pages;
1119         }
1120         D_ASSERT(page == NULL);
1121         D_ASSERT(ds == 0);
1122
1123         atomic_set(&e->pending_bios, n_bios);
1124         do {
1125                 bio = bios;
1126                 bios = bios->bi_next;
1127                 bio->bi_next = NULL;
1128
1129                 drbd_generic_make_request(mdev, fault_type, bio);
1130         } while (bios);
1131         return 0;
1132
1133 fail:
1134         while (bios) {
1135                 bio = bios;
1136                 bios = bios->bi_next;
1137                 bio_put(bio);
1138         }
1139         return -ENOMEM;
1140 }
1141
1142 static int receive_Barrier(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
1143 {
1144         int rv;
1145         struct p_barrier *p = &mdev->data.rbuf.barrier;
1146         struct drbd_epoch *epoch;
1147
1148         inc_unacked(mdev);
1149
1150         mdev->current_epoch->barrier_nr = p->barrier;
1151         rv = drbd_may_finish_epoch(mdev, mdev->current_epoch, EV_GOT_BARRIER_NR);
1152
1153         /* P_BARRIER_ACK may imply that the corresponding extent is dropped from
1154          * the activity log, which means it would not be resynced in case the
1155          * R_PRIMARY crashes now.
1156          * Therefore we must send the barrier_ack after the barrier request was
1157          * completed. */
1158         switch (mdev->write_ordering) {
1159         case WO_none:
1160                 if (rv == FE_RECYCLED)
1161                         return true;
1162
1163                 /* receiver context, in the writeout path of the other node.
1164                  * avoid potential distributed deadlock */
1165                 epoch = kmalloc(sizeof(struct drbd_epoch), GFP_NOIO);
1166                 if (epoch)
1167                         break;
1168                 else
1169                         dev_warn(DEV, "Allocation of an epoch failed, slowing down\n");
1170                         /* Fall through */
1171
1172         case WO_bdev_flush:
1173         case WO_drain_io:
1174                 drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
1175                 drbd_flush(mdev);
1176
1177                 if (atomic_read(&mdev->current_epoch->epoch_size)) {
1178                         epoch = kmalloc(sizeof(struct drbd_epoch), GFP_NOIO);
1179                         if (epoch)
1180                                 break;
1181                 }
1182
1183                 epoch = mdev->current_epoch;
1184                 wait_event(mdev->ee_wait, atomic_read(&epoch->epoch_size) == 0);
1185
1186                 D_ASSERT(atomic_read(&epoch->active) == 0);
1187                 D_ASSERT(epoch->flags == 0);
1188
1189                 return true;
1190         default:
1191                 dev_err(DEV, "Strangeness in mdev->write_ordering %d\n", mdev->write_ordering);
1192                 return false;
1193         }
1194
1195         epoch->flags = 0;
1196         atomic_set(&epoch->epoch_size, 0);
1197         atomic_set(&epoch->active, 0);
1198
1199         spin_lock(&mdev->epoch_lock);
1200         if (atomic_read(&mdev->current_epoch->epoch_size)) {
1201                 list_add(&epoch->list, &mdev->current_epoch->list);
1202                 mdev->current_epoch = epoch;
1203                 mdev->epochs++;
1204         } else {
1205                 /* The current_epoch got recycled while we allocated this one... */
1206                 kfree(epoch);
1207         }
1208         spin_unlock(&mdev->epoch_lock);
1209
1210         return true;
1211 }
1212
1213 /* used from receive_RSDataReply (recv_resync_read)
1214  * and from receive_Data */
1215 static struct drbd_epoch_entry *
1216 read_in_block(struct drbd_conf *mdev, u64 id, sector_t sector, int data_size) __must_hold(local)
1217 {
1218         const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
1219         struct drbd_epoch_entry *e;
1220         struct page *page;
1221         int dgs, ds, rr;
1222         void *dig_in = mdev->int_dig_in;
1223         void *dig_vv = mdev->int_dig_vv;
1224         unsigned long *data;
1225
1226         dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
1227                 crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
1228
1229         if (dgs) {
1230                 rr = drbd_recv(mdev, dig_in, dgs);
1231                 if (rr != dgs) {
1232                         dev_warn(DEV, "short read receiving data digest: read %d expected %d\n",
1233                              rr, dgs);
1234                         return NULL;
1235                 }
1236         }
1237
1238         data_size -= dgs;
1239
1240         ERR_IF(data_size &  0x1ff) return NULL;
1241         ERR_IF(data_size >  DRBD_MAX_BIO_SIZE) return NULL;
1242
1243         /* even though we trust out peer,
1244          * we sometimes have to double check. */
1245         if (sector + (data_size>>9) > capacity) {
1246                 dev_err(DEV, "capacity: %llus < sector: %llus + size: %u\n",
1247                         (unsigned long long)capacity,
1248                         (unsigned long long)sector, data_size);
1249                 return NULL;
1250         }
1251
1252         /* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
1253          * "criss-cross" setup, that might cause write-out on some other DRBD,
1254          * which in turn might block on the other node at this very place.  */
1255         e = drbd_alloc_ee(mdev, id, sector, data_size, GFP_NOIO);
1256         if (!e)
1257                 return NULL;
1258
1259         ds = data_size;
1260         page = e->pages;
1261         page_chain_for_each(page) {
1262                 unsigned len = min_t(int, ds, PAGE_SIZE);
1263                 data = kmap(page);
1264                 rr = drbd_recv(mdev, data, len);
1265                 if (drbd_insert_fault(mdev, DRBD_FAULT_RECEIVE)) {
1266                         dev_err(DEV, "Fault injection: Corrupting data on receive\n");
1267                         data[0] = data[0] ^ (unsigned long)-1;
1268                 }
1269                 kunmap(page);
1270                 if (rr != len) {
1271                         drbd_free_ee(mdev, e);
1272                         dev_warn(DEV, "short read receiving data: read %d expected %d\n",
1273                              rr, len);
1274                         return NULL;
1275                 }
1276                 ds -= rr;
1277         }
1278
1279         if (dgs) {
1280                 drbd_csum_ee(mdev, mdev->integrity_r_tfm, e, dig_vv);
1281                 if (memcmp(dig_in, dig_vv, dgs)) {
1282                         dev_err(DEV, "Digest integrity check FAILED: %llus +%u\n",
1283                                 (unsigned long long)sector, data_size);
1284                         drbd_bcast_ee(mdev, "digest failed",
1285                                         dgs, dig_in, dig_vv, e);
1286                         drbd_free_ee(mdev, e);
1287                         return NULL;
1288                 }
1289         }
1290         mdev->recv_cnt += data_size>>9;
1291         return e;
1292 }
1293
1294 /* drbd_drain_block() just takes a data block
1295  * out of the socket input buffer, and discards it.
1296  */
1297 static int drbd_drain_block(struct drbd_conf *mdev, int data_size)
1298 {
1299         struct page *page;
1300         int rr, rv = 1;
1301         void *data;
1302
1303         if (!data_size)
1304                 return true;
1305
1306         page = drbd_pp_alloc(mdev, 1, 1);
1307
1308         data = kmap(page);
1309         while (data_size) {
1310                 rr = drbd_recv(mdev, data, min_t(int, data_size, PAGE_SIZE));
1311                 if (rr != min_t(int, data_size, PAGE_SIZE)) {
1312                         rv = 0;
1313                         dev_warn(DEV, "short read receiving data: read %d expected %d\n",
1314                              rr, min_t(int, data_size, PAGE_SIZE));
1315                         break;
1316                 }
1317                 data_size -= rr;
1318         }
1319         kunmap(page);
1320         drbd_pp_free(mdev, page, 0);
1321         return rv;
1322 }
1323
1324 static int recv_dless_read(struct drbd_conf *mdev, struct drbd_request *req,
1325                            sector_t sector, int data_size)
1326 {
1327         struct bio_vec *bvec;
1328         struct bio *bio;
1329         int dgs, rr, i, expect;
1330         void *dig_in = mdev->int_dig_in;
1331         void *dig_vv = mdev->int_dig_vv;
1332
1333         dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
1334                 crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
1335
1336         if (dgs) {
1337                 rr = drbd_recv(mdev, dig_in, dgs);
1338                 if (rr != dgs) {
1339                         dev_warn(DEV, "short read receiving data reply digest: read %d expected %d\n",
1340                              rr, dgs);
1341                         return 0;
1342                 }
1343         }
1344
1345         data_size -= dgs;
1346
1347         /* optimistically update recv_cnt.  if receiving fails below,
1348          * we disconnect anyways, and counters will be reset. */
1349         mdev->recv_cnt += data_size>>9;
1350
1351         bio = req->master_bio;
1352         D_ASSERT(sector == bio->bi_sector);
1353
1354         bio_for_each_segment(bvec, bio, i) {
1355                 expect = min_t(int, data_size, bvec->bv_len);
1356                 rr = drbd_recv(mdev,
1357                              kmap(bvec->bv_page)+bvec->bv_offset,
1358                              expect);
1359                 kunmap(bvec->bv_page);
1360                 if (rr != expect) {
1361                         dev_warn(DEV, "short read receiving data reply: "
1362                              "read %d expected %d\n",
1363                              rr, expect);
1364                         return 0;
1365                 }
1366                 data_size -= rr;
1367         }
1368
1369         if (dgs) {
1370                 drbd_csum_bio(mdev, mdev->integrity_r_tfm, bio, dig_vv);
1371                 if (memcmp(dig_in, dig_vv, dgs)) {
1372                         dev_err(DEV, "Digest integrity check FAILED. Broken NICs?\n");
1373                         return 0;
1374                 }
1375         }
1376
1377         D_ASSERT(data_size == 0);
1378         return 1;
1379 }
1380
1381 /* e_end_resync_block() is called via
1382  * drbd_process_done_ee() by asender only */
1383 static int e_end_resync_block(struct drbd_conf *mdev, struct drbd_work *w, int unused)
1384 {
1385         struct drbd_epoch_entry *e = (struct drbd_epoch_entry *)w;
1386         sector_t sector = e->sector;
1387         int ok;
1388
1389         D_ASSERT(hlist_unhashed(&e->colision));
1390
1391         if (likely((e->flags & EE_WAS_ERROR) == 0)) {
1392                 drbd_set_in_sync(mdev, sector, e->size);
1393                 ok = drbd_send_ack(mdev, P_RS_WRITE_ACK, e);
1394         } else {
1395                 /* Record failure to sync */
1396                 drbd_rs_failed_io(mdev, sector, e->size);
1397
1398                 ok  = drbd_send_ack(mdev, P_NEG_ACK, e);
1399         }
1400         dec_unacked(mdev);
1401
1402         return ok;
1403 }
1404
1405 static int recv_resync_read(struct drbd_conf *mdev, sector_t sector, int data_size) __releases(local)
1406 {
1407         struct drbd_epoch_entry *e;
1408
1409         e = read_in_block(mdev, ID_SYNCER, sector, data_size);
1410         if (!e)
1411                 goto fail;
1412
1413         dec_rs_pending(mdev);
1414
1415         inc_unacked(mdev);
1416         /* corresponding dec_unacked() in e_end_resync_block()
1417          * respective _drbd_clear_done_ee */
1418
1419         e->w.cb = e_end_resync_block;
1420
1421         spin_lock_irq(&mdev->req_lock);
1422         list_add(&e->w.list, &mdev->sync_ee);
1423         spin_unlock_irq(&mdev->req_lock);
1424
1425         atomic_add(data_size >> 9, &mdev->rs_sect_ev);
1426         if (drbd_submit_ee(mdev, e, WRITE, DRBD_FAULT_RS_WR) == 0)
1427                 return true;
1428
1429         /* drbd_submit_ee currently fails for one reason only:
1430          * not being able to allocate enough bios.
1431          * Is dropping the connection going to help? */
1432         spin_lock_irq(&mdev->req_lock);
1433         list_del(&e->w.list);
1434         spin_unlock_irq(&mdev->req_lock);
1435
1436         drbd_free_ee(mdev, e);
1437 fail:
1438         put_ldev(mdev);
1439         return false;
1440 }
1441
1442 static int receive_DataReply(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
1443 {
1444         struct drbd_request *req;
1445         sector_t sector;
1446         int ok;
1447         struct p_data *p = &mdev->data.rbuf.data;
1448
1449         sector = be64_to_cpu(p->sector);
1450
1451         spin_lock_irq(&mdev->req_lock);
1452         req = _ar_id_to_req(mdev, p->block_id, sector);
1453         spin_unlock_irq(&mdev->req_lock);
1454         if (unlikely(!req)) {
1455                 dev_err(DEV, "Got a corrupt block_id/sector pair(1).\n");
1456                 return false;
1457         }
1458
1459         /* hlist_del(&req->colision) is done in _req_may_be_done, to avoid
1460          * special casing it there for the various failure cases.
1461          * still no race with drbd_fail_pending_reads */
1462         ok = recv_dless_read(mdev, req, sector, data_size);
1463
1464         if (ok)
1465                 req_mod(req, data_received);
1466         /* else: nothing. handled from drbd_disconnect...
1467          * I don't think we may complete this just yet
1468          * in case we are "on-disconnect: freeze" */
1469
1470         return ok;
1471 }
1472
1473 static int receive_RSDataReply(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
1474 {
1475         sector_t sector;
1476         int ok;
1477         struct p_data *p = &mdev->data.rbuf.data;
1478
1479         sector = be64_to_cpu(p->sector);
1480         D_ASSERT(p->block_id == ID_SYNCER);
1481
1482         if (get_ldev(mdev)) {
1483                 /* data is submitted to disk within recv_resync_read.
1484                  * corresponding put_ldev done below on error,
1485                  * or in drbd_endio_write_sec. */
1486                 ok = recv_resync_read(mdev, sector, data_size);
1487         } else {
1488                 if (__ratelimit(&drbd_ratelimit_state))
1489                         dev_err(DEV, "Can not write resync data to local disk.\n");
1490
1491                 ok = drbd_drain_block(mdev, data_size);
1492
1493                 drbd_send_ack_dp(mdev, P_NEG_ACK, p, data_size);
1494         }
1495
1496         atomic_add(data_size >> 9, &mdev->rs_sect_in);
1497
1498         return ok;
1499 }
1500
1501 /* e_end_block() is called via drbd_process_done_ee().
1502  * this means this function only runs in the asender thread
1503  */
1504 static int e_end_block(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1505 {
1506         struct drbd_epoch_entry *e = (struct drbd_epoch_entry *)w;
1507         sector_t sector = e->sector;
1508         int ok = 1, pcmd;
1509
1510         if (mdev->net_conf->wire_protocol == DRBD_PROT_C) {
1511                 if (likely((e->flags & EE_WAS_ERROR) == 0)) {
1512                         pcmd = (mdev->state.conn >= C_SYNC_SOURCE &&
1513                                 mdev->state.conn <= C_PAUSED_SYNC_T &&
1514                                 e->flags & EE_MAY_SET_IN_SYNC) ?
1515                                 P_RS_WRITE_ACK : P_WRITE_ACK;
1516                         ok &= drbd_send_ack(mdev, pcmd, e);
1517                         if (pcmd == P_RS_WRITE_ACK)
1518                                 drbd_set_in_sync(mdev, sector, e->size);
1519                 } else {
1520                         ok  = drbd_send_ack(mdev, P_NEG_ACK, e);
1521                         /* we expect it to be marked out of sync anyways...
1522                          * maybe assert this?  */
1523                 }
1524                 dec_unacked(mdev);
1525         }
1526         /* we delete from the conflict detection hash _after_ we sent out the
1527          * P_WRITE_ACK / P_NEG_ACK, to get the sequence number right.  */
1528         if (mdev->net_conf->two_primaries) {
1529                 spin_lock_irq(&mdev->req_lock);
1530                 D_ASSERT(!hlist_unhashed(&e->colision));
1531                 hlist_del_init(&e->colision);
1532                 spin_unlock_irq(&mdev->req_lock);
1533         } else {
1534                 D_ASSERT(hlist_unhashed(&e->colision));
1535         }
1536
1537         drbd_may_finish_epoch(mdev, e->epoch, EV_PUT + (cancel ? EV_CLEANUP : 0));
1538
1539         return ok;
1540 }
1541
1542 static int e_send_discard_ack(struct drbd_conf *mdev, struct drbd_work *w, int unused)
1543 {
1544         struct drbd_epoch_entry *e = (struct drbd_epoch_entry *)w;
1545         int ok = 1;
1546
1547         D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
1548         ok = drbd_send_ack(mdev, P_DISCARD_ACK, e);
1549
1550         spin_lock_irq(&mdev->req_lock);
1551         D_ASSERT(!hlist_unhashed(&e->colision));
1552         hlist_del_init(&e->colision);
1553         spin_unlock_irq(&mdev->req_lock);
1554
1555         dec_unacked(mdev);
1556
1557         return ok;
1558 }
1559
1560 /* Called from receive_Data.
1561  * Synchronize packets on sock with packets on msock.
1562  *
1563  * This is here so even when a P_DATA packet traveling via sock overtook an Ack
1564  * packet traveling on msock, they are still processed in the order they have
1565  * been sent.
1566  *
1567  * Note: we don't care for Ack packets overtaking P_DATA packets.
1568  *
1569  * In case packet_seq is larger than mdev->peer_seq number, there are
1570  * outstanding packets on the msock. We wait for them to arrive.
1571  * In case we are the logically next packet, we update mdev->peer_seq
1572  * ourselves. Correctly handles 32bit wrap around.
1573  *
1574  * Assume we have a 10 GBit connection, that is about 1<<30 byte per second,
1575  * about 1<<21 sectors per second. So "worst" case, we have 1<<3 == 8 seconds
1576  * for the 24bit wrap (historical atomic_t guarantee on some archs), and we have
1577  * 1<<9 == 512 seconds aka ages for the 32bit wrap around...
1578  *
1579  * returns 0 if we may process the packet,
1580  * -ERESTARTSYS if we were interrupted (by disconnect signal). */
1581 static int drbd_wait_peer_seq(struct drbd_conf *mdev, const u32 packet_seq)
1582 {
1583         DEFINE_WAIT(wait);
1584         unsigned int p_seq;
1585         long timeout;
1586         int ret = 0;
1587         spin_lock(&mdev->peer_seq_lock);
1588         for (;;) {
1589                 prepare_to_wait(&mdev->seq_wait, &wait, TASK_INTERRUPTIBLE);
1590                 if (seq_le(packet_seq, mdev->peer_seq+1))
1591                         break;
1592                 if (signal_pending(current)) {
1593                         ret = -ERESTARTSYS;
1594                         break;
1595                 }
1596                 p_seq = mdev->peer_seq;
1597                 spin_unlock(&mdev->peer_seq_lock);
1598                 timeout = schedule_timeout(30*HZ);
1599                 spin_lock(&mdev->peer_seq_lock);
1600                 if (timeout == 0 && p_seq == mdev->peer_seq) {
1601                         ret = -ETIMEDOUT;
1602                         dev_err(DEV, "ASSERT FAILED waited 30 seconds for sequence update, forcing reconnect\n");
1603                         break;
1604                 }
1605         }
1606         finish_wait(&mdev->seq_wait, &wait);
1607         if (mdev->peer_seq+1 == packet_seq)
1608                 mdev->peer_seq++;
1609         spin_unlock(&mdev->peer_seq_lock);
1610         return ret;
1611 }
1612
1613 /* see also bio_flags_to_wire()
1614  * DRBD_REQ_*, because we need to semantically map the flags to data packet
1615  * flags and back. We may replicate to other kernel versions. */
1616 static unsigned long wire_flags_to_bio(struct drbd_conf *mdev, u32 dpf)
1617 {
1618         return  (dpf & DP_RW_SYNC ? REQ_SYNC : 0) |
1619                 (dpf & DP_FUA ? REQ_FUA : 0) |
1620                 (dpf & DP_FLUSH ? REQ_FLUSH : 0) |
1621                 (dpf & DP_DISCARD ? REQ_DISCARD : 0);
1622 }
1623
1624 /* mirrored write */
1625 static int receive_Data(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
1626 {
1627         sector_t sector;
1628         struct drbd_epoch_entry *e;
1629         struct p_data *p = &mdev->data.rbuf.data;
1630         int rw = WRITE;
1631         u32 dp_flags;
1632
1633         if (!get_ldev(mdev)) {
1634                 spin_lock(&mdev->peer_seq_lock);
1635                 if (mdev->peer_seq+1 == be32_to_cpu(p->seq_num))
1636                         mdev->peer_seq++;
1637                 spin_unlock(&mdev->peer_seq_lock);
1638
1639                 drbd_send_ack_dp(mdev, P_NEG_ACK, p, data_size);
1640                 atomic_inc(&mdev->current_epoch->epoch_size);
1641                 return drbd_drain_block(mdev, data_size);
1642         }
1643
1644         /* get_ldev(mdev) successful.
1645          * Corresponding put_ldev done either below (on various errors),
1646          * or in drbd_endio_write_sec, if we successfully submit the data at
1647          * the end of this function. */
1648
1649         sector = be64_to_cpu(p->sector);
1650         e = read_in_block(mdev, p->block_id, sector, data_size);
1651         if (!e) {
1652                 put_ldev(mdev);
1653                 return false;
1654         }
1655
1656         e->w.cb = e_end_block;
1657
1658         dp_flags = be32_to_cpu(p->dp_flags);
1659         rw |= wire_flags_to_bio(mdev, dp_flags);
1660
1661         if (dp_flags & DP_MAY_SET_IN_SYNC)
1662                 e->flags |= EE_MAY_SET_IN_SYNC;
1663
1664         spin_lock(&mdev->epoch_lock);
1665         e->epoch = mdev->current_epoch;
1666         atomic_inc(&e->epoch->epoch_size);
1667         atomic_inc(&e->epoch->active);
1668         spin_unlock(&mdev->epoch_lock);
1669
1670         /* I'm the receiver, I do hold a net_cnt reference. */
1671         if (!mdev->net_conf->two_primaries) {
1672                 spin_lock_irq(&mdev->req_lock);
1673         } else {
1674                 /* don't get the req_lock yet,
1675                  * we may sleep in drbd_wait_peer_seq */
1676                 const int size = e->size;
1677                 const int discard = test_bit(DISCARD_CONCURRENT, &mdev->flags);
1678                 DEFINE_WAIT(wait);
1679                 struct drbd_request *i;
1680                 struct hlist_node *n;
1681                 struct hlist_head *slot;
1682                 int first;
1683
1684                 D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
1685                 BUG_ON(mdev->ee_hash == NULL);
1686                 BUG_ON(mdev->tl_hash == NULL);
1687
1688                 /* conflict detection and handling:
1689                  * 1. wait on the sequence number,
1690                  *    in case this data packet overtook ACK packets.
1691                  * 2. check our hash tables for conflicting requests.
1692                  *    we only need to walk the tl_hash, since an ee can not
1693                  *    have a conflict with an other ee: on the submitting
1694                  *    node, the corresponding req had already been conflicting,
1695                  *    and a conflicting req is never sent.
1696                  *
1697                  * Note: for two_primaries, we are protocol C,
1698                  * so there cannot be any request that is DONE
1699                  * but still on the transfer log.
1700                  *
1701                  * unconditionally add to the ee_hash.
1702                  *
1703                  * if no conflicting request is found:
1704                  *    submit.
1705                  *
1706                  * if any conflicting request is found
1707                  * that has not yet been acked,
1708                  * AND I have the "discard concurrent writes" flag:
1709                  *       queue (via done_ee) the P_DISCARD_ACK; OUT.
1710                  *
1711                  * if any conflicting request is found:
1712                  *       block the receiver, waiting on misc_wait
1713                  *       until no more conflicting requests are there,
1714                  *       or we get interrupted (disconnect).
1715                  *
1716                  *       we do not just write after local io completion of those
1717                  *       requests, but only after req is done completely, i.e.
1718                  *       we wait for the P_DISCARD_ACK to arrive!
1719                  *
1720                  *       then proceed normally, i.e. submit.
1721                  */
1722                 if (drbd_wait_peer_seq(mdev, be32_to_cpu(p->seq_num)))
1723                         goto out_interrupted;
1724
1725                 spin_lock_irq(&mdev->req_lock);
1726
1727                 hlist_add_head(&e->colision, ee_hash_slot(mdev, sector));
1728
1729 #define OVERLAPS overlaps(i->sector, i->size, sector, size)
1730                 slot = tl_hash_slot(mdev, sector);
1731                 first = 1;
1732                 for (;;) {
1733                         int have_unacked = 0;
1734                         int have_conflict = 0;
1735                         prepare_to_wait(&mdev->misc_wait, &wait,
1736                                 TASK_INTERRUPTIBLE);
1737                         hlist_for_each_entry(i, n, slot, colision) {
1738                                 if (OVERLAPS) {
1739                                         /* only ALERT on first iteration,
1740                                          * we may be woken up early... */
1741                                         if (first)
1742                                                 dev_alert(DEV, "%s[%u] Concurrent local write detected!"
1743                                                       " new: %llus +%u; pending: %llus +%u\n",
1744                                                       current->comm, current->pid,
1745                                                       (unsigned long long)sector, size,
1746                                                       (unsigned long long)i->sector, i->size);
1747                                         if (i->rq_state & RQ_NET_PENDING)
1748                                                 ++have_unacked;
1749                                         ++have_conflict;
1750                                 }
1751                         }
1752 #undef OVERLAPS
1753                         if (!have_conflict)
1754                                 break;
1755
1756                         /* Discard Ack only for the _first_ iteration */
1757                         if (first && discard && have_unacked) {
1758                                 dev_alert(DEV, "Concurrent write! [DISCARD BY FLAG] sec=%llus\n",
1759                                      (unsigned long long)sector);
1760                                 inc_unacked(mdev);
1761                                 e->w.cb = e_send_discard_ack;
1762                                 list_add_tail(&e->w.list, &mdev->done_ee);
1763
1764                                 spin_unlock_irq(&mdev->req_lock);
1765
1766                                 /* we could probably send that P_DISCARD_ACK ourselves,
1767                                  * but I don't like the receiver using the msock */
1768
1769                                 put_ldev(mdev);
1770                                 wake_asender(mdev);
1771                                 finish_wait(&mdev->misc_wait, &wait);
1772                                 return true;
1773                         }
1774
1775                         if (signal_pending(current)) {
1776                                 hlist_del_init(&e->colision);
1777
1778                                 spin_unlock_irq(&mdev->req_lock);
1779
1780                                 finish_wait(&mdev->misc_wait, &wait);
1781                                 goto out_interrupted;
1782                         }
1783
1784                         spin_unlock_irq(&mdev->req_lock);
1785                         if (first) {
1786                                 first = 0;
1787                                 dev_alert(DEV, "Concurrent write! [W AFTERWARDS] "
1788                                      "sec=%llus\n", (unsigned long long)sector);
1789                         } else if (discard) {
1790                                 /* we had none on the first iteration.
1791                                  * there must be none now. */
1792                                 D_ASSERT(have_unacked == 0);
1793                         }
1794                         schedule();
1795                         spin_lock_irq(&mdev->req_lock);
1796                 }
1797                 finish_wait(&mdev->misc_wait, &wait);
1798         }
1799
1800         list_add(&e->w.list, &mdev->active_ee);
1801         spin_unlock_irq(&mdev->req_lock);
1802
1803         switch (mdev->net_conf->wire_protocol) {
1804         case DRBD_PROT_C:
1805                 inc_unacked(mdev);
1806                 /* corresponding dec_unacked() in e_end_block()
1807                  * respective _drbd_clear_done_ee */
1808                 break;
1809         case DRBD_PROT_B:
1810                 /* I really don't like it that the receiver thread
1811                  * sends on the msock, but anyways */
1812                 drbd_send_ack(mdev, P_RECV_ACK, e);
1813                 break;
1814         case DRBD_PROT_A:
1815                 /* nothing to do */
1816                 break;
1817         }
1818
1819         if (mdev->state.pdsk < D_INCONSISTENT) {
1820                 /* In case we have the only disk of the cluster, */
1821                 drbd_set_out_of_sync(mdev, e->sector, e->size);
1822                 e->flags |= EE_CALL_AL_COMPLETE_IO;
1823                 e->flags &= ~EE_MAY_SET_IN_SYNC;
1824                 drbd_al_begin_io(mdev, e->sector);
1825         }
1826
1827         if (drbd_submit_ee(mdev, e, rw, DRBD_FAULT_DT_WR) == 0)
1828                 return true;
1829
1830         /* drbd_submit_ee currently fails for one reason only:
1831          * not being able to allocate enough bios.
1832          * Is dropping the connection going to help? */
1833         spin_lock_irq(&mdev->req_lock);
1834         list_del(&e->w.list);
1835         hlist_del_init(&e->colision);
1836         spin_unlock_irq(&mdev->req_lock);
1837         if (e->flags & EE_CALL_AL_COMPLETE_IO)
1838                 drbd_al_complete_io(mdev, e->sector);
1839
1840 out_interrupted:
1841         /* yes, the epoch_size now is imbalanced.
1842          * but we drop the connection anyways, so we don't have a chance to
1843          * receive a barrier... atomic_inc(&mdev->epoch_size); */
1844         put_ldev(mdev);
1845         drbd_free_ee(mdev, e);
1846         return false;
1847 }
1848
1849 /* We may throttle resync, if the lower device seems to be busy,
1850  * and current sync rate is above c_min_rate.
1851  *
1852  * To decide whether or not the lower device is busy, we use a scheme similar
1853  * to MD RAID is_mddev_idle(): if the partition stats reveal "significant"
1854  * (more than 64 sectors) of activity we cannot account for with our own resync
1855  * activity, it obviously is "busy".
1856  *
1857  * The current sync rate used here uses only the most recent two step marks,
1858  * to have a short time average so we can react faster.
1859  */
1860 int drbd_rs_should_slow_down(struct drbd_conf *mdev, sector_t sector)
1861 {
1862         struct gendisk *disk = mdev->ldev->backing_bdev->bd_contains->bd_disk;
1863         unsigned long db, dt, dbdt;
1864         struct lc_element *tmp;
1865         int curr_events;
1866         int throttle = 0;
1867
1868         /* feature disabled? */
1869         if (mdev->sync_conf.c_min_rate == 0)
1870                 return 0;
1871
1872         spin_lock_irq(&mdev->al_lock);
1873         tmp = lc_find(mdev->resync, BM_SECT_TO_EXT(sector));
1874         if (tmp) {
1875                 struct bm_extent *bm_ext = lc_entry(tmp, struct bm_extent, lce);
1876                 if (test_bit(BME_PRIORITY, &bm_ext->flags)) {
1877                         spin_unlock_irq(&mdev->al_lock);
1878                         return 0;
1879                 }
1880                 /* Do not slow down if app IO is already waiting for this extent */
1881         }
1882         spin_unlock_irq(&mdev->al_lock);
1883
1884         curr_events = (int)part_stat_read(&disk->part0, sectors[0]) +
1885                       (int)part_stat_read(&disk->part0, sectors[1]) -
1886                         atomic_read(&mdev->rs_sect_ev);
1887
1888         if (!mdev->rs_last_events || curr_events - mdev->rs_last_events > 64) {
1889                 unsigned long rs_left;
1890                 int i;
1891
1892                 mdev->rs_last_events = curr_events;
1893
1894                 /* sync speed average over the last 2*DRBD_SYNC_MARK_STEP,
1895                  * approx. */
1896                 i = (mdev->rs_last_mark + DRBD_SYNC_MARKS-1) % DRBD_SYNC_MARKS;
1897
1898                 if (mdev->state.conn == C_VERIFY_S || mdev->state.conn == C_VERIFY_T)
1899                         rs_left = mdev->ov_left;
1900                 else
1901                         rs_left = drbd_bm_total_weight(mdev) - mdev->rs_failed;
1902
1903                 dt = ((long)jiffies - (long)mdev->rs_mark_time[i]) / HZ;
1904                 if (!dt)
1905                         dt++;
1906                 db = mdev->rs_mark_left[i] - rs_left;
1907                 dbdt = Bit2KB(db/dt);
1908
1909                 if (dbdt > mdev->sync_conf.c_min_rate)
1910                         throttle = 1;
1911         }
1912         return throttle;
1913 }
1914
1915
1916 static int receive_DataRequest(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int digest_size)
1917 {
1918         sector_t sector;
1919         const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
1920         struct drbd_epoch_entry *e;
1921         struct digest_info *di = NULL;
1922         int size, verb;
1923         unsigned int fault_type;
1924         struct p_block_req *p = &mdev->data.rbuf.block_req;
1925
1926         sector = be64_to_cpu(p->sector);
1927         size   = be32_to_cpu(p->blksize);
1928
1929         if (size <= 0 || (size & 0x1ff) != 0 || size > DRBD_MAX_BIO_SIZE) {
1930                 dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
1931                                 (unsigned long long)sector, size);
1932                 return false;
1933         }
1934         if (sector + (size>>9) > capacity) {
1935                 dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
1936                                 (unsigned long long)sector, size);
1937                 return false;
1938         }
1939
1940         if (!get_ldev_if_state(mdev, D_UP_TO_DATE)) {
1941                 verb = 1;
1942                 switch (cmd) {
1943                 case P_DATA_REQUEST:
1944                         drbd_send_ack_rp(mdev, P_NEG_DREPLY, p);
1945                         break;
1946                 case P_RS_DATA_REQUEST:
1947                 case P_CSUM_RS_REQUEST:
1948                 case P_OV_REQUEST:
1949                         drbd_send_ack_rp(mdev, P_NEG_RS_DREPLY , p);
1950                         break;
1951                 case P_OV_REPLY:
1952                         verb = 0;
1953                         dec_rs_pending(mdev);
1954                         drbd_send_ack_ex(mdev, P_OV_RESULT, sector, size, ID_IN_SYNC);
1955                         break;
1956                 default:
1957                         dev_err(DEV, "unexpected command (%s) in receive_DataRequest\n",
1958                                 cmdname(cmd));
1959                 }
1960                 if (verb && __ratelimit(&drbd_ratelimit_state))
1961                         dev_err(DEV, "Can not satisfy peer's read request, "
1962                             "no local data.\n");
1963
1964                 /* drain possibly payload */
1965                 return drbd_drain_block(mdev, digest_size);
1966         }
1967
1968         /* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
1969          * "criss-cross" setup, that might cause write-out on some other DRBD,
1970          * which in turn might block on the other node at this very place.  */
1971         e = drbd_alloc_ee(mdev, p->block_id, sector, size, GFP_NOIO);
1972         if (!e) {
1973                 put_ldev(mdev);
1974                 return false;
1975         }
1976
1977         switch (cmd) {
1978         case P_DATA_REQUEST:
1979                 e->w.cb = w_e_end_data_req;
1980                 fault_type = DRBD_FAULT_DT_RD;
1981                 /* application IO, don't drbd_rs_begin_io */
1982                 goto submit;
1983
1984         case P_RS_DATA_REQUEST:
1985                 e->w.cb = w_e_end_rsdata_req;
1986                 fault_type = DRBD_FAULT_RS_RD;
1987                 /* used in the sector offset progress display */
1988                 mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
1989                 break;
1990
1991         case P_OV_REPLY:
1992         case P_CSUM_RS_REQUEST:
1993                 fault_type = DRBD_FAULT_RS_RD;
1994                 di = kmalloc(sizeof(*di) + digest_size, GFP_NOIO);
1995                 if (!di)
1996                         goto out_free_e;
1997
1998                 di->digest_size = digest_size;
1999                 di->digest = (((char *)di)+sizeof(struct digest_info));
2000
2001                 e->digest = di;
2002                 e->flags |= EE_HAS_DIGEST;
2003
2004                 if (drbd_recv(mdev, di->digest, digest_size) != digest_size)
2005                         goto out_free_e;
2006
2007                 if (cmd == P_CSUM_RS_REQUEST) {
2008                         D_ASSERT(mdev->agreed_pro_version >= 89);
2009                         e->w.cb = w_e_end_csum_rs_req;
2010                         /* used in the sector offset progress display */
2011                         mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
2012                 } else if (cmd == P_OV_REPLY) {
2013                         /* track progress, we may need to throttle */
2014                         atomic_add(size >> 9, &mdev->rs_sect_in);
2015                         e->w.cb = w_e_end_ov_reply;
2016                         dec_rs_pending(mdev);
2017                         /* drbd_rs_begin_io done when we sent this request,
2018                          * but accounting still needs to be done. */
2019                         goto submit_for_resync;
2020                 }
2021                 break;
2022
2023         case P_OV_REQUEST:
2024                 if (mdev->ov_start_sector == ~(sector_t)0 &&
2025                     mdev->agreed_pro_version >= 90) {
2026                         unsigned long now = jiffies;
2027                         int i;
2028                         mdev->ov_start_sector = sector;
2029                         mdev->ov_position = sector;
2030                         mdev->ov_left = drbd_bm_bits(mdev) - BM_SECT_TO_BIT(sector);
2031                         mdev->rs_total = mdev->ov_left;
2032                         for (i = 0; i < DRBD_SYNC_MARKS; i++) {
2033                                 mdev->rs_mark_left[i] = mdev->ov_left;
2034                                 mdev->rs_mark_time[i] = now;
2035                         }
2036                         dev_info(DEV, "Online Verify start sector: %llu\n",
2037                                         (unsigned long long)sector);
2038                 }
2039                 e->w.cb = w_e_end_ov_req;
2040                 fault_type = DRBD_FAULT_RS_RD;
2041                 break;
2042
2043         default:
2044                 dev_err(DEV, "unexpected command (%s) in receive_DataRequest\n",
2045                     cmdname(cmd));
2046                 fault_type = DRBD_FAULT_MAX;
2047                 goto out_free_e;
2048         }
2049
2050         /* Throttle, drbd_rs_begin_io and submit should become asynchronous
2051          * wrt the receiver, but it is not as straightforward as it may seem.
2052          * Various places in the resync start and stop logic assume resync
2053          * requests are processed in order, requeuing this on the worker thread
2054          * introduces a bunch of new code for synchronization between threads.
2055          *
2056          * Unlimited throttling before drbd_rs_begin_io may stall the resync
2057          * "forever", throttling after drbd_rs_begin_io will lock that extent
2058          * for application writes for the same time.  For now, just throttle
2059          * here, where the rest of the code expects the receiver to sleep for
2060          * a while, anyways.
2061          */
2062
2063         /* Throttle before drbd_rs_begin_io, as that locks out application IO;
2064          * this defers syncer requests for some time, before letting at least
2065          * on request through.  The resync controller on the receiving side
2066          * will adapt to the incoming rate accordingly.
2067          *
2068          * We cannot throttle here if remote is Primary/SyncTarget:
2069          * we would also throttle its application reads.
2070          * In that case, throttling is done on the SyncTarget only.
2071          */
2072         if (mdev->state.peer != R_PRIMARY && drbd_rs_should_slow_down(mdev, sector))
2073                 schedule_timeout_uninterruptible(HZ/10);
2074         if (drbd_rs_begin_io(mdev, sector))
2075                 goto out_free_e;
2076
2077 submit_for_resync:
2078         atomic_add(size >> 9, &mdev->rs_sect_ev);
2079
2080 submit:
2081         inc_unacked(mdev);
2082         spin_lock_irq(&mdev->req_lock);
2083         list_add_tail(&e->w.list, &mdev->read_ee);
2084         spin_unlock_irq(&mdev->req_lock);
2085
2086         if (drbd_submit_ee(mdev, e, READ, fault_type) == 0)
2087                 return true;
2088
2089         /* drbd_submit_ee currently fails for one reason only:
2090          * not being able to allocate enough bios.
2091          * Is dropping the connection going to help? */
2092         spin_lock_irq(&mdev->req_lock);
2093         list_del(&e->w.list);
2094         spin_unlock_irq(&mdev->req_lock);
2095         /* no drbd_rs_complete_io(), we are dropping the connection anyways */
2096
2097 out_free_e:
2098         put_ldev(mdev);
2099         drbd_free_ee(mdev, e);
2100         return false;
2101 }
2102
2103 static int drbd_asb_recover_0p(struct drbd_conf *mdev) __must_hold(local)
2104 {
2105         int self, peer, rv = -100;
2106         unsigned long ch_self, ch_peer;
2107
2108         self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
2109         peer = mdev->p_uuid[UI_BITMAP] & 1;
2110
2111         ch_peer = mdev->p_uuid[UI_SIZE];
2112         ch_self = mdev->comm_bm_set;
2113
2114         switch (mdev->net_conf->after_sb_0p) {
2115         case ASB_CONSENSUS:
2116         case ASB_DISCARD_SECONDARY:
2117         case ASB_CALL_HELPER:
2118                 dev_err(DEV, "Configuration error.\n");
2119                 break;
2120         case ASB_DISCONNECT:
2121                 break;
2122         case ASB_DISCARD_YOUNGER_PRI:
2123                 if (self == 0 && peer == 1) {
2124                         rv = -1;
2125                         break;
2126                 }
2127                 if (self == 1 && peer == 0) {
2128                         rv =  1;
2129                         break;
2130                 }
2131                 /* Else fall through to one of the other strategies... */
2132         case ASB_DISCARD_OLDER_PRI:
2133                 if (self == 0 && peer == 1) {
2134                         rv = 1;
2135                         break;
2136                 }
2137                 if (self == 1 && peer == 0) {
2138                         rv = -1;
2139                         break;
2140                 }
2141                 /* Else fall through to one of the other strategies... */
2142                 dev_warn(DEV, "Discard younger/older primary did not find a decision\n"
2143                      "Using discard-least-changes instead\n");
2144         case ASB_DISCARD_ZERO_CHG:
2145                 if (ch_peer == 0 && ch_self == 0) {
2146                         rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
2147                                 ? -1 : 1;
2148                         break;
2149                 } else {
2150                         if (ch_peer == 0) { rv =  1; break; }
2151                         if (ch_self == 0) { rv = -1; break; }
2152                 }
2153                 if (mdev->net_conf->after_sb_0p == ASB_DISCARD_ZERO_CHG)
2154                         break;
2155         case ASB_DISCARD_LEAST_CHG:
2156                 if      (ch_self < ch_peer)
2157                         rv = -1;
2158                 else if (ch_self > ch_peer)
2159                         rv =  1;
2160                 else /* ( ch_self == ch_peer ) */
2161                      /* Well, then use something else. */
2162                         rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
2163                                 ? -1 : 1;
2164                 break;
2165         case ASB_DISCARD_LOCAL:
2166                 rv = -1;
2167                 break;
2168         case ASB_DISCARD_REMOTE:
2169                 rv =  1;
2170         }
2171
2172         return rv;
2173 }
2174
2175 static int drbd_asb_recover_1p(struct drbd_conf *mdev) __must_hold(local)
2176 {
2177         int hg, rv = -100;
2178
2179         switch (mdev->net_conf->after_sb_1p) {
2180         case ASB_DISCARD_YOUNGER_PRI:
2181         case ASB_DISCARD_OLDER_PRI:
2182         case ASB_DISCARD_LEAST_CHG:
2183         case ASB_DISCARD_LOCAL:
2184         case ASB_DISCARD_REMOTE:
2185                 dev_err(DEV, "Configuration error.\n");
2186                 break;
2187         case ASB_DISCONNECT:
2188                 break;
2189         case ASB_CONSENSUS:
2190                 hg = drbd_asb_recover_0p(mdev);
2191                 if (hg == -1 && mdev->state.role == R_SECONDARY)
2192                         rv = hg;
2193                 if (hg == 1  && mdev->state.role == R_PRIMARY)
2194                         rv = hg;
2195                 break;
2196         case ASB_VIOLENTLY:
2197                 rv = drbd_asb_recover_0p(mdev);
2198                 break;
2199         case ASB_DISCARD_SECONDARY:
2200                 return mdev->state.role == R_PRIMARY ? 1 : -1;
2201         case ASB_CALL_HELPER:
2202                 hg = drbd_asb_recover_0p(mdev);
2203                 if (hg == -1 && mdev->state.role == R_PRIMARY) {
2204                         enum drbd_state_rv rv2;
2205
2206                         drbd_set_role(mdev, R_SECONDARY, 0);
2207                          /* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
2208                           * we might be here in C_WF_REPORT_PARAMS which is transient.
2209                           * we do not need to wait for the after state change work either. */
2210                         rv2 = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
2211                         if (rv2 != SS_SUCCESS) {
2212                                 drbd_khelper(mdev, "pri-lost-after-sb");
2213                         } else {
2214                                 dev_warn(DEV, "Successfully gave up primary role.\n");
2215                                 rv = hg;
2216                         }
2217                 } else
2218                         rv = hg;
2219         }
2220
2221         return rv;
2222 }
2223
2224 static int drbd_asb_recover_2p(struct drbd_conf *mdev) __must_hold(local)
2225 {
2226         int hg, rv = -100;
2227
2228         switch (mdev->net_conf->after_sb_2p) {
2229         case ASB_DISCARD_YOUNGER_PRI:
2230         case ASB_DISCARD_OLDER_PRI:
2231         case ASB_DISCARD_LEAST_CHG:
2232         case ASB_DISCARD_LOCAL:
2233         case ASB_DISCARD_REMOTE:
2234         case ASB_CONSENSUS:
2235         case ASB_DISCARD_SECONDARY:
2236                 dev_err(DEV, "Configuration error.\n");
2237                 break;
2238         case ASB_VIOLENTLY:
2239                 rv = drbd_asb_recover_0p(mdev);
2240                 break;
2241         case ASB_DISCONNECT:
2242                 break;
2243         case ASB_CALL_HELPER:
2244                 hg = drbd_asb_recover_0p(mdev);
2245                 if (hg == -1) {
2246                         enum drbd_state_rv rv2;
2247
2248                          /* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
2249                           * we might be here in C_WF_REPORT_PARAMS which is transient.
2250                           * we do not need to wait for the after state change work either. */
2251                         rv2 = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
2252                         if (rv2 != SS_SUCCESS) {
2253                                 drbd_khelper(mdev, "pri-lost-after-sb");
2254                         } else {
2255                                 dev_warn(DEV, "Successfully gave up primary role.\n");
2256                                 rv = hg;
2257                         }
2258                 } else
2259                         rv = hg;
2260         }
2261
2262         return rv;
2263 }
2264
2265 static void drbd_uuid_dump(struct drbd_conf *mdev, char *text, u64 *uuid,
2266                            u64 bits, u64 flags)
2267 {
2268         if (!uuid) {
2269                 dev_info(DEV, "%s uuid info vanished while I was looking!\n", text);
2270                 return;
2271         }
2272         dev_info(DEV, "%s %016llX:%016llX:%016llX:%016llX bits:%llu flags:%llX\n",
2273              text,
2274              (unsigned long long)uuid[UI_CURRENT],
2275              (unsigned long long)uuid[UI_BITMAP],
2276              (unsigned long long)uuid[UI_HISTORY_START],
2277              (unsigned long long)uuid[UI_HISTORY_END],
2278              (unsigned long long)bits,
2279              (unsigned long long)flags);
2280 }
2281
2282 /*
2283   100   after split brain try auto recover
2284     2   C_SYNC_SOURCE set BitMap
2285     1   C_SYNC_SOURCE use BitMap
2286     0   no Sync
2287    -1   C_SYNC_TARGET use BitMap
2288    -2   C_SYNC_TARGET set BitMap
2289  -100   after split brain, disconnect
2290 -1000   unrelated data
2291 -1091   requires proto 91
2292 -1096   requires proto 96
2293  */
2294 static int drbd_uuid_compare(struct drbd_conf *mdev, int *rule_nr) __must_hold(local)
2295 {
2296         u64 self, peer;
2297         int i, j;
2298
2299         self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
2300         peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
2301
2302         *rule_nr = 10;
2303         if (self == UUID_JUST_CREATED && peer == UUID_JUST_CREATED)
2304                 return 0;
2305
2306         *rule_nr = 20;
2307         if ((self == UUID_JUST_CREATED || self == (u64)0) &&
2308              peer != UUID_JUST_CREATED)
2309                 return -2;
2310
2311         *rule_nr = 30;
2312         if (self != UUID_JUST_CREATED &&
2313             (peer == UUID_JUST_CREATED || peer == (u64)0))
2314                 return 2;
2315
2316         if (self == peer) {
2317                 int rct, dc; /* roles at crash time */
2318
2319                 if (mdev->p_uuid[UI_BITMAP] == (u64)0 && mdev->ldev->md.uuid[UI_BITMAP] != (u64)0) {
2320
2321                         if (mdev->agreed_pro_version < 91)
2322                                 return -1091;
2323
2324                         if ((mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1)) &&
2325                             (mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1))) {
2326                                 dev_info(DEV, "was SyncSource, missed the resync finished event, corrected myself:\n");
2327                                 drbd_uuid_set_bm(mdev, 0UL);
2328
2329                                 drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
2330                                                mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
2331                                 *rule_nr = 34;
2332                         } else {
2333                                 dev_info(DEV, "was SyncSource (peer failed to write sync_uuid)\n");
2334                                 *rule_nr = 36;
2335                         }
2336
2337                         return 1;
2338                 }
2339
2340                 if (mdev->ldev->md.uuid[UI_BITMAP] == (u64)0 && mdev->p_uuid[UI_BITMAP] != (u64)0) {
2341
2342                         if (mdev->agreed_pro_version < 91)
2343                                 return -1091;
2344
2345                         if ((mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_BITMAP] & ~((u64)1)) &&
2346                             (mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1))) {
2347                                 dev_info(DEV, "was SyncTarget, peer missed the resync finished event, corrected peer:\n");
2348
2349                                 mdev->p_uuid[UI_HISTORY_START + 1] = mdev->p_uuid[UI_HISTORY_START];
2350                                 mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_BITMAP];
2351                                 mdev->p_uuid[UI_BITMAP] = 0UL;
2352
2353                                 drbd_uuid_dump(mdev, "peer", mdev->p_uuid, mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
2354                                 *rule_nr = 35;
2355                         } else {
2356                                 dev_info(DEV, "was SyncTarget (failed to write sync_uuid)\n");
2357                                 *rule_nr = 37;
2358                         }
2359
2360                         return -1;
2361                 }
2362
2363                 /* Common power [off|failure] */
2364                 rct = (test_bit(CRASHED_PRIMARY, &mdev->flags) ? 1 : 0) +
2365                         (mdev->p_uuid[UI_FLAGS] & 2);
2366                 /* lowest bit is set when we were primary,
2367                  * next bit (weight 2) is set when peer was primary */
2368                 *rule_nr = 40;
2369
2370                 switch (rct) {
2371                 case 0: /* !self_pri && !peer_pri */ return 0;
2372                 case 1: /*  self_pri && !peer_pri */ return 1;
2373                 case 2: /* !self_pri &&  peer_pri */ return -1;
2374                 case 3: /*  self_pri &&  peer_pri */
2375                         dc = test_bit(DISCARD_CONCURRENT, &mdev->flags);
2376                         return dc ? -1 : 1;
2377                 }
2378         }
2379
2380         *rule_nr = 50;
2381         peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
2382         if (self == peer)
2383                 return -1;
2384
2385         *rule_nr = 51;
2386         peer = mdev->p_uuid[UI_HISTORY_START] & ~((u64)1);
2387         if (self == peer) {
2388                 if (mdev->agreed_pro_version < 96 ?
2389                     (mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) ==
2390                     (mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1)) :
2391                     peer + UUID_NEW_BM_OFFSET == (mdev->p_uuid[UI_BITMAP] & ~((u64)1))) {
2392                         /* The last P_SYNC_UUID did not get though. Undo the last start of
2393                            resync as sync source modifications of the peer's UUIDs. */
2394
2395                         if (mdev->agreed_pro_version < 91)
2396                                 return -1091;
2397
2398                         mdev->p_uuid[UI_BITMAP] = mdev->p_uuid[UI_HISTORY_START];
2399                         mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_HISTORY_START + 1];
2400
2401                         dev_info(DEV, "Did not got last syncUUID packet, corrected:\n");
2402                         drbd_uuid_dump(mdev, "peer", mdev->p_uuid, mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
2403
2404                         return -1;
2405                 }
2406         }
2407
2408         *rule_nr = 60;
2409         self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
2410         for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
2411                 peer = mdev->p_uuid[i] & ~((u64)1);
2412                 if (self == peer)
2413                         return -2;
2414         }
2415
2416         *rule_nr = 70;
2417         self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
2418         peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
2419         if (self == peer)
2420                 return 1;
2421
2422         *rule_nr = 71;
2423         self = mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1);
2424         if (self == peer) {
2425                 if (mdev->agreed_pro_version < 96 ?
2426                     (mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1)) ==
2427                     (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1)) :
2428                     self + UUID_NEW_BM_OFFSET == (mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1))) {
2429                         /* The last P_SYNC_UUID did not get though. Undo the last start of
2430                            resync as sync source modifications of our UUIDs. */
2431
2432                         if (mdev->agreed_pro_version < 91)
2433                                 return -1091;
2434
2435                         _drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_HISTORY_START]);
2436                         _drbd_uuid_set(mdev, UI_HISTORY_START, mdev->ldev->md.uuid[UI_HISTORY_START + 1]);
2437
2438                         dev_info(DEV, "Last syncUUID did not get through, corrected:\n");
2439                         drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
2440                                        mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
2441
2442                         return 1;
2443                 }
2444         }
2445
2446
2447         *rule_nr = 80;
2448         peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
2449         for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
2450                 self = mdev->ldev->md.uuid[i] & ~((u64)1);
2451                 if (self == peer)
2452                         return 2;
2453         }
2454
2455         *rule_nr = 90;
2456         self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
2457         peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
2458         if (self == peer && self != ((u64)0))
2459                 return 100;
2460
2461         *rule_nr = 100;
2462         for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
2463                 self = mdev->ldev->md.uuid[i] & ~((u64)1);
2464                 for (j = UI_HISTORY_START; j <= UI_HISTORY_END; j++) {
2465                         peer = mdev->p_uuid[j] & ~((u64)1);
2466                         if (self == peer)
2467                                 return -100;
2468                 }
2469         }
2470
2471         return -1000;
2472 }
2473
2474 /* drbd_sync_handshake() returns the new conn state on success, or
2475    CONN_MASK (-1) on failure.
2476  */
2477 static enum drbd_conns drbd_sync_handshake(struct drbd_conf *mdev, enum drbd_role peer_role,
2478                                            enum drbd_disk_state peer_disk) __must_hold(local)
2479 {
2480         int hg, rule_nr;
2481         enum drbd_conns rv = C_MASK;
2482         enum drbd_disk_state mydisk;
2483
2484         mydisk = mdev->state.disk;
2485         if (mydisk == D_NEGOTIATING)
2486                 mydisk = mdev->new_state_tmp.disk;
2487
2488         dev_info(DEV, "drbd_sync_handshake:\n");
2489         drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid, mdev->comm_bm_set, 0);
2490         drbd_uuid_dump(mdev, "peer", mdev->p_uuid,
2491                        mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
2492
2493         hg = drbd_uuid_compare(mdev, &rule_nr);
2494
2495         dev_info(DEV, "uuid_compare()=%d by rule %d\n", hg, rule_nr);
2496
2497         if (hg == -1000) {
2498                 dev_alert(DEV, "Unrelated data, aborting!\n");
2499                 return C_MASK;
2500         }
2501         if (hg < -1000) {
2502                 dev_alert(DEV, "To resolve this both sides have to support at least protocol %d\n", -hg - 1000);
2503                 return C_MASK;
2504         }
2505
2506         if    ((mydisk == D_INCONSISTENT && peer_disk > D_INCONSISTENT) ||
2507             (peer_disk == D_INCONSISTENT && mydisk    > D_INCONSISTENT)) {
2508                 int f = (hg == -100) || abs(hg) == 2;
2509                 hg = mydisk > D_INCONSISTENT ? 1 : -1;
2510                 if (f)
2511                         hg = hg*2;
2512                 dev_info(DEV, "Becoming sync %s due to disk states.\n",
2513                      hg > 0 ? "source" : "target");
2514         }
2515
2516         if (abs(hg) == 100)
2517                 drbd_khelper(mdev, "initial-split-brain");
2518
2519         if (hg == 100 || (hg == -100 && mdev->net_conf->always_asbp)) {
2520                 int pcount = (mdev->state.role == R_PRIMARY)
2521                            + (peer_role == R_PRIMARY);
2522                 int forced = (hg == -100);
2523
2524                 switch (pcount) {
2525                 case 0:
2526                         hg = drbd_asb_recover_0p(mdev);
2527                         break;
2528                 case 1:
2529                         hg = drbd_asb_recover_1p(mdev);
2530                         break;
2531                 case 2:
2532                         hg = drbd_asb_recover_2p(mdev);
2533                         break;
2534                 }
2535                 if (abs(hg) < 100) {
2536                         dev_warn(DEV, "Split-Brain detected, %d primaries, "
2537                              "automatically solved. Sync from %s node\n",
2538                              pcount, (hg < 0) ? "peer" : "this");
2539                         if (forced) {
2540                                 dev_warn(DEV, "Doing a full sync, since"
2541                                      " UUIDs where ambiguous.\n");
2542                                 hg = hg*2;
2543                         }
2544                 }
2545         }
2546
2547         if (hg == -100) {
2548                 if (mdev->net_conf->want_lose && !(mdev->p_uuid[UI_FLAGS]&1))
2549                         hg = -1;
2550                 if (!mdev->net_conf->want_lose && (mdev->p_uuid[UI_FLAGS]&1))
2551                         hg = 1;
2552
2553                 if (abs(hg) < 100)
2554                         dev_warn(DEV, "Split-Brain detected, manually solved. "
2555                              "Sync from %s node\n",
2556                              (hg < 0) ? "peer" : "this");
2557         }
2558
2559         if (hg == -100) {
2560                 /* FIXME this log message is not correct if we end up here
2561                  * after an attempted attach on a diskless node.
2562                  * We just refuse to attach -- well, we drop the "connection"
2563                  * to that disk, in a way... */
2564                 dev_alert(DEV, "Split-Brain detected but unresolved, dropping connection!\n");
2565                 drbd_khelper(mdev, "split-brain");
2566                 return C_MASK;
2567         }
2568
2569         if (hg > 0 && mydisk <= D_INCONSISTENT) {
2570                 dev_err(DEV, "I shall become SyncSource, but I am inconsistent!\n");
2571                 return C_MASK;
2572         }
2573
2574         if (hg < 0 && /* by intention we do not use mydisk here. */
2575             mdev->state.role == R_PRIMARY && mdev->state.disk >= D_CONSISTENT) {
2576                 switch (mdev->net_conf->rr_conflict) {
2577                 case ASB_CALL_HELPER:
2578                         drbd_khelper(mdev, "pri-lost");
2579                         /* fall through */
2580                 case ASB_DISCONNECT:
2581                         dev_err(DEV, "I shall become SyncTarget, but I am primary!\n");
2582                         return C_MASK;
2583                 case ASB_VIOLENTLY:
2584                         dev_warn(DEV, "Becoming SyncTarget, violating the stable-data"
2585                              "assumption\n");
2586                 }
2587         }
2588
2589         if (mdev->net_conf->dry_run || test_bit(CONN_DRY_RUN, &mdev->flags)) {
2590                 if (hg == 0)
2591                         dev_info(DEV, "dry-run connect: No resync, would become Connected immediately.\n");
2592                 else
2593                         dev_info(DEV, "dry-run connect: Would become %s, doing a %s resync.",
2594                                  drbd_conn_str(hg > 0 ? C_SYNC_SOURCE : C_SYNC_TARGET),
2595                                  abs(hg) >= 2 ? "full" : "bit-map based");
2596                 return C_MASK;
2597         }
2598
2599         if (abs(hg) >= 2) {
2600                 dev_info(DEV, "Writing the whole bitmap, full sync required after drbd_sync_handshake.\n");
2601                 if (drbd_bitmap_io(mdev, &drbd_bmio_set_n_write, "set_n_write from sync_handshake"))
2602                         return C_MASK;
2603         }
2604
2605         if (hg > 0) { /* become sync source. */
2606                 rv = C_WF_BITMAP_S;
2607         } else if (hg < 0) { /* become sync target */
2608                 rv = C_WF_BITMAP_T;
2609         } else {
2610                 rv = C_CONNECTED;
2611                 if (drbd_bm_total_weight(mdev)) {
2612                         dev_info(DEV, "No resync, but %lu bits in bitmap!\n",
2613                              drbd_bm_total_weight(mdev));
2614                 }
2615         }
2616
2617         return rv;
2618 }
2619
2620 /* returns 1 if invalid */
2621 static int cmp_after_sb(enum drbd_after_sb_p peer, enum drbd_after_sb_p self)
2622 {
2623         /* ASB_DISCARD_REMOTE - ASB_DISCARD_LOCAL is valid */
2624         if ((peer == ASB_DISCARD_REMOTE && self == ASB_DISCARD_LOCAL) ||
2625             (self == ASB_DISCARD_REMOTE && peer == ASB_DISCARD_LOCAL))
2626                 return 0;
2627
2628         /* any other things with ASB_DISCARD_REMOTE or ASB_DISCARD_LOCAL are invalid */
2629         if (peer == ASB_DISCARD_REMOTE || peer == ASB_DISCARD_LOCAL ||
2630             self == ASB_DISCARD_REMOTE || self == ASB_DISCARD_LOCAL)
2631                 return 1;
2632
2633         /* everything else is valid if they are equal on both sides. */
2634         if (peer == self)
2635                 return 0;
2636
2637         /* everything es is invalid. */
2638         return 1;
2639 }
2640
2641 static int receive_protocol(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
2642 {
2643         struct p_protocol *p = &mdev->data.rbuf.protocol;
2644         int p_proto, p_after_sb_0p, p_after_sb_1p, p_after_sb_2p;
2645         int p_want_lose, p_two_primaries, cf;
2646         char p_integrity_alg[SHARED_SECRET_MAX] = "";
2647
2648         p_proto         = be32_to_cpu(p->protocol);
2649         p_after_sb_0p   = be32_to_cpu(p->after_sb_0p);
2650         p_after_sb_1p   = be32_to_cpu(p->after_sb_1p);
2651         p_after_sb_2p   = be32_to_cpu(p->after_sb_2p);
2652         p_two_primaries = be32_to_cpu(p->two_primaries);
2653         cf              = be32_to_cpu(p->conn_flags);
2654         p_want_lose = cf & CF_WANT_LOSE;
2655
2656         clear_bit(CONN_DRY_RUN, &mdev->flags);
2657
2658         if (cf & CF_DRY_RUN)
2659                 set_bit(CONN_DRY_RUN, &mdev->flags);
2660
2661         if (p_proto != mdev->net_conf->wire_protocol) {
2662                 dev_err(DEV, "incompatible communication protocols\n");
2663                 goto disconnect;
2664         }
2665
2666         if (cmp_after_sb(p_after_sb_0p, mdev->net_conf->after_sb_0p)) {
2667                 dev_err(DEV, "incompatible after-sb-0pri settings\n");
2668                 goto disconnect;
2669         }
2670
2671         if (cmp_after_sb(p_after_sb_1p, mdev->net_conf->after_sb_1p)) {
2672                 dev_err(DEV, "incompatible after-sb-1pri settings\n");
2673                 goto disconnect;
2674         }
2675
2676         if (cmp_after_sb(p_after_sb_2p, mdev->net_conf->after_sb_2p)) {
2677                 dev_err(DEV, "incompatible after-sb-2pri settings\n");
2678                 goto disconnect;
2679         }
2680
2681         if (p_want_lose && mdev->net_conf->want_lose) {
2682                 dev_err(DEV, "both sides have the 'want_lose' flag set\n");
2683                 goto disconnect;
2684         }
2685
2686         if (p_two_primaries != mdev->net_conf->two_primaries) {
2687                 dev_err(DEV, "incompatible setting of the two-primaries options\n");
2688                 goto disconnect;
2689         }
2690
2691         if (mdev->agreed_pro_version >= 87) {
2692                 unsigned char *my_alg = mdev->net_conf->integrity_alg;
2693
2694                 if (drbd_recv(mdev, p_integrity_alg, data_size) != data_size)
2695                         return false;
2696
2697                 p_integrity_alg[SHARED_SECRET_MAX-1] = 0;
2698                 if (strcmp(p_integrity_alg, my_alg)) {
2699                         dev_err(DEV, "incompatible setting of the data-integrity-alg\n");
2700                         goto disconnect;
2701                 }
2702                 dev_info(DEV, "data-integrity-alg: %s\n",
2703                      my_alg[0] ? my_alg : (unsigned char *)"<not-used>");
2704         }
2705
2706         return true;
2707
2708 disconnect:
2709         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
2710         return false;
2711 }
2712
2713 /* helper function
2714  * input: alg name, feature name
2715  * return: NULL (alg name was "")
2716  *         ERR_PTR(error) if something goes wrong
2717  *         or the crypto hash ptr, if it worked out ok. */
2718 struct crypto_hash *drbd_crypto_alloc_digest_safe(const struct drbd_conf *mdev,
2719                 const char *alg, const char *name)
2720 {
2721         struct crypto_hash *tfm;
2722
2723         if (!alg[0])
2724                 return NULL;
2725
2726         tfm = crypto_alloc_hash(alg, 0, CRYPTO_ALG_ASYNC);
2727         if (IS_ERR(tfm)) {
2728                 dev_err(DEV, "Can not allocate \"%s\" as %s (reason: %ld)\n",
2729                         alg, name, PTR_ERR(tfm));
2730                 return tfm;
2731         }
2732         if (!drbd_crypto_is_hash(crypto_hash_tfm(tfm))) {
2733                 crypto_free_hash(tfm);
2734                 dev_err(DEV, "\"%s\" is not a digest (%s)\n", alg, name);
2735                 return ERR_PTR(-EINVAL);
2736         }
2737         return tfm;
2738 }
2739
2740 static int receive_SyncParam(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int packet_size)
2741 {
2742         int ok = true;
2743         struct p_rs_param_95 *p = &mdev->data.rbuf.rs_param_95;
2744         unsigned int header_size, data_size, exp_max_sz;
2745         struct crypto_hash *verify_tfm = NULL;
2746         struct crypto_hash *csums_tfm = NULL;
2747         const int apv = mdev->agreed_pro_version;
2748         int *rs_plan_s = NULL;
2749         int fifo_size = 0;
2750
2751         exp_max_sz  = apv <= 87 ? sizeof(struct p_rs_param)
2752                     : apv == 88 ? sizeof(struct p_rs_param)
2753                                         + SHARED_SECRET_MAX
2754                     : apv <= 94 ? sizeof(struct p_rs_param_89)
2755                     : /* apv >= 95 */ sizeof(struct p_rs_param_95);
2756
2757         if (packet_size > exp_max_sz) {
2758                 dev_err(DEV, "SyncParam packet too long: received %u, expected <= %u bytes\n",
2759                     packet_size, exp_max_sz);
2760                 return false;
2761         }
2762
2763         if (apv <= 88) {
2764                 header_size = sizeof(struct p_rs_param) - sizeof(struct p_header80);
2765                 data_size   = packet_size  - header_size;
2766         } else if (apv <= 94) {
2767                 header_size = sizeof(struct p_rs_param_89) - sizeof(struct p_header80);
2768                 data_size   = packet_size  - header_size;
2769                 D_ASSERT(data_size == 0);
2770         } else {
2771                 header_size = sizeof(struct p_rs_param_95) - sizeof(struct p_header80);
2772                 data_size   = packet_size  - header_size;
2773                 D_ASSERT(data_size == 0);
2774         }
2775
2776         /* initialize verify_alg and csums_alg */
2777         memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
2778
2779         if (drbd_recv(mdev, &p->head.payload, header_size) != header_size)
2780                 return false;
2781
2782         mdev->sync_conf.rate      = be32_to_cpu(p->rate);
2783
2784         if (apv >= 88) {
2785                 if (apv == 88) {
2786                         if (data_size > SHARED_SECRET_MAX) {
2787                                 dev_err(DEV, "verify-alg too long, "
2788                                     "peer wants %u, accepting only %u byte\n",
2789                                                 data_size, SHARED_SECRET_MAX);
2790                                 return false;
2791                         }
2792
2793                         if (drbd_recv(mdev, p->verify_alg, data_size) != data_size)
2794                                 return false;
2795
2796                         /* we expect NUL terminated string */
2797                         /* but just in case someone tries to be evil */
2798                         D_ASSERT(p->verify_alg[data_size-1] == 0);
2799                         p->verify_alg[data_size-1] = 0;
2800
2801                 } else /* apv >= 89 */ {
2802                         /* we still expect NUL terminated strings */
2803                         /* but just in case someone tries to be evil */
2804                         D_ASSERT(p->verify_alg[SHARED_SECRET_MAX-1] == 0);
2805                         D_ASSERT(p->csums_alg[SHARED_SECRET_MAX-1] == 0);
2806                         p->verify_alg[SHARED_SECRET_MAX-1] = 0;
2807                         p->csums_alg[SHARED_SECRET_MAX-1] = 0;
2808                 }
2809
2810                 if (strcmp(mdev->sync_conf.verify_alg, p->verify_alg)) {
2811                         if (mdev->state.conn == C_WF_REPORT_PARAMS) {
2812                                 dev_err(DEV, "Different verify-alg settings. me=\"%s\" peer=\"%s\"\n",
2813                                     mdev->sync_conf.verify_alg, p->verify_alg);
2814                                 goto disconnect;
2815                         }
2816                         verify_tfm = drbd_crypto_alloc_digest_safe(mdev,
2817                                         p->verify_alg, "verify-alg");
2818                         if (IS_ERR(verify_tfm)) {
2819                                 verify_tfm = NULL;
2820                                 goto disconnect;
2821                         }
2822                 }
2823
2824                 if (apv >= 89 && strcmp(mdev->sync_conf.csums_alg, p->csums_alg)) {
2825                         if (mdev->state.conn == C_WF_REPORT_PARAMS) {
2826                                 dev_err(DEV, "Different csums-alg settings. me=\"%s\" peer=\"%s\"\n",
2827                                     mdev->sync_conf.csums_alg, p->csums_alg);
2828                                 goto disconnect;
2829                         }
2830                         csums_tfm = drbd_crypto_alloc_digest_safe(mdev,
2831                                         p->csums_alg, "csums-alg");
2832                         if (IS_ERR(csums_tfm)) {
2833                                 csums_tfm = NULL;
2834                                 goto disconnect;
2835                         }
2836                 }
2837
2838                 if (apv > 94) {
2839                         mdev->sync_conf.rate      = be32_to_cpu(p->rate);
2840                         mdev->sync_conf.c_plan_ahead = be32_to_cpu(p->c_plan_ahead);
2841                         mdev->sync_conf.c_delay_target = be32_to_cpu(p->c_delay_target);
2842                         mdev->sync_conf.c_fill_target = be32_to_cpu(p->c_fill_target);
2843                         mdev->sync_conf.c_max_rate = be32_to_cpu(p->c_max_rate);
2844
2845                         fifo_size = (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ;
2846                         if (fifo_size != mdev->rs_plan_s.size && fifo_size > 0) {
2847                                 rs_plan_s   = kzalloc(sizeof(int) * fifo_size, GFP_KERNEL);
2848                                 if (!rs_plan_s) {
2849                                         dev_err(DEV, "kmalloc of fifo_buffer failed");
2850                                         goto disconnect;
2851                                 }
2852                         }
2853                 }
2854
2855                 spin_lock(&mdev->peer_seq_lock);
2856                 /* lock against drbd_nl_syncer_conf() */
2857                 if (verify_tfm) {
2858                         strcpy(mdev->sync_conf.verify_alg, p->verify_alg);
2859                         mdev->sync_conf.verify_alg_len = strlen(p->verify_alg) + 1;
2860                         crypto_free_hash(mdev->verify_tfm);
2861                         mdev->verify_tfm = verify_tfm;
2862                         dev_info(DEV, "using verify-alg: \"%s\"\n", p->verify_alg);
2863                 }
2864                 if (csums_tfm) {
2865                         strcpy(mdev->sync_conf.csums_alg, p->csums_alg);
2866                         mdev->sync_conf.csums_alg_len = strlen(p->csums_alg) + 1;
2867                         crypto_free_hash(mdev->csums_tfm);
2868                         mdev->csums_tfm = csums_tfm;
2869                         dev_info(DEV, "using csums-alg: \"%s\"\n", p->csums_alg);
2870                 }
2871                 if (fifo_size != mdev->rs_plan_s.size) {
2872                         kfree(mdev->rs_plan_s.values);
2873                         mdev->rs_plan_s.values = rs_plan_s;
2874                         mdev->rs_plan_s.size   = fifo_size;
2875                         mdev->rs_planed = 0;
2876                 }
2877                 spin_unlock(&mdev->peer_seq_lock);
2878         }
2879
2880         return ok;
2881 disconnect:
2882         /* just for completeness: actually not needed,
2883          * as this is not reached if csums_tfm was ok. */
2884         crypto_free_hash(csums_tfm);
2885         /* but free the verify_tfm again, if csums_tfm did not work out */
2886         crypto_free_hash(verify_tfm);
2887         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
2888         return false;
2889 }
2890
2891 static void drbd_setup_order_type(struct drbd_conf *mdev, int peer)
2892 {
2893         /* sorry, we currently have no working implementation
2894          * of distributed TCQ */
2895 }
2896
2897 /* warn if the arguments differ by more than 12.5% */
2898 static void warn_if_differ_considerably(struct drbd_conf *mdev,
2899         const char *s, sector_t a, sector_t b)
2900 {
2901         sector_t d;
2902         if (a == 0 || b == 0)
2903                 return;
2904         d = (a > b) ? (a - b) : (b - a);
2905         if (d > (a>>3) || d > (b>>3))
2906                 dev_warn(DEV, "Considerable difference in %s: %llus vs. %llus\n", s,
2907                      (unsigned long long)a, (unsigned long long)b);
2908 }
2909
2910 static int receive_sizes(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
2911 {
2912         struct p_sizes *p = &mdev->data.rbuf.sizes;
2913         enum determine_dev_size dd = unchanged;
2914         unsigned int max_bio_size;
2915         sector_t p_size, p_usize, my_usize;
2916         int ldsc = 0; /* local disk size changed */
2917         enum dds_flags ddsf;
2918
2919         p_size = be64_to_cpu(p->d_size);
2920         p_usize = be64_to_cpu(p->u_size);
2921
2922         if (p_size == 0 && mdev->state.disk == D_DISKLESS) {
2923                 dev_err(DEV, "some backing storage is needed\n");
2924                 drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
2925                 return false;
2926         }
2927
2928         /* just store the peer's disk size for now.
2929          * we still need to figure out whether we accept that. */
2930         mdev->p_size = p_size;
2931
2932         if (get_ldev(mdev)) {
2933                 warn_if_differ_considerably(mdev, "lower level device sizes",
2934                            p_size, drbd_get_max_capacity(mdev->ldev));
2935                 warn_if_differ_considerably(mdev, "user requested size",
2936                                             p_usize, mdev->ldev->dc.disk_size);
2937
2938                 /* if this is the first connect, or an otherwise expected
2939                  * param exchange, choose the minimum */
2940                 if (mdev->state.conn == C_WF_REPORT_PARAMS)
2941                         p_usize = min_not_zero((sector_t)mdev->ldev->dc.disk_size,
2942                                              p_usize);
2943
2944                 my_usize = mdev->ldev->dc.disk_size;
2945
2946                 if (mdev->ldev->dc.disk_size != p_usize) {
2947                         mdev->ldev->dc.disk_size = p_usize;
2948                         dev_info(DEV, "Peer sets u_size to %lu sectors\n",
2949                              (unsigned long)mdev->ldev->dc.disk_size);
2950                 }
2951
2952                 /* Never shrink a device with usable data during connect.
2953                    But allow online shrinking if we are connected. */
2954                 if (drbd_new_dev_size(mdev, mdev->ldev, 0) <
2955                    drbd_get_capacity(mdev->this_bdev) &&
2956                    mdev->state.disk >= D_OUTDATED &&
2957                    mdev->state.conn < C_CONNECTED) {
2958                         dev_err(DEV, "The peer's disk size is too small!\n");
2959                         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
2960                         mdev->ldev->dc.disk_size = my_usize;
2961                         put_ldev(mdev);
2962                         return false;
2963                 }
2964                 put_ldev(mdev);
2965         }
2966
2967         ddsf = be16_to_cpu(p->dds_flags);
2968         if (get_ldev(mdev)) {
2969                 dd = drbd_determin_dev_size(mdev, ddsf);
2970                 put_ldev(mdev);
2971                 if (dd == dev_size_error)
2972                         return false;
2973                 drbd_md_sync(mdev);
2974         } else {
2975                 /* I am diskless, need to accept the peer's size. */
2976                 drbd_set_my_capacity(mdev, p_size);
2977         }
2978
2979         if (get_ldev(mdev)) {
2980                 if (mdev->ldev->known_size != drbd_get_capacity(mdev->ldev->backing_bdev)) {
2981                         mdev->ldev->known_size = drbd_get_capacity(mdev->ldev->backing_bdev);
2982                         ldsc = 1;
2983                 }
2984
2985                 if (mdev->agreed_pro_version < 94)
2986                         max_bio_size = be32_to_cpu(p->max_bio_size);
2987                 else if (mdev->agreed_pro_version == 94)
2988                         max_bio_size = DRBD_MAX_SIZE_H80_PACKET;
2989                 else /* drbd 8.3.8 onwards */
2990                         max_bio_size = DRBD_MAX_BIO_SIZE;
2991
2992                 if (max_bio_size != queue_max_hw_sectors(mdev->rq_queue) << 9)
2993                         drbd_setup_queue_param(mdev, max_bio_size);
2994
2995                 drbd_setup_order_type(mdev, be16_to_cpu(p->queue_order_type));
2996                 put_ldev(mdev);
2997         }
2998
2999         if (mdev->state.conn > C_WF_REPORT_PARAMS) {
3000                 if (be64_to_cpu(p->c_size) !=
3001                     drbd_get_capacity(mdev->this_bdev) || ldsc) {
3002                         /* we have different sizes, probably peer
3003                          * needs to know my new size... */
3004                         drbd_send_sizes(mdev, 0, ddsf);
3005                 }
3006                 if (test_and_clear_bit(RESIZE_PENDING, &mdev->flags) ||
3007                     (dd == grew && mdev->state.conn == C_CONNECTED)) {
3008                         if (mdev->state.pdsk >= D_INCONSISTENT &&
3009                             mdev->state.disk >= D_INCONSISTENT) {
3010                                 if (ddsf & DDSF_NO_RESYNC)
3011                                         dev_info(DEV, "Resync of new storage suppressed with --assume-clean\n");
3012                                 else
3013                                         resync_after_online_grow(mdev);
3014                         } else
3015                                 set_bit(RESYNC_AFTER_NEG, &mdev->flags);
3016                 }
3017         }
3018
3019         return true;
3020 }
3021
3022 static int receive_uuids(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3023 {
3024         struct p_uuids *p = &mdev->data.rbuf.uuids;
3025         u64 *p_uuid;
3026         int i;
3027
3028         p_uuid = kmalloc(sizeof(u64)*UI_EXTENDED_SIZE, GFP_NOIO);
3029
3030         for (i = UI_CURRENT; i < UI_EXTENDED_SIZE; i++)
3031                 p_uuid[i] = be64_to_cpu(p->uuid[i]);
3032
3033         kfree(mdev->p_uuid);
3034         mdev->p_uuid = p_uuid;
3035
3036         if (mdev->state.conn < C_CONNECTED &&
3037             mdev->state.disk < D_INCONSISTENT &&
3038             mdev->state.role == R_PRIMARY &&
3039             (mdev->ed_uuid & ~((u64)1)) != (p_uuid[UI_CURRENT] & ~((u64)1))) {
3040                 dev_err(DEV, "Can only connect to data with current UUID=%016llX\n",
3041                     (unsigned long long)mdev->ed_uuid);
3042                 drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
3043                 return false;
3044         }
3045
3046         if (get_ldev(mdev)) {
3047                 int skip_initial_sync =
3048                         mdev->state.conn == C_CONNECTED &&
3049                         mdev->agreed_pro_version >= 90 &&
3050                         mdev->ldev->md.uuid[UI_CURRENT] == UUID_JUST_CREATED &&
3051                         (p_uuid[UI_FLAGS] & 8);
3052                 if (skip_initial_sync) {
3053                         dev_info(DEV, "Accepted new current UUID, preparing to skip initial sync\n");
3054                         drbd_bitmap_io(mdev, &drbd_bmio_clear_n_write,
3055                                         "clear_n_write from receive_uuids");
3056                         _drbd_uuid_set(mdev, UI_CURRENT, p_uuid[UI_CURRENT]);
3057                         _drbd_uuid_set(mdev, UI_BITMAP, 0);
3058                         _drbd_set_state(_NS2(mdev, disk, D_UP_TO_DATE, pdsk, D_UP_TO_DATE),
3059                                         CS_VERBOSE, NULL);
3060                         drbd_md_sync(mdev);
3061                 }
3062                 put_ldev(mdev);
3063         } else if (mdev->state.disk < D_INCONSISTENT &&
3064                    mdev->state.role == R_PRIMARY) {
3065                 /* I am a diskless primary, the peer just created a new current UUID
3066                    for me. */
3067                 drbd_set_ed_uuid(mdev, p_uuid[UI_CURRENT]);
3068         }
3069
3070         /* Before we test for the disk state, we should wait until an eventually
3071            ongoing cluster wide state change is finished. That is important if
3072            we are primary and are detaching from our disk. We need to see the
3073            new disk state... */
3074         wait_event(mdev->misc_wait, !test_bit(CLUSTER_ST_CHANGE, &mdev->flags));
3075         if (mdev->state.conn >= C_CONNECTED && mdev->state.disk < D_INCONSISTENT)
3076                 drbd_set_ed_uuid(mdev, p_uuid[UI_CURRENT]);
3077
3078         return true;
3079 }
3080
3081 /**
3082  * convert_state() - Converts the peer's view of the cluster state to our point of view
3083  * @ps:         The state as seen by the peer.
3084  */
3085 static union drbd_state convert_state(union drbd_state ps)
3086 {
3087         union drbd_state ms;
3088
3089         static enum drbd_conns c_tab[] = {
3090                 [C_CONNECTED] = C_CONNECTED,
3091
3092                 [C_STARTING_SYNC_S] = C_STARTING_SYNC_T,
3093                 [C_STARTING_SYNC_T] = C_STARTING_SYNC_S,
3094                 [C_DISCONNECTING] = C_TEAR_DOWN, /* C_NETWORK_FAILURE, */
3095                 [C_VERIFY_S]       = C_VERIFY_T,
3096                 [C_MASK]   = C_MASK,
3097         };
3098
3099         ms.i = ps.i;
3100
3101         ms.conn = c_tab[ps.conn];
3102         ms.peer = ps.role;
3103         ms.role = ps.peer;
3104         ms.pdsk = ps.disk;
3105         ms.disk = ps.pdsk;
3106         ms.peer_isp = (ps.aftr_isp | ps.user_isp);
3107
3108         return ms;
3109 }
3110
3111 static int receive_req_state(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3112 {
3113         struct p_req_state *p = &mdev->data.rbuf.req_state;
3114         union drbd_state mask, val;
3115         enum drbd_state_rv rv;
3116
3117         mask.i = be32_to_cpu(p->mask);
3118         val.i = be32_to_cpu(p->val);
3119
3120         if (test_bit(DISCARD_CONCURRENT, &mdev->flags) &&
3121             test_bit(CLUSTER_ST_CHANGE, &mdev->flags)) {
3122                 drbd_send_sr_reply(mdev, SS_CONCURRENT_ST_CHG);
3123                 return true;
3124         }
3125
3126         mask = convert_state(mask);
3127         val = convert_state(val);
3128
3129         rv = drbd_change_state(mdev, CS_VERBOSE, mask, val);
3130
3131         drbd_send_sr_reply(mdev, rv);
3132         drbd_md_sync(mdev);
3133
3134         return true;
3135 }
3136
3137 static int receive_state(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3138 {
3139         struct p_state *p = &mdev->data.rbuf.state;
3140         union drbd_state os, ns, peer_state;
3141         enum drbd_disk_state real_peer_disk;
3142         enum chg_state_flags cs_flags;
3143         int rv;
3144
3145         peer_state.i = be32_to_cpu(p->state);
3146
3147         real_peer_disk = peer_state.disk;
3148         if (peer_state.disk == D_NEGOTIATING) {
3149                 real_peer_disk = mdev->p_uuid[UI_FLAGS] & 4 ? D_INCONSISTENT : D_CONSISTENT;
3150                 dev_info(DEV, "real peer disk state = %s\n", drbd_disk_str(real_peer_disk));
3151         }
3152
3153         spin_lock_irq(&mdev->req_lock);
3154  retry:
3155         os = ns = mdev->state;
3156         spin_unlock_irq(&mdev->req_lock);
3157
3158         /* peer says his disk is uptodate, while we think it is inconsistent,
3159          * and this happens while we think we have a sync going on. */
3160         if (os.pdsk == D_INCONSISTENT && real_peer_disk == D_UP_TO_DATE &&
3161             os.conn > C_CONNECTED && os.disk == D_UP_TO_DATE) {
3162                 /* If we are (becoming) SyncSource, but peer is still in sync
3163                  * preparation, ignore its uptodate-ness to avoid flapping, it
3164                  * will change to inconsistent once the peer reaches active
3165                  * syncing states.
3166                  * It may have changed syncer-paused flags, however, so we
3167                  * cannot ignore this completely. */
3168                 if (peer_state.conn > C_CONNECTED &&
3169                     peer_state.conn < C_SYNC_SOURCE)
3170                         real_peer_disk = D_INCONSISTENT;
3171
3172                 /* if peer_state changes to connected at the same time,
3173                  * it explicitly notifies us that it finished resync.
3174                  * Maybe we should finish it up, too? */
3175                 else if (os.conn >= C_SYNC_SOURCE &&
3176                          peer_state.conn == C_CONNECTED) {
3177                         if (drbd_bm_total_weight(mdev) <= mdev->rs_failed)
3178                                 drbd_resync_finished(mdev);
3179                         return true;
3180                 }
3181         }
3182
3183         /* peer says his disk is inconsistent, while we think it is uptodate,
3184          * and this happens while the peer still thinks we have a sync going on,
3185          * but we think we are already done with the sync.
3186          * We ignore this to avoid flapping pdsk.
3187          * This should not happen, if the peer is a recent version of drbd. */
3188         if (os.pdsk == D_UP_TO_DATE && real_peer_disk == D_INCONSISTENT &&
3189             os.conn == C_CONNECTED && peer_state.conn > C_SYNC_SOURCE)
3190                 real_peer_disk = D_UP_TO_DATE;
3191
3192         if (ns.conn == C_WF_REPORT_PARAMS)
3193                 ns.conn = C_CONNECTED;
3194
3195         if (peer_state.conn == C_AHEAD)
3196                 ns.conn = C_BEHIND;
3197
3198         if (mdev->p_uuid && peer_state.disk >= D_NEGOTIATING &&
3199             get_ldev_if_state(mdev, D_NEGOTIATING)) {
3200                 int cr; /* consider resync */
3201
3202                 /* if we established a new connection */
3203                 cr  = (os.conn < C_CONNECTED);
3204                 /* if we had an established connection
3205                  * and one of the nodes newly attaches a disk */
3206                 cr |= (os.conn == C_CONNECTED &&
3207                        (peer_state.disk == D_NEGOTIATING ||
3208                         os.disk == D_NEGOTIATING));
3209                 /* if we have both been inconsistent, and the peer has been
3210                  * forced to be UpToDate with --overwrite-data */
3211                 cr |= test_bit(CONSIDER_RESYNC, &mdev->flags);
3212                 /* if we had been plain connected, and the admin requested to
3213                  * start a sync by "invalidate" or "invalidate-remote" */
3214                 cr |= (os.conn == C_CONNECTED &&
3215                                 (peer_state.conn >= C_STARTING_SYNC_S &&
3216                                  peer_state.conn <= C_WF_BITMAP_T));
3217
3218                 if (cr)
3219                         ns.conn = drbd_sync_handshake(mdev, peer_state.role, real_peer_disk);
3220
3221                 put_ldev(mdev);
3222                 if (ns.conn == C_MASK) {
3223                         ns.conn = C_CONNECTED;
3224                         if (mdev->state.disk == D_NEGOTIATING) {
3225                                 drbd_force_state(mdev, NS(disk, D_FAILED));
3226                         } else if (peer_state.disk == D_NEGOTIATING) {
3227                                 dev_err(DEV, "Disk attach process on the peer node was aborted.\n");
3228                                 peer_state.disk = D_DISKLESS;
3229                                 real_peer_disk = D_DISKLESS;
3230                         } else {
3231                                 if (test_and_clear_bit(CONN_DRY_RUN, &mdev->flags))
3232                                         return false;
3233                                 D_ASSERT(os.conn == C_WF_REPORT_PARAMS);
3234                                 drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
3235                                 return false;
3236                         }
3237                 }
3238         }
3239
3240         spin_lock_irq(&mdev->req_lock);
3241         if (mdev->state.i != os.i)
3242                 goto retry;
3243         clear_bit(CONSIDER_RESYNC, &mdev->flags);
3244         ns.peer = peer_state.role;
3245         ns.pdsk = real_peer_disk;
3246         ns.peer_isp = (peer_state.aftr_isp | peer_state.user_isp);
3247         if ((ns.conn == C_CONNECTED || ns.conn == C_WF_BITMAP_S) && ns.disk == D_NEGOTIATING)
3248                 ns.disk = mdev->new_state_tmp.disk;
3249         cs_flags = CS_VERBOSE + (os.conn < C_CONNECTED && ns.conn >= C_CONNECTED ? 0 : CS_HARD);
3250         if (ns.pdsk == D_CONSISTENT && is_susp(ns) && ns.conn == C_CONNECTED && os.conn < C_CONNECTED &&
3251             test_bit(NEW_CUR_UUID, &mdev->flags)) {
3252                 /* Do not allow tl_restart(resend) for a rebooted peer. We can only allow this
3253                    for temporal network outages! */
3254                 spin_unlock_irq(&mdev->req_lock);
3255                 dev_err(DEV, "Aborting Connect, can not thaw IO with an only Consistent peer\n");
3256                 tl_clear(mdev);
3257                 drbd_uuid_new_current(mdev);
3258                 clear_bit(NEW_CUR_UUID, &mdev->flags);
3259                 drbd_force_state(mdev, NS2(conn, C_PROTOCOL_ERROR, susp, 0));
3260                 return false;
3261         }
3262         rv = _drbd_set_state(mdev, ns, cs_flags, NULL);
3263         ns = mdev->state;
3264         spin_unlock_irq(&mdev->req_lock);
3265
3266         if (rv < SS_SUCCESS) {
3267                 drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
3268                 return false;
3269         }
3270
3271         if (os.conn > C_WF_REPORT_PARAMS) {
3272                 if (ns.conn > C_CONNECTED && peer_state.conn <= C_CONNECTED &&
3273                     peer_state.disk != D_NEGOTIATING ) {
3274                         /* we want resync, peer has not yet decided to sync... */
3275                         /* Nowadays only used when forcing a node into primary role and
3276                            setting its disk to UpToDate with that */
3277                         drbd_send_uuids(mdev);
3278                         drbd_send_state(mdev);
3279                 }
3280         }
3281
3282         mdev->net_conf->want_lose = 0;
3283
3284         drbd_md_sync(mdev); /* update connected indicator, la_size, ... */
3285
3286         return true;
3287 }
3288
3289 static int receive_sync_uuid(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3290 {
3291         struct p_rs_uuid *p = &mdev->data.rbuf.rs_uuid;
3292
3293         wait_event(mdev->misc_wait,
3294                    mdev->state.conn == C_WF_SYNC_UUID ||
3295                    mdev->state.conn == C_BEHIND ||
3296                    mdev->state.conn < C_CONNECTED ||
3297                    mdev->state.disk < D_NEGOTIATING);
3298
3299         /* D_ASSERT( mdev->state.conn == C_WF_SYNC_UUID ); */
3300
3301         /* Here the _drbd_uuid_ functions are right, current should
3302            _not_ be rotated into the history */
3303         if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
3304                 _drbd_uuid_set(mdev, UI_CURRENT, be64_to_cpu(p->uuid));
3305                 _drbd_uuid_set(mdev, UI_BITMAP, 0UL);
3306
3307                 drbd_start_resync(mdev, C_SYNC_TARGET);
3308
3309                 put_ldev(mdev);
3310         } else
3311                 dev_err(DEV, "Ignoring SyncUUID packet!\n");
3312
3313         return true;
3314 }
3315
3316 /**
3317  * receive_bitmap_plain
3318  *
3319  * Return 0 when done, 1 when another iteration is needed, and a negative error
3320  * code upon failure.
3321  */
3322 static int
3323 receive_bitmap_plain(struct drbd_conf *mdev, unsigned int data_size,
3324                      unsigned long *buffer, struct bm_xfer_ctx *c)
3325 {
3326         unsigned num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
3327         unsigned want = num_words * sizeof(long);
3328         int err;
3329
3330         if (want != data_size) {
3331                 dev_err(DEV, "%s:want (%u) != data_size (%u)\n", __func__, want, data_size);
3332                 return -EIO;
3333         }
3334         if (want == 0)
3335                 return 0;
3336         err = drbd_recv(mdev, buffer, want);
3337         if (err != want) {
3338                 if (err >= 0)
3339                         err = -EIO;
3340                 return err;
3341         }
3342
3343         drbd_bm_merge_lel(mdev, c->word_offset, num_words, buffer);
3344
3345         c->word_offset += num_words;
3346         c->bit_offset = c->word_offset * BITS_PER_LONG;
3347         if (c->bit_offset > c->bm_bits)
3348                 c->bit_offset = c->bm_bits;
3349
3350         return 1;
3351 }
3352
3353 /**
3354  * recv_bm_rle_bits
3355  *
3356  * Return 0 when done, 1 when another iteration is needed, and a negative error
3357  * code upon failure.
3358  */
3359 static int
3360 recv_bm_rle_bits(struct drbd_conf *mdev,
3361                 struct p_compressed_bm *p,
3362                 struct bm_xfer_ctx *c)
3363 {
3364         struct bitstream bs;
3365         u64 look_ahead;
3366         u64 rl;
3367         u64 tmp;
3368         unsigned long s = c->bit_offset;
3369         unsigned long e;
3370         int len = be16_to_cpu(p->head.length) - (sizeof(*p) - sizeof(p->head));
3371         int toggle = DCBP_get_start(p);
3372         int have;
3373         int bits;
3374
3375         bitstream_init(&bs, p->code, len, DCBP_get_pad_bits(p));
3376
3377         bits = bitstream_get_bits(&bs, &look_ahead, 64);
3378         if (bits < 0)
3379                 return -EIO;
3380
3381         for (have = bits; have > 0; s += rl, toggle = !toggle) {
3382                 bits = vli_decode_bits(&rl, look_ahead);
3383                 if (bits <= 0)
3384                         return -EIO;
3385
3386                 if (toggle) {
3387                         e = s + rl -1;
3388                         if (e >= c->bm_bits) {
3389                                 dev_err(DEV, "bitmap overflow (e:%lu) while decoding bm RLE packet\n", e);
3390                                 return -EIO;
3391                         }
3392                         _drbd_bm_set_bits(mdev, s, e);
3393                 }
3394
3395                 if (have < bits) {
3396                         dev_err(DEV, "bitmap decoding error: h:%d b:%d la:0x%08llx l:%u/%u\n",
3397                                 have, bits, look_ahead,
3398                                 (unsigned int)(bs.cur.b - p->code),
3399                                 (unsigned int)bs.buf_len);
3400                         return -EIO;
3401                 }
3402                 look_ahead >>= bits;
3403                 have -= bits;
3404
3405                 bits = bitstream_get_bits(&bs, &tmp, 64 - have);
3406                 if (bits < 0)
3407                         return -EIO;
3408                 look_ahead |= tmp << have;
3409                 have += bits;
3410         }
3411
3412         c->bit_offset = s;
3413         bm_xfer_ctx_bit_to_word_offset(c);
3414
3415         return (s != c->bm_bits);
3416 }
3417
3418 /**
3419  * decode_bitmap_c
3420  *
3421  * Return 0 when done, 1 when another iteration is needed, and a negative error
3422  * code upon failure.
3423  */
3424 static int
3425 decode_bitmap_c(struct drbd_conf *mdev,
3426                 struct p_compressed_bm *p,
3427                 struct bm_xfer_ctx *c)
3428 {
3429         if (DCBP_get_code(p) == RLE_VLI_Bits)
3430                 return recv_bm_rle_bits(mdev, p, c);
3431
3432         /* other variants had been implemented for evaluation,
3433          * but have been dropped as this one turned out to be "best"
3434          * during all our tests. */
3435
3436         dev_err(DEV, "receive_bitmap_c: unknown encoding %u\n", p->encoding);
3437         drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
3438         return -EIO;
3439 }
3440
3441 void INFO_bm_xfer_stats(struct drbd_conf *mdev,
3442                 const char *direction, struct bm_xfer_ctx *c)
3443 {
3444         /* what would it take to transfer it "plaintext" */
3445         unsigned plain = sizeof(struct p_header80) *
3446                 ((c->bm_words+BM_PACKET_WORDS-1)/BM_PACKET_WORDS+1)
3447                 + c->bm_words * sizeof(long);
3448         unsigned total = c->bytes[0] + c->bytes[1];
3449         unsigned r;
3450
3451         /* total can not be zero. but just in case: */
3452         if (total == 0)
3453                 return;
3454
3455         /* don't report if not compressed */
3456         if (total >= plain)
3457                 return;
3458
3459         /* total < plain. check for overflow, still */
3460         r = (total > UINT_MAX/1000) ? (total / (plain/1000))
3461                                     : (1000 * total / plain);
3462
3463         if (r > 1000)
3464                 r = 1000;
3465
3466         r = 1000 - r;
3467         dev_info(DEV, "%s bitmap stats [Bytes(packets)]: plain %u(%u), RLE %u(%u), "
3468              "total %u; compression: %u.%u%%\n",
3469                         direction,
3470                         c->bytes[1], c->packets[1],
3471                         c->bytes[0], c->packets[0],
3472                         total, r/10, r % 10);
3473 }
3474
3475 /* Since we are processing the bitfield from lower addresses to higher,
3476    it does not matter if the process it in 32 bit chunks or 64 bit
3477    chunks as long as it is little endian. (Understand it as byte stream,
3478    beginning with the lowest byte...) If we would use big endian
3479    we would need to process it from the highest address to the lowest,
3480    in order to be agnostic to the 32 vs 64 bits issue.
3481
3482    returns 0 on failure, 1 if we successfully received it. */
3483 static int receive_bitmap(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3484 {
3485         struct bm_xfer_ctx c;
3486         void *buffer;
3487         int err;
3488         int ok = false;
3489         struct p_header80 *h = &mdev->data.rbuf.header.h80;
3490
3491         /* drbd_bm_lock(mdev, "receive bitmap"); By intention no bm_lock */
3492
3493         /* maybe we should use some per thread scratch page,
3494          * and allocate that during initial device creation? */
3495         buffer   = (unsigned long *) __get_free_page(GFP_NOIO);
3496         if (!buffer) {
3497                 dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
3498                 goto out;
3499         }
3500
3501         c = (struct bm_xfer_ctx) {
3502                 .bm_bits = drbd_bm_bits(mdev),
3503                 .bm_words = drbd_bm_words(mdev),
3504         };
3505
3506         for(;;) {
3507                 if (cmd == P_BITMAP) {
3508                         err = receive_bitmap_plain(mdev, data_size, buffer, &c);
3509                 } else if (cmd == P_COMPRESSED_BITMAP) {
3510                         /* MAYBE: sanity check that we speak proto >= 90,
3511                          * and the feature is enabled! */
3512                         struct p_compressed_bm *p;
3513
3514                         if (data_size > BM_PACKET_PAYLOAD_BYTES) {
3515                                 dev_err(DEV, "ReportCBitmap packet too large\n");
3516                                 goto out;
3517                         }
3518                         /* use the page buff */
3519                         p = buffer;
3520                         memcpy(p, h, sizeof(*h));
3521                         if (drbd_recv(mdev, p->head.payload, data_size) != data_size)
3522                                 goto out;
3523                         if (data_size <= (sizeof(*p) - sizeof(p->head))) {
3524                                 dev_err(DEV, "ReportCBitmap packet too small (l:%u)\n", data_size);
3525                                 goto out;
3526                         }
3527                         err = decode_bitmap_c(mdev, p, &c);
3528                 } else {
3529                         dev_warn(DEV, "receive_bitmap: cmd neither ReportBitMap nor ReportCBitMap (is 0x%x)", cmd);
3530                         goto out;
3531                 }
3532
3533                 c.packets[cmd == P_BITMAP]++;
3534                 c.bytes[cmd == P_BITMAP] += sizeof(struct p_header80) + data_size;
3535
3536                 if (err <= 0) {
3537                         if (err < 0)
3538                                 goto out;
3539                         break;
3540                 }
3541                 if (!drbd_recv_header(mdev, &cmd, &data_size))
3542                         goto out;
3543         }
3544
3545         INFO_bm_xfer_stats(mdev, "receive", &c);
3546
3547         if (mdev->state.conn == C_WF_BITMAP_T) {
3548                 enum drbd_state_rv rv;
3549
3550                 ok = !drbd_send_bitmap(mdev);
3551                 if (!ok)
3552                         goto out;
3553                 /* Omit CS_ORDERED with this state transition to avoid deadlocks. */
3554                 rv = _drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
3555                 D_ASSERT(rv == SS_SUCCESS);
3556         } else if (mdev->state.conn != C_WF_BITMAP_S) {
3557                 /* admin may have requested C_DISCONNECTING,
3558                  * other threads may have noticed network errors */
3559                 dev_info(DEV, "unexpected cstate (%s) in receive_bitmap\n",
3560                     drbd_conn_str(mdev->state.conn));
3561         }
3562
3563         ok = true;
3564  out:
3565         /* drbd_bm_unlock(mdev); by intention no lock */
3566         if (ok && mdev->state.conn == C_WF_BITMAP_S)
3567                 drbd_start_resync(mdev, C_SYNC_SOURCE);
3568         free_page((unsigned long) buffer);
3569         return ok;
3570 }
3571
3572 static int receive_skip(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3573 {
3574         /* TODO zero copy sink :) */
3575         static char sink[128];
3576         int size, want, r;
3577
3578         dev_warn(DEV, "skipping unknown optional packet type %d, l: %d!\n",
3579                  cmd, data_size);
3580
3581         size = data_size;
3582         while (size > 0) {
3583                 want = min_t(int, size, sizeof(sink));
3584                 r = drbd_recv(mdev, sink, want);
3585                 ERR_IF(r <= 0) break;
3586                 size -= r;
3587         }
3588         return size == 0;
3589 }
3590
3591 static int receive_UnplugRemote(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3592 {
3593         /* Make sure we've acked all the TCP data associated
3594          * with the data requests being unplugged */
3595         drbd_tcp_quickack(mdev->data.socket);
3596
3597         return true;
3598 }
3599
3600 static int receive_out_of_sync(struct drbd_conf *mdev, enum drbd_packets cmd, unsigned int data_size)
3601 {
3602         struct p_block_desc *p = &mdev->data.rbuf.block_desc;
3603
3604         switch (mdev->state.conn) {
3605         case C_WF_SYNC_UUID:
3606         case C_WF_BITMAP_T:
3607         case C_BEHIND:
3608                         break;
3609         default:
3610                 dev_err(DEV, "ASSERT FAILED cstate = %s, expected: WFSyncUUID|WFBitMapT|Behind\n",
3611                                 drbd_conn_str(mdev->state.conn));
3612         }
3613
3614         drbd_set_out_of_sync(mdev, be64_to_cpu(p->sector), be32_to_cpu(p->blksize));
3615
3616         return true;
3617 }
3618
3619 typedef int (*drbd_cmd_handler_f)(struct drbd_conf *, enum drbd_packets cmd, unsigned int to_receive);
3620
3621 struct data_cmd {
3622         int expect_payload;
3623         size_t pkt_size;
3624         drbd_cmd_handler_f function;
3625 };
3626
3627 static struct data_cmd drbd_cmd_handler[] = {
3628         [P_DATA]            = { 1, sizeof(struct p_data), receive_Data },
3629         [P_DATA_REPLY]      = { 1, sizeof(struct p_data), receive_DataReply },
3630         [P_RS_DATA_REPLY]   = { 1, sizeof(struct p_data), receive_RSDataReply } ,
3631         [P_BARRIER]         = { 0, sizeof(struct p_barrier), receive_Barrier } ,
3632         [P_BITMAP]          = { 1, sizeof(struct p_header80), receive_bitmap } ,
3633         [P_COMPRESSED_BITMAP] = { 1, sizeof(struct p_header80), receive_bitmap } ,
3634         [P_UNPLUG_REMOTE]   = { 0, sizeof(struct p_header80), receive_UnplugRemote },
3635         [P_DATA_REQUEST]    = { 0, sizeof(struct p_block_req), receive_DataRequest },
3636         [P_RS_DATA_REQUEST] = { 0, sizeof(struct p_block_req), receive_DataRequest },
3637         [P_SYNC_PARAM]      = { 1, sizeof(struct p_header80), receive_SyncParam },
3638         [P_SYNC_PARAM89]    = { 1, sizeof(struct p_header80), receive_SyncParam },
3639         [P_PROTOCOL]        = { 1, sizeof(struct p_protocol), receive_protocol },
3640         [P_UUIDS]           = { 0, sizeof(struct p_uuids), receive_uuids },
3641         [P_SIZES]           = { 0, sizeof(struct p_sizes), receive_sizes },
3642         [P_STATE]           = { 0, sizeof(struct p_state), receive_state },
3643         [P_STATE_CHG_REQ]   = { 0, sizeof(struct p_req_state), receive_req_state },
3644         [P_SYNC_UUID]       = { 0, sizeof(struct p_rs_uuid), receive_sync_uuid },
3645         [P_OV_REQUEST]      = { 0, sizeof(struct p_block_req), receive_DataRequest },
3646         [P_OV_REPLY]        = { 1, sizeof(struct p_block_req), receive_DataRequest },
3647         [P_CSUM_RS_REQUEST] = { 1, sizeof(struct p_block_req), receive_DataRequest },
3648         [P_DELAY_PROBE]     = { 0, sizeof(struct p_delay_probe93), receive_skip },
3649         [P_OUT_OF_SYNC]     = { 0, sizeof(struct p_block_desc), receive_out_of_sync },
3650         /* anything missing from this table is in
3651          * the asender_tbl, see get_asender_cmd */
3652         [P_MAX_CMD]         = { 0, 0, NULL },
3653 };
3654
3655 /* All handler functions that expect a sub-header get that sub-heder in
3656    mdev->data.rbuf.header.head.payload.
3657
3658    Usually in mdev->data.rbuf.header.head the callback can find the usual
3659    p_header, but they may not rely on that. Since there is also p_header95 !
3660  */
3661
3662 static void drbdd(struct drbd_conf *mdev)
3663 {
3664         union p_header *header = &mdev->data.rbuf.header;
3665         unsigned int packet_size;
3666         enum drbd_packets cmd;
3667         size_t shs; /* sub header size */
3668         int rv;
3669
3670         while (get_t_state(&mdev->receiver) == Running) {
3671                 drbd_thread_current_set_cpu(mdev);
3672                 if (!drbd_recv_header(mdev, &cmd, &packet_size))
3673                         goto err_out;
3674
3675                 if (unlikely(cmd >= P_MAX_CMD || !drbd_cmd_handler[cmd].function)) {
3676                         dev_err(DEV, "unknown packet type %d, l: %d!\n", cmd, packet_size);
3677                         goto err_out;
3678                 }
3679
3680                 shs = drbd_cmd_handler[cmd].pkt_size - sizeof(union p_header);
3681                 if (packet_size - shs > 0 && !drbd_cmd_handler[cmd].expect_payload) {
3682                         dev_err(DEV, "No payload expected %s l:%d\n", cmdname(cmd), packet_size);
3683                         goto err_out;
3684                 }
3685
3686                 if (shs) {
3687                         rv = drbd_recv(mdev, &header->h80.payload, shs);
3688                         if (unlikely(rv != shs)) {
3689                                 dev_err(DEV, "short read while reading sub header: rv=%d\n", rv);
3690                                 goto err_out;
3691                         }
3692                 }
3693
3694                 rv = drbd_cmd_handler[cmd].function(mdev, cmd, packet_size - shs);
3695
3696                 if (unlikely(!rv)) {
3697                         dev_err(DEV, "error receiving %s, l: %d!\n",
3698                             cmdname(cmd), packet_size);
3699                         goto err_out;
3700                 }
3701         }
3702
3703         if (0) {
3704         err_out:
3705                 drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
3706         }
3707         /* If we leave here, we probably want to update at least the
3708          * "Connected" indicator on stable storage. Do so explicitly here. */
3709         drbd_md_sync(mdev);
3710 }
3711
3712 void drbd_flush_workqueue(struct drbd_conf *mdev)
3713 {
3714         struct drbd_wq_barrier barr;
3715
3716         barr.w.cb = w_prev_work_done;
3717         init_completion(&barr.done);
3718         drbd_queue_work(&mdev->data.work, &barr.w);
3719         wait_for_completion(&barr.done);
3720 }
3721
3722 void drbd_free_tl_hash(struct drbd_conf *mdev)
3723 {
3724         struct hlist_head *h;
3725
3726         spin_lock_irq(&mdev->req_lock);
3727
3728         if (!mdev->tl_hash || mdev->state.conn != C_STANDALONE) {
3729                 spin_unlock_irq(&mdev->req_lock);
3730                 return;
3731         }
3732         /* paranoia code */
3733         for (h = mdev->ee_hash; h < mdev->ee_hash + mdev->ee_hash_s; h++)
3734                 if (h->first)
3735                         dev_err(DEV, "ASSERT FAILED ee_hash[%u].first == %p, expected NULL\n",
3736                                 (int)(h - mdev->ee_hash), h->first);
3737         kfree(mdev->ee_hash);
3738         mdev->ee_hash = NULL;
3739         mdev->ee_hash_s = 0;
3740
3741         /* paranoia code */
3742         for (h = mdev->tl_hash; h < mdev->tl_hash + mdev->tl_hash_s; h++)
3743                 if (h->first)
3744                         dev_err(DEV, "ASSERT FAILED tl_hash[%u] == %p, expected NULL\n",
3745                                 (int)(h - mdev->tl_hash), h->first);
3746         kfree(mdev->tl_hash);
3747         mdev->tl_hash = NULL;
3748         mdev->tl_hash_s = 0;
3749         spin_unlock_irq(&mdev->req_lock);
3750 }
3751
3752 static void drbd_disconnect(struct drbd_conf *mdev)
3753 {
3754         enum drbd_fencing_p fp;
3755         union drbd_state os, ns;
3756         int rv = SS_UNKNOWN_ERROR;
3757         unsigned int i;
3758
3759         if (mdev->state.conn == C_STANDALONE)
3760                 return;
3761
3762         /* asender does not clean up anything. it must not interfere, either */
3763         drbd_thread_stop(&mdev->asender);
3764         drbd_free_sock(mdev);
3765
3766         /* wait for current activity to cease. */
3767         spin_lock_irq(&mdev->req_lock);
3768         _drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
3769         _drbd_wait_ee_list_empty(mdev, &mdev->sync_ee);
3770         _drbd_wait_ee_list_empty(mdev, &mdev->read_ee);
3771         spin_unlock_irq(&mdev->req_lock);
3772
3773         /* We do not have data structures that would allow us to
3774          * get the rs_pending_cnt down to 0 again.
3775          *  * On C_SYNC_TARGET we do not have any data structures describing
3776          *    the pending RSDataRequest's we have sent.
3777          *  * On C_SYNC_SOURCE there is no data structure that tracks
3778          *    the P_RS_DATA_REPLY blocks that we sent to the SyncTarget.
3779          *  And no, it is not the sum of the reference counts in the
3780          *  resync_LRU. The resync_LRU tracks the whole operation including
3781          *  the disk-IO, while the rs_pending_cnt only tracks the blocks
3782          *  on the fly. */
3783         drbd_rs_cancel_all(mdev);
3784         mdev->rs_total = 0;
3785         mdev->rs_failed = 0;
3786         atomic_set(&mdev->rs_pending_cnt, 0);
3787         wake_up(&mdev->misc_wait);
3788
3789         /* make sure syncer is stopped and w_resume_next_sg queued */
3790         del_timer_sync(&mdev->resync_timer);
3791         resync_timer_fn((unsigned long)mdev);
3792
3793         /* wait for all w_e_end_data_req, w_e_end_rsdata_req, w_send_barrier,
3794          * w_make_resync_request etc. which may still be on the worker queue
3795          * to be "canceled" */
3796         drbd_flush_workqueue(mdev);
3797
3798         /* This also does reclaim_net_ee().  If we do this too early, we might
3799          * miss some resync ee and pages.*/
3800         drbd_process_done_ee(mdev);
3801
3802         kfree(mdev->p_uuid);
3803         mdev->p_uuid = NULL;
3804
3805         if (!is_susp(mdev->state))
3806                 tl_clear(mdev);
3807
3808         dev_info(DEV, "Connection closed\n");
3809
3810         drbd_md_sync(mdev);
3811
3812         fp = FP_DONT_CARE;
3813         if (get_ldev(mdev)) {
3814                 drbd_bitmap_io(mdev, &drbd_bm_write, "write from disconnect");
3815                 fp = mdev->ldev->dc.fencing;
3816                 put_ldev(mdev);
3817         }
3818
3819         if (mdev->state.role == R_PRIMARY && fp >= FP_RESOURCE && mdev->state.pdsk >= D_UNKNOWN)
3820                 drbd_try_outdate_peer_async(mdev);
3821
3822         spin_lock_irq(&mdev->req_lock);
3823         os = mdev->state;
3824         if (os.conn >= C_UNCONNECTED) {
3825                 /* Do not restart in case we are C_DISCONNECTING */
3826                 ns = os;
3827                 ns.conn = C_UNCONNECTED;
3828                 rv = _drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
3829         }
3830         spin_unlock_irq(&mdev->req_lock);
3831
3832         if (os.conn == C_DISCONNECTING) {
3833                 wait_event(mdev->net_cnt_wait, atomic_read(&mdev->net_cnt) == 0);
3834
3835                 crypto_free_hash(mdev->cram_hmac_tfm);
3836                 mdev->cram_hmac_tfm = NULL;
3837
3838                 kfree(mdev->net_conf);
3839                 mdev->net_conf = NULL;
3840                 drbd_request_state(mdev, NS(conn, C_STANDALONE));
3841         }
3842
3843         /* tcp_close and release of sendpage pages can be deferred.  I don't
3844          * want to use SO_LINGER, because apparently it can be deferred for
3845          * more than 20 seconds (longest time I checked).
3846          *
3847          * Actually we don't care for exactly when the network stack does its
3848          * put_page(), but release our reference on these pages right here.
3849          */
3850         i = drbd_release_ee(mdev, &mdev->net_ee);
3851         if (i)
3852                 dev_info(DEV, "net_ee not empty, killed %u entries\n", i);
3853         i = atomic_read(&mdev->pp_in_use_by_net);
3854         if (i)
3855                 dev_info(DEV, "pp_in_use_by_net = %d, expected 0\n", i);
3856         i = atomic_read(&mdev->pp_in_use);
3857         if (i)
3858                 dev_info(DEV, "pp_in_use = %d, expected 0\n", i);
3859
3860         D_ASSERT(list_empty(&mdev->read_ee));
3861         D_ASSERT(list_empty(&mdev->active_ee));
3862         D_ASSERT(list_empty(&mdev->sync_ee));
3863         D_ASSERT(list_empty(&mdev->done_ee));
3864
3865         /* ok, no more ee's on the fly, it is safe to reset the epoch_size */
3866         atomic_set(&mdev->current_epoch->epoch_size, 0);
3867         D_ASSERT(list_empty(&mdev->current_epoch->list));
3868 }
3869
3870 /*
3871  * We support PRO_VERSION_MIN to PRO_VERSION_MAX. The protocol version
3872  * we can agree on is stored in agreed_pro_version.
3873  *
3874  * feature flags and the reserved array should be enough room for future
3875  * enhancements of the handshake protocol, and possible plugins...
3876  *
3877  * for now, they are expected to be zero, but ignored.
3878  */
3879 static int drbd_send_handshake(struct drbd_conf *mdev)
3880 {
3881         /* ASSERT current == mdev->receiver ... */
3882         struct p_handshake *p = &mdev->data.sbuf.handshake;
3883         int ok;
3884
3885         if (mutex_lock_interruptible(&mdev->data.mutex)) {
3886                 dev_err(DEV, "interrupted during initial handshake\n");
3887                 return 0; /* interrupted. not ok. */
3888         }
3889
3890         if (mdev->data.socket == NULL) {
3891                 mutex_unlock(&mdev->data.mutex);
3892                 return 0;
3893         }
3894
3895         memset(p, 0, sizeof(*p));
3896         p->protocol_min = cpu_to_be32(PRO_VERSION_MIN);
3897         p->protocol_max = cpu_to_be32(PRO_VERSION_MAX);
3898         ok = _drbd_send_cmd( mdev, mdev->data.socket, P_HAND_SHAKE,
3899                              (struct p_header80 *)p, sizeof(*p), 0 );
3900         mutex_unlock(&mdev->data.mutex);
3901         return ok;
3902 }
3903
3904 /*
3905  * return values:
3906  *   1 yes, we have a valid connection
3907  *   0 oops, did not work out, please try again
3908  *  -1 peer talks different language,
3909  *     no point in trying again, please go standalone.
3910  */
3911 static int drbd_do_handshake(struct drbd_conf *mdev)
3912 {
3913         /* ASSERT current == mdev->receiver ... */
3914         struct p_handshake *p = &mdev->data.rbuf.handshake;
3915         const int expect = sizeof(struct p_handshake) - sizeof(struct p_header80);
3916         unsigned int length;
3917         enum drbd_packets cmd;
3918         int rv;
3919
3920         rv = drbd_send_handshake(mdev);
3921         if (!rv)
3922                 return 0;
3923
3924         rv = drbd_recv_header(mdev, &cmd, &length);
3925         if (!rv)
3926                 return 0;
3927
3928         if (cmd != P_HAND_SHAKE) {
3929                 dev_err(DEV, "expected HandShake packet, received: %s (0x%04x)\n",
3930                      cmdname(cmd), cmd);
3931                 return -1;
3932         }
3933
3934         if (length != expect) {
3935                 dev_err(DEV, "expected HandShake length: %u, received: %u\n",
3936                      expect, length);
3937                 return -1;
3938         }
3939
3940         rv = drbd_recv(mdev, &p->head.payload, expect);
3941
3942         if (rv != expect) {
3943                 dev_err(DEV, "short read receiving handshake packet: l=%u\n", rv);
3944                 return 0;
3945         }
3946
3947         p->protocol_min = be32_to_cpu(p->protocol_min);
3948         p->protocol_max = be32_to_cpu(p->protocol_max);
3949         if (p->protocol_max == 0)
3950                 p->protocol_max = p->protocol_min;
3951
3952         if (PRO_VERSION_MAX < p->protocol_min ||
3953             PRO_VERSION_MIN > p->protocol_max)
3954                 goto incompat;
3955
3956         mdev->agreed_pro_version = min_t(int, PRO_VERSION_MAX, p->protocol_max);
3957
3958         dev_info(DEV, "Handshake successful: "
3959              "Agreed network protocol version %d\n", mdev->agreed_pro_version);
3960
3961         return 1;
3962
3963  incompat:
3964         dev_err(DEV, "incompatible DRBD dialects: "
3965             "I support %d-%d, peer supports %d-%d\n",
3966             PRO_VERSION_MIN, PRO_VERSION_MAX,
3967             p->protocol_min, p->protocol_max);
3968         return -1;
3969 }
3970
3971 #if !defined(CONFIG_CRYPTO_HMAC) && !defined(CONFIG_CRYPTO_HMAC_MODULE)
3972 static int drbd_do_auth(struct drbd_conf *mdev)
3973 {
3974         dev_err(DEV, "This kernel was build without CONFIG_CRYPTO_HMAC.\n");
3975         dev_err(DEV, "You need to disable 'cram-hmac-alg' in drbd.conf.\n");
3976         return -1;
3977 }
3978 #else
3979 #define CHALLENGE_LEN 64
3980
3981 /* Return value:
3982         1 - auth succeeded,
3983         0 - failed, try again (network error),
3984         -1 - auth failed, don't try again.
3985 */
3986
3987 static int drbd_do_auth(struct drbd_conf *mdev)
3988 {
3989         char my_challenge[CHALLENGE_LEN];  /* 64 Bytes... */
3990         struct scatterlist sg;
3991         char *response = NULL;
3992         char *right_response = NULL;
3993         char *peers_ch = NULL;
3994         unsigned int key_len = strlen(mdev->net_conf->shared_secret);
3995         unsigned int resp_size;
3996         struct hash_desc desc;
3997         enum drbd_packets cmd;
3998         unsigned int length;
3999         int rv;
4000
4001         desc.tfm = mdev->cram_hmac_tfm;
4002         desc.flags = 0;
4003
4004         rv = crypto_hash_setkey(mdev->cram_hmac_tfm,
4005                                 (u8 *)mdev->net_conf->shared_secret, key_len);
4006         if (rv) {
4007                 dev_err(DEV, "crypto_hash_setkey() failed with %d\n", rv);
4008                 rv = -1;
4009                 goto fail;
4010         }
4011
4012         get_random_bytes(my_challenge, CHALLENGE_LEN);
4013
4014         rv = drbd_send_cmd2(mdev, P_AUTH_CHALLENGE, my_challenge, CHALLENGE_LEN);
4015         if (!rv)
4016                 goto fail;
4017
4018         rv = drbd_recv_header(mdev, &cmd, &length);
4019         if (!rv)
4020                 goto fail;
4021
4022         if (cmd != P_AUTH_CHALLENGE) {
4023                 dev_err(DEV, "expected AuthChallenge packet, received: %s (0x%04x)\n",
4024                     cmdname(cmd), cmd);
4025                 rv = 0;
4026                 goto fail;
4027         }
4028
4029         if (length > CHALLENGE_LEN * 2) {
4030                 dev_err(DEV, "expected AuthChallenge payload too big.\n");
4031                 rv = -1;
4032                 goto fail;
4033         }
4034
4035         peers_ch = kmalloc(length, GFP_NOIO);
4036         if (peers_ch == NULL) {
4037                 dev_err(DEV, "kmalloc of peers_ch failed\n");
4038                 rv = -1;
4039                 goto fail;
4040         }
4041
4042         rv = drbd_recv(mdev, peers_ch, length);
4043
4044         if (rv != length) {
4045                 dev_err(DEV, "short read AuthChallenge: l=%u\n", rv);
4046                 rv = 0;
4047                 goto fail;
4048         }
4049
4050         resp_size = crypto_hash_digestsize(mdev->cram_hmac_tfm);
4051         response = kmalloc(resp_size, GFP_NOIO);
4052         if (response == NULL) {
4053                 dev_err(DEV, "kmalloc of response failed\n");
4054                 rv = -1;
4055                 goto fail;
4056         }
4057
4058         sg_init_table(&sg, 1);
4059         sg_set_buf(&sg, peers_ch, length);
4060
4061         rv = crypto_hash_digest(&desc, &sg, sg.length, response);
4062         if (rv) {
4063                 dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
4064                 rv = -1;
4065                 goto fail;
4066         }
4067
4068         rv = drbd_send_cmd2(mdev, P_AUTH_RESPONSE, response, resp_size);
4069         if (!rv)
4070                 goto fail;
4071
4072         rv = drbd_recv_header(mdev, &cmd, &length);
4073         if (!rv)
4074                 goto fail;
4075
4076         if (cmd != P_AUTH_RESPONSE) {
4077                 dev_err(DEV, "expected AuthResponse packet, received: %s (0x%04x)\n",
4078                         cmdname(cmd), cmd);
4079                 rv = 0;
4080                 goto fail;
4081         }
4082
4083         if (length != resp_size) {
4084                 dev_err(DEV, "expected AuthResponse payload of wrong size\n");
4085                 rv = 0;
4086                 goto fail;
4087         }
4088
4089         rv = drbd_recv(mdev, response , resp_size);
4090
4091         if (rv != resp_size) {
4092                 dev_err(DEV, "short read receiving AuthResponse: l=%u\n", rv);
4093                 rv = 0;
4094                 goto fail;
4095         }
4096
4097         right_response = kmalloc(resp_size, GFP_NOIO);
4098         if (right_response == NULL) {
4099                 dev_err(DEV, "kmalloc of right_response failed\n");
4100                 rv = -1;
4101                 goto fail;
4102         }
4103
4104         sg_set_buf(&sg, my_challenge, CHALLENGE_LEN);
4105
4106         rv = crypto_hash_digest(&desc, &sg, sg.length, right_response);
4107         if (rv) {
4108                 dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
4109                 rv = -1;
4110                 goto fail;
4111         }
4112
4113         rv = !memcmp(response, right_response, resp_size);
4114
4115         if (rv)
4116                 dev_info(DEV, "Peer authenticated using %d bytes of '%s' HMAC\n",
4117                      resp_size, mdev->net_conf->cram_hmac_alg);
4118         else
4119                 rv = -1;
4120
4121  fail:
4122         kfree(peers_ch);
4123         kfree(response);
4124         kfree(right_response);
4125
4126         return rv;
4127 }
4128 #endif
4129
4130 int drbdd_init(struct drbd_thread *thi)
4131 {
4132         struct drbd_conf *mdev = thi->mdev;
4133         unsigned int minor = mdev_to_minor(mdev);
4134         int h;
4135
4136         sprintf(current->comm, "drbd%d_receiver", minor);
4137
4138         dev_info(DEV, "receiver (re)started\n");
4139
4140         do {
4141                 h = drbd_connect(mdev);
4142                 if (h == 0) {
4143                         drbd_disconnect(mdev);
4144                         schedule_timeout_interruptible(HZ);
4145                 }
4146                 if (h == -1) {
4147                         dev_warn(DEV, "Discarding network configuration.\n");
4148                         drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
4149                 }
4150         } while (h == 0);
4151
4152         if (h > 0) {
4153                 if (get_net_conf(mdev)) {
4154                         drbdd(mdev);
4155                         put_net_conf(mdev);
4156                 }
4157         }
4158
4159         drbd_disconnect(mdev);
4160
4161         dev_info(DEV, "receiver terminated\n");
4162         return 0;
4163 }
4164
4165 /* ********* acknowledge sender ******** */
4166
4167 static int got_RqSReply(struct drbd_conf *mdev, struct p_header80 *h)
4168 {
4169         struct p_req_state_reply *p = (struct p_req_state_reply *)h;
4170
4171         int retcode = be32_to_cpu(p->retcode);
4172
4173         if (retcode >= SS_SUCCESS) {
4174                 set_bit(CL_ST_CHG_SUCCESS, &mdev->flags);
4175         } else {
4176                 set_bit(CL_ST_CHG_FAIL, &mdev->flags);
4177                 dev_err(DEV, "Requested state change failed by peer: %s (%d)\n",
4178                     drbd_set_st_err_str(retcode), retcode);
4179         }
4180         wake_up(&mdev->state_wait);
4181
4182         return true;
4183 }
4184
4185 static int got_Ping(struct drbd_conf *mdev, struct p_header80 *h)
4186 {
4187         return drbd_send_ping_ack(mdev);
4188
4189 }
4190
4191 static int got_PingAck(struct drbd_conf *mdev, struct p_header80 *h)
4192 {
4193         /* restore idle timeout */
4194         mdev->meta.socket->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
4195         if (!test_and_set_bit(GOT_PING_ACK, &mdev->flags))
4196                 wake_up(&mdev->misc_wait);
4197
4198         return true;
4199 }
4200
4201 static int got_IsInSync(struct drbd_conf *mdev, struct p_header80 *h)
4202 {
4203         struct p_block_ack *p = (struct p_block_ack *)h;
4204         sector_t sector = be64_to_cpu(p->sector);
4205         int blksize = be32_to_cpu(p->blksize);
4206
4207         D_ASSERT(mdev->agreed_pro_version >= 89);
4208
4209         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4210
4211         if (get_ldev(mdev)) {
4212                 drbd_rs_complete_io(mdev, sector);
4213                 drbd_set_in_sync(mdev, sector, blksize);
4214                 /* rs_same_csums is supposed to count in units of BM_BLOCK_SIZE */
4215                 mdev->rs_same_csum += (blksize >> BM_BLOCK_SHIFT);
4216                 put_ldev(mdev);
4217         }
4218         dec_rs_pending(mdev);
4219         atomic_add(blksize >> 9, &mdev->rs_sect_in);
4220
4221         return true;
4222 }
4223
4224 /* when we receive the ACK for a write request,
4225  * verify that we actually know about it */
4226 static struct drbd_request *_ack_id_to_req(struct drbd_conf *mdev,
4227         u64 id, sector_t sector)
4228 {
4229         struct hlist_head *slot = tl_hash_slot(mdev, sector);
4230         struct hlist_node *n;
4231         struct drbd_request *req;
4232
4233         hlist_for_each_entry(req, n, slot, colision) {
4234                 if ((unsigned long)req == (unsigned long)id) {
4235                         if (req->sector != sector) {
4236                                 dev_err(DEV, "_ack_id_to_req: found req %p but it has "
4237                                     "wrong sector (%llus versus %llus)\n", req,
4238                                     (unsigned long long)req->sector,
4239                                     (unsigned long long)sector);
4240                                 break;
4241                         }
4242                         return req;
4243                 }
4244         }
4245         return NULL;
4246 }
4247
4248 typedef struct drbd_request *(req_validator_fn)
4249         (struct drbd_conf *mdev, u64 id, sector_t sector);
4250
4251 static int validate_req_change_req_state(struct drbd_conf *mdev,
4252         u64 id, sector_t sector, req_validator_fn validator,
4253         const char *func, enum drbd_req_event what)
4254 {
4255         struct drbd_request *req;
4256         struct bio_and_error m;
4257
4258         spin_lock_irq(&mdev->req_lock);
4259         req = validator(mdev, id, sector);
4260         if (unlikely(!req)) {
4261                 spin_unlock_irq(&mdev->req_lock);
4262
4263                 dev_err(DEV, "%s: failed to find req %p, sector %llus\n", func,
4264                         (void *)(unsigned long)id, (unsigned long long)sector);
4265                 return false;
4266         }
4267         __req_mod(req, what, &m);
4268         spin_unlock_irq(&mdev->req_lock);
4269
4270         if (m.bio)
4271                 complete_master_bio(mdev, &m);
4272         return true;
4273 }
4274
4275 static int got_BlockAck(struct drbd_conf *mdev, struct p_header80 *h)
4276 {
4277         struct p_block_ack *p = (struct p_block_ack *)h;
4278         sector_t sector = be64_to_cpu(p->sector);
4279         int blksize = be32_to_cpu(p->blksize);
4280         enum drbd_req_event what;
4281
4282         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4283
4284         if (is_syncer_block_id(p->block_id)) {
4285                 drbd_set_in_sync(mdev, sector, blksize);
4286                 dec_rs_pending(mdev);
4287                 return true;
4288         }
4289         switch (be16_to_cpu(h->command)) {
4290         case P_RS_WRITE_ACK:
4291                 D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
4292                 what = write_acked_by_peer_and_sis;
4293                 break;
4294         case P_WRITE_ACK:
4295                 D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
4296                 what = write_acked_by_peer;
4297                 break;
4298         case P_RECV_ACK:
4299                 D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_B);
4300                 what = recv_acked_by_peer;
4301                 break;
4302         case P_DISCARD_ACK:
4303                 D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
4304                 what = conflict_discarded_by_peer;
4305                 break;
4306         default:
4307                 D_ASSERT(0);
4308                 return false;
4309         }
4310
4311         return validate_req_change_req_state(mdev, p->block_id, sector,
4312                 _ack_id_to_req, __func__ , what);
4313 }
4314
4315 static int got_NegAck(struct drbd_conf *mdev, struct p_header80 *h)
4316 {
4317         struct p_block_ack *p = (struct p_block_ack *)h;
4318         sector_t sector = be64_to_cpu(p->sector);
4319         int size = be32_to_cpu(p->blksize);
4320         struct drbd_request *req;
4321         struct bio_and_error m;
4322
4323         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4324
4325         if (is_syncer_block_id(p->block_id)) {
4326                 dec_rs_pending(mdev);
4327                 drbd_rs_failed_io(mdev, sector, size);
4328                 return true;
4329         }
4330
4331         spin_lock_irq(&mdev->req_lock);
4332         req = _ack_id_to_req(mdev, p->block_id, sector);
4333         if (!req) {
4334                 spin_unlock_irq(&mdev->req_lock);
4335                 if (mdev->net_conf->wire_protocol == DRBD_PROT_A ||
4336                     mdev->net_conf->wire_protocol == DRBD_PROT_B) {
4337                         /* Protocol A has no P_WRITE_ACKs, but has P_NEG_ACKs.
4338                            The master bio might already be completed, therefore the
4339                            request is no longer in the collision hash.
4340                            => Do not try to validate block_id as request. */
4341                         /* In Protocol B we might already have got a P_RECV_ACK
4342                            but then get a P_NEG_ACK after wards. */
4343                         drbd_set_out_of_sync(mdev, sector, size);
4344                         return true;
4345                 } else {
4346                         dev_err(DEV, "%s: failed to find req %p, sector %llus\n", __func__,
4347                                 (void *)(unsigned long)p->block_id, (unsigned long long)sector);
4348                         return false;
4349                 }
4350         }
4351         __req_mod(req, neg_acked, &m);
4352         spin_unlock_irq(&mdev->req_lock);
4353
4354         if (m.bio)
4355                 complete_master_bio(mdev, &m);
4356         return true;
4357 }
4358
4359 static int got_NegDReply(struct drbd_conf *mdev, struct p_header80 *h)
4360 {
4361         struct p_block_ack *p = (struct p_block_ack *)h;
4362         sector_t sector = be64_to_cpu(p->sector);
4363
4364         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4365         dev_err(DEV, "Got NegDReply; Sector %llus, len %u; Fail original request.\n",
4366             (unsigned long long)sector, be32_to_cpu(p->blksize));
4367
4368         return validate_req_change_req_state(mdev, p->block_id, sector,
4369                 _ar_id_to_req, __func__ , neg_acked);
4370 }
4371
4372 static int got_NegRSDReply(struct drbd_conf *mdev, struct p_header80 *h)
4373 {
4374         sector_t sector;
4375         int size;
4376         struct p_block_ack *p = (struct p_block_ack *)h;
4377
4378         sector = be64_to_cpu(p->sector);
4379         size = be32_to_cpu(p->blksize);
4380
4381         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4382
4383         dec_rs_pending(mdev);
4384
4385         if (get_ldev_if_state(mdev, D_FAILED)) {
4386                 drbd_rs_complete_io(mdev, sector);
4387                 switch (be16_to_cpu(h->command)) {
4388                 case P_NEG_RS_DREPLY:
4389                         drbd_rs_failed_io(mdev, sector, size);
4390                 case P_RS_CANCEL:
4391                         break;
4392                 default:
4393                         D_ASSERT(0);
4394                         put_ldev(mdev);
4395                         return false;
4396                 }
4397                 put_ldev(mdev);
4398         }
4399
4400         return true;
4401 }
4402
4403 static int got_BarrierAck(struct drbd_conf *mdev, struct p_header80 *h)
4404 {
4405         struct p_barrier_ack *p = (struct p_barrier_ack *)h;
4406
4407         tl_release(mdev, p->barrier, be32_to_cpu(p->set_size));
4408
4409         if (mdev->state.conn == C_AHEAD &&
4410             atomic_read(&mdev->ap_in_flight) == 0 &&
4411             !test_and_set_bit(AHEAD_TO_SYNC_SOURCE, &mdev->current_epoch->flags)) {
4412                 mdev->start_resync_timer.expires = jiffies + HZ;
4413                 add_timer(&mdev->start_resync_timer);
4414         }
4415
4416         return true;
4417 }
4418
4419 static int got_OVResult(struct drbd_conf *mdev, struct p_header80 *h)
4420 {
4421         struct p_block_ack *p = (struct p_block_ack *)h;
4422         struct drbd_work *w;
4423         sector_t sector;
4424         int size;
4425
4426         sector = be64_to_cpu(p->sector);
4427         size = be32_to_cpu(p->blksize);
4428
4429         update_peer_seq(mdev, be32_to_cpu(p->seq_num));
4430
4431         if (be64_to_cpu(p->block_id) == ID_OUT_OF_SYNC)
4432                 drbd_ov_oos_found(mdev, sector, size);
4433         else
4434                 ov_oos_print(mdev);
4435
4436         if (!get_ldev(mdev))
4437                 return true;
4438
4439         drbd_rs_complete_io(mdev, sector);
4440         dec_rs_pending(mdev);
4441
4442         --mdev->ov_left;
4443
4444         /* let's advance progress step marks only for every other megabyte */
4445         if ((mdev->ov_left & 0x200) == 0x200)
4446                 drbd_advance_rs_marks(mdev, mdev->ov_left);
4447
4448         if (mdev->ov_left == 0) {
4449                 w = kmalloc(sizeof(*w), GFP_NOIO);
4450                 if (w) {
4451                         w->cb = w_ov_finished;
4452                         drbd_queue_work_front(&mdev->data.work, w);
4453                 } else {
4454                         dev_err(DEV, "kmalloc(w) failed.");
4455                         ov_oos_print(mdev);
4456                         drbd_resync_finished(mdev);
4457                 }
4458         }
4459         put_ldev(mdev);
4460         return true;
4461 }
4462
4463 static int got_skip(struct drbd_conf *mdev, struct p_header80 *h)
4464 {
4465         return true;
4466 }
4467
4468 struct asender_cmd {
4469         size_t pkt_size;
4470         int (*process)(struct drbd_conf *mdev, struct p_header80 *h);
4471 };
4472
4473 static struct asender_cmd *get_asender_cmd(int cmd)
4474 {
4475         static struct asender_cmd asender_tbl[] = {
4476                 /* anything missing from this table is in
4477                  * the drbd_cmd_handler (drbd_default_handler) table,
4478                  * see the beginning of drbdd() */
4479         [P_PING]            = { sizeof(struct p_header80), got_Ping },
4480         [P_PING_ACK]        = { sizeof(struct p_header80), got_PingAck },
4481         [P_RECV_ACK]        = { sizeof(struct p_block_ack), got_BlockAck },
4482         [P_WRITE_ACK]       = { sizeof(struct p_block_ack), got_BlockAck },
4483         [P_RS_WRITE_ACK]    = { sizeof(struct p_block_ack), got_BlockAck },
4484         [P_DISCARD_ACK]     = { sizeof(struct p_block_ack), got_BlockAck },
4485         [P_NEG_ACK]         = { sizeof(struct p_block_ack), got_NegAck },
4486         [P_NEG_DREPLY]      = { sizeof(struct p_block_ack), got_NegDReply },
4487         [P_NEG_RS_DREPLY]   = { sizeof(struct p_block_ack), got_NegRSDReply},
4488         [P_OV_RESULT]       = { sizeof(struct p_block_ack), got_OVResult },
4489         [P_BARRIER_ACK]     = { sizeof(struct p_barrier_ack), got_BarrierAck },
4490         [P_STATE_CHG_REPLY] = { sizeof(struct p_req_state_reply), got_RqSReply },
4491         [P_RS_IS_IN_SYNC]   = { sizeof(struct p_block_ack), got_IsInSync },
4492         [P_DELAY_PROBE]     = { sizeof(struct p_delay_probe93), got_skip },
4493         [P_RS_CANCEL]       = { sizeof(struct p_block_ack), got_NegRSDReply},
4494         [P_MAX_CMD]         = { 0, NULL },
4495         };
4496         if (cmd > P_MAX_CMD || asender_tbl[cmd].process == NULL)
4497                 return NULL;
4498         return &asender_tbl[cmd];
4499 }
4500
4501 int drbd_asender(struct drbd_thread *thi)
4502 {
4503         struct drbd_conf *mdev = thi->mdev;
4504         struct p_header80 *h = &mdev->meta.rbuf.header.h80;
4505         struct asender_cmd *cmd = NULL;
4506
4507         int rv, len;
4508         void *buf    = h;
4509         int received = 0;
4510         int expect   = sizeof(struct p_header80);
4511         int empty;
4512
4513         sprintf(current->comm, "drbd%d_asender", mdev_to_minor(mdev));
4514
4515         current->policy = SCHED_RR;  /* Make this a realtime task! */
4516         current->rt_priority = 2;    /* more important than all other tasks */
4517
4518         while (get_t_state(thi) == Running) {
4519                 drbd_thread_current_set_cpu(mdev);
4520                 if (test_and_clear_bit(SEND_PING, &mdev->flags)) {
4521                         ERR_IF(!drbd_send_ping(mdev)) goto reconnect;
4522                         mdev->meta.socket->sk->sk_rcvtimeo =
4523                                 mdev->net_conf->ping_timeo*HZ/10;
4524                 }
4525
4526                 /* conditionally cork;
4527                  * it may hurt latency if we cork without much to send */
4528                 if (!mdev->net_conf->no_cork &&
4529                         3 < atomic_read(&mdev->unacked_cnt))
4530                         drbd_tcp_cork(mdev->meta.socket);
4531                 while (1) {
4532                         clear_bit(SIGNAL_ASENDER, &mdev->flags);
4533                         flush_signals(current);
4534                         if (!drbd_process_done_ee(mdev))
4535                                 goto reconnect;
4536                         /* to avoid race with newly queued ACKs */
4537                         set_bit(SIGNAL_ASENDER, &mdev->flags);
4538                         spin_lock_irq(&mdev->req_lock);
4539                         empty = list_empty(&mdev->done_ee);
4540                         spin_unlock_irq(&mdev->req_lock);
4541                         /* new ack may have been queued right here,
4542                          * but then there is also a signal pending,
4543                          * and we start over... */
4544                         if (empty)
4545                                 break;
4546                 }
4547                 /* but unconditionally uncork unless disabled */
4548                 if (!mdev->net_conf->no_cork)
4549                         drbd_tcp_uncork(mdev->meta.socket);
4550
4551                 /* short circuit, recv_msg would return EINTR anyways. */
4552                 if (signal_pending(current))
4553                         continue;
4554
4555                 rv = drbd_recv_short(mdev, mdev->meta.socket,
4556                                      buf, expect-received, 0);
4557                 clear_bit(SIGNAL_ASENDER, &mdev->flags);
4558
4559                 flush_signals(current);
4560
4561                 /* Note:
4562                  * -EINTR        (on meta) we got a signal
4563                  * -EAGAIN       (on meta) rcvtimeo expired
4564                  * -ECONNRESET   other side closed the connection
4565                  * -ERESTARTSYS  (on data) we got a signal
4566                  * rv <  0       other than above: unexpected error!
4567                  * rv == expected: full header or command
4568                  * rv <  expected: "woken" by signal during receive
4569                  * rv == 0       : "connection shut down by peer"
4570                  */
4571                 if (likely(rv > 0)) {
4572                         received += rv;
4573                         buf      += rv;
4574                 } else if (rv == 0) {
4575                         dev_err(DEV, "meta connection shut down by peer.\n");
4576                         goto reconnect;
4577                 } else if (rv == -EAGAIN) {
4578                         if (mdev->meta.socket->sk->sk_rcvtimeo ==
4579                             mdev->net_conf->ping_timeo*HZ/10) {
4580                                 dev_err(DEV, "PingAck did not arrive in time.\n");
4581                                 goto reconnect;
4582                         }
4583                         set_bit(SEND_PING, &mdev->flags);
4584                         continue;
4585                 } else if (rv == -EINTR) {
4586                         continue;
4587                 } else {
4588                         dev_err(DEV, "sock_recvmsg returned %d\n", rv);
4589                         goto reconnect;
4590                 }
4591
4592                 if (received == expect && cmd == NULL) {
4593                         if (unlikely(h->magic != BE_DRBD_MAGIC)) {
4594                                 dev_err(DEV, "magic?? on meta m: 0x%08x c: %d l: %d\n",
4595                                     be32_to_cpu(h->magic),
4596                                     be16_to_cpu(h->command),
4597                                     be16_to_cpu(h->length));
4598                                 goto reconnect;
4599                         }
4600                         cmd = get_asender_cmd(be16_to_cpu(h->command));
4601                         len = be16_to_cpu(h->length);
4602                         if (unlikely(cmd == NULL)) {
4603                                 dev_err(DEV, "unknown command?? on meta m: 0x%08x c: %d l: %d\n",
4604                                     be32_to_cpu(h->magic),
4605                                     be16_to_cpu(h->command),
4606                                     be16_to_cpu(h->length));
4607                                 goto disconnect;
4608                         }
4609                         expect = cmd->pkt_size;
4610                         ERR_IF(len != expect-sizeof(struct p_header80))
4611                                 goto reconnect;
4612                 }
4613                 if (received == expect) {
4614                         D_ASSERT(cmd != NULL);
4615                         if (!cmd->process(mdev, h))
4616                                 goto reconnect;
4617
4618                         buf      = h;
4619                         received = 0;
4620                         expect   = sizeof(struct p_header80);
4621                         cmd      = NULL;
4622                 }
4623         }
4624
4625         if (0) {
4626 reconnect:
4627                 drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
4628                 drbd_md_sync(mdev);
4629         }
4630         if (0) {
4631 disconnect:
4632                 drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
4633                 drbd_md_sync(mdev);
4634         }
4635         clear_bit(SIGNAL_ASENDER, &mdev->flags);
4636
4637         D_ASSERT(mdev->state.conn < C_CONNECTED);
4638         dev_info(DEV, "asender terminated\n");
4639
4640         return 0;
4641 }