Update notebook

abetlen · abetlen · commit 753dfbca72bc · 2023-11-01T23:43:31.000-04:00
diff --git a/examples/notebooks/Batching.ipynb b/examples/notebooks/Batching.ipynb
@@ -18,6 +18,8 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
+      "ggml_init_cublas: GGML_CUDA_FORCE_MMQ:   no\n",
+      "ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes\n",
       "ggml_init_cublas: found 1 CUDA devices:\n",
       "  Device 0: NVIDIA GeForce RTX 2060, compute capability 7.5\n"
      ]
@@ -36,7 +38,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "llama_model_loader: loaded meta data with 16 key-value pairs and 291 tensors from ../../models/mistral-7b-v0.1-GGUF/ggml-model-Q4_K.gguf (version GGUF V2 (latest))\n",
+      "llama_model_loader: loaded meta data with 16 key-value pairs and 291 tensors from ../../models/mistral-7b-v0.1-GGUF/ggml-model-Q4_K.gguf (version GGUF V2)\n",
       "llama_model_loader: - tensor    0:                token_embd.weight q4_K     [  4096, 32000,     1,     1 ]\n",
       "llama_model_loader: - tensor    1:               output_norm.weight f32      [  4096,     1,     1,     1 ]\n",
       "llama_model_loader: - tensor    2:                    output.weight q6_K     [  4096, 32000,     1,     1 ]\n",
@@ -347,7 +349,8 @@
       "llama_model_loader: - type  f32:   65 tensors\n",
       "llama_model_loader: - type q4_K:  193 tensors\n",
       "llama_model_loader: - type q6_K:   33 tensors\n",
-      "llm_load_print_meta: format           = GGUF V2 (latest)\n",
+      "llm_load_vocab: special tokens definition check successful ( 259/32000 ).\n",
+      "llm_load_print_meta: format           = GGUF V2\n",
       "llm_load_print_meta: arch             = llama\n",
       "llm_load_print_meta: vocab type       = SPM\n",
       "llm_load_print_meta: n_vocab          = 32000\n",
@@ -361,6 +364,8 @@
       "llm_load_print_meta: n_gqa            = 4\n",
       "llm_load_print_meta: f_norm_eps       = 0.0e+00\n",
       "llm_load_print_meta: f_norm_rms_eps   = 1.0e-05\n",
+      "llm_load_print_meta: f_clamp_kqv      = 0.0e+00\n",
+      "llm_load_print_meta: f_max_alibi_bias = 0.0e+00\n",
       "llm_load_print_meta: n_ff             = 14336\n",
       "llm_load_print_meta: freq_base_train  = 10000.0\n",
       "llm_load_print_meta: freq_scale_train = 1\n",
@@ -373,7 +378,7 @@
       "llm_load_print_meta: EOS token = 2 '</s>'\n",
       "llm_load_print_meta: UNK token = 0 '<unk>'\n",
       "llm_load_print_meta: LF token  = 13 '<0x0A>'\n",
-      "llm_load_tensors: ggml ctx size =    0.09 MB\n",
+      "llm_load_tensors: ggml ctx size =    0.10 MB\n",
       "llm_load_tensors: using CUDA for GPU acceleration\n",
       "llm_load_tensors: mem required  =   70.41 MB\n",
       "llm_load_tensors: offloading 32 repeating layers to GPU\n",
@@ -399,7 +404,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "[1, 415, 2936, 9060, 285, 1142]\n",
+      "[1, 1014, 2936, 9060, 285, 1142]\n",
       "58\n"
      ]
     }
@@ -411,7 +416,7 @@
     "prompt = b\"The quick brown fox\"\n",
     "\n",
     "tokens = (llama_cpp.llama_token * n_ctx)()\n",
-    "tokens_len = llama_cpp.llama_tokenize(model, prompt, len(prompt), tokens, len(tokens), True)\n",
+    "tokens_len = llama_cpp.llama_tokenize(model, prompt, len(prompt), tokens, len(tokens), True, True)\n",
     "print(tokens[:tokens_len])\n",
     "\n",
     "n_kv_req = tokens_len + (n_len - tokens_len) * n_parallel\n",
@@ -434,7 +439,8 @@
       "llama_kv_cache_init: offloading k cache to GPU\n",
       "llama_kv_cache_init: VRAM kv self = 7.25 MB\n",
       "llama_new_context_with_model: kv self size  =    7.25 MB\n",
-      "llama_new_context_with_model: compute buffer total size = 10.38 MB\n",
+      "llama_build_graph: non-view tensors processed: 740/740\n",
+      "llama_new_context_with_model: compute buffer total size = 10.63 MB\n",
       "llama_new_context_with_model: VRAM scratch buffer: 4.51 MB\n",
       "llama_new_context_with_model: total VRAM used: 4106.81 MB (model: 4095.05 MB, context: 11.76 MB)\n"
      ]
@@ -458,13 +464,23 @@
    "outputs": [],
    "source": [
     "n_ctx = llama_cpp.llama_n_ctx(ctx)\n",
-    "batch = llama_cpp.llama_batch_init(max(tokens_len, n_parallel), 0)\n",
+    "batch = llama_cpp.llama_batch_init(max(tokens_len, n_parallel), 0, 1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import ctypes\n",
     "\n",
     "batch.n_tokens = tokens_len\n",
     "for i in range(tokens_len):\n",
     "    batch.token[i] = tokens[i]\n",
     "    batch.pos[i] = i\n",
-    "    batch.seq_id[i] = 0\n",
+    "    batch.seq_id[i] = (ctypes.c_int32 * 1)(0)\n",
+    "    batch.n_seq_id[i] = 1\n",
     "    batch.logits[i] = False\n",
     "\n",
     "batch.logits[batch.n_tokens - 1] = True\n",
@@ -475,7 +491,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 8,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -485,7 +501,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 9,
    "metadata": {},
    "outputs": [
     {
@@ -594,7 +610,8 @@
     "\n",
     "        batch.token[batch.n_tokens] = new_token_id\n",
     "        batch.pos[batch.n_tokens] = n_cur\n",
-    "        batch.seq_id[batch.n_tokens] = i\n",
+    "        batch.seq_id[batch.n_tokens] = (ctypes.c_int32 * 1)(i)\n",
+    "        batch.n_seq_id[batch.n_tokens] = 1\n",
     "        batch.logits[batch.n_tokens] = True\n",
     "\n",
     "        i_batch[i] = batch.n_tokens\n",
@@ -615,7 +632,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 10,
    "metadata": {},
    "outputs": [
     {
@@ -632,7 +649,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": 11,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -641,7 +658,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 12,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -650,7 +667,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 13,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -659,13 +676,20 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 14,
    "metadata": {},
    "outputs": [],
    "source": [
     "llama_cpp.llama_backend_free()"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
   {
    "cell_type": "code",
    "execution_count": null,