73
73
embd = []
74
74
if len (embd_inp ) <= input_consumed :
75
75
logits = llama_cpp .llama_get_logits (ctx )
76
- n_vocab = llama_cpp .llama_n_vocab (ctx )
76
+ n_vocab = llama_cpp .llama_n_vocab (model )
77
77
78
78
_arr = (llama_cpp .llama_token_data * n_vocab )(* [
79
79
llama_cpp .llama_token_data (token_id , logits [token_id ], 0.0 )
83
83
llama_cpp .llama_token_data_array (_arr , len (_arr ), False ))
84
84
85
85
_arr = (llama_cpp .c_int * len (last_n_tokens_data ))(* last_n_tokens_data )
86
- llama_cpp .llama_sample_repetition_penalty (ctx , candidates_p ,
86
+ llama_cpp .llama_sample_repetition_penalties (ctx , candidates_p ,
87
87
_arr ,
88
- last_n_repeat , repeat_penalty )
89
- llama_cpp . llama_sample_frequency_and_presence_penalties ( ctx , candidates_p ,
90
- _arr ,
91
- last_n_repeat , frequency_penalty , presence_penalty )
88
+ penalty_last_n = last_n_repeat ,
89
+ penalty_repeat = repeat_penalty ,
90
+ penalty_freq = frequency_penalty ,
91
+ penalty_present = presence_penalty )
92
92
93
93
llama_cpp .llama_sample_top_k (ctx , candidates_p , k = 40 , min_keep = 1 )
94
94
llama_cpp .llama_sample_top_p (ctx , candidates_p , p = 0.8 , min_keep = 1 )
126
126
127
127
llama_cpp .llama_print_timings (ctx )
128
128
129
- llama_cpp .llama_free (ctx )
129
+ llama_cpp .llama_free (ctx )
0 commit comments