Generate answer from embedding vectors

Hi, I'm not familiar with llama-cpp-python (actually not familiar with cpp) but I have to use gguf model for my project.

I want to generate answer from pre-computed embedding vectors(torch.Tensor) with size (1, n_tokens, 4096), not from query text. Here I mean the embedding vectors are text embeddings that generated from torch.nn.Embedding() 
(Just like inputs_embeds argument of generate() function of transformers model)

What I want to do is just skip process 1 and 2:
1. tokenize input string
2. make text embeddings from tokens 
3. model inference
4. get output token
5. detokenize

Is this feature already implemented? If not, please anyone help me where should I begin.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Generate answer from embedding vectors #1897

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Generate answer from embedding vectors #1897

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions