C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替世界快报

发布日期：2023-05-25 13:03:56 来源：博客园

------------恢复内容开始------------

在上一篇文章中我们大致讲述了一下如何通过词嵌入向量的方式为大语言模型增加长期记忆，用于落地在私域场景的问题。其中涉及到使用openai的接口进行词嵌入向量的生成以及chat模型的调用

由于众所周知的原因，国内调用openai接口并不友好，所以今天介绍两款开源平替实现分别替代词嵌入向量和文本生成。

(资料图)

照例还是简单绘制一下拓扑图：

从拓扑上来看还是比较简单的，一个后端服务用于业务处理，两个AI模型服务用于词嵌入向量和文本生成以及一个向量数据库(这里依然采用es，下同),接着我们来看看流程图：

从流程图上来讲，我们依然需要有两个阶段的准备，在一阶段，我们需要构建私域回答的文本，这些文本往往以字符串的形式被输入到嵌入接口，然后获取到嵌入接口的嵌入向量。再以es索引的方式被写入到向量库。而在第二阶段，也就是对外提供服务的阶段，我们会将用户的问题调用嵌入接口生成它的词嵌入向量，然后通过向量数据库的文本相似度匹配获取到近似的回答，比如提问“青椒炒肉时我的盐应该放多少”。向量库相似的文本里如果包含了和该烹饪有关的文本会返回1到多条回答。接着我们在后端构建一个prompt，和之前的文章类似。最后调用我们的文本生成模型进行问题的回答。整个流程结束。

接下来我们看看如何使用和部署这些模型以及c#相关代码的编写

重要：在开始之前，请确保你的部署环境安装了16G显存的Nvidia显卡或者48G以上的内存。前者用于基于显卡做模型推理，效果比较好，速度生成合理。后者基于CPU推理，速度较慢，仅可用于部署测试。如果基于显卡部署，需要单独安装CUDA11.8同时需要安装nvidia-docker2套件用于docker上的gpu支持，这里不再赘述安装过程

首先我们需要下载词嵌入模型，这里推荐使用text2vec-large-chinese这个模型，该模型针对中文文本进行过微调。效果较好。

下载地址如下：https://huggingface.co/GanymedeNil/text2vec-large-chinese/tree/main

我们需要下载它的pytorch_model.bin、config.json、vocab.txt这三个文件用于构建我们的词嵌入服务

接着我们在下载好的文件夹里，新建一个web.py。输入以下内容：

from fastapi import FastAPIfrom pydantic import BaseModelfrom typing import Listfrom transformers import AutoTokenizer, AutoModelimport torchapp = FastAPI()# Load the model and tokenizermodel = AutoModel.from_pretrained("/app").half().cuda()tokenizer = AutoTokenizer.from_pretrained("/app")# Request bodyclass Sentence(BaseModel):    sentence: str@app.post("/embed")async def embed(sentence: Sentence):    # Tokenize the sentence and get the input tensors    inputs = tokenizer(sentence.sentence, return_tensors="pt", padding=True, truncation=True, max_length=512)    # Move inputs to GPU    for key in inputs.keys():        inputs[key] = inputs[key].to("cuda")    # Run the model    with torch.no_grad():        outputs = model(**inputs)    # Get the embeddings    embeddings = outputs.last_hidden_state[0].cpu().numpy()    # Return the embeddings as a JSON response    return embeddings.tolist()

以上是基于gpu版本的api。如果你没有gpu支持，那么可以使用以下代码：

from fastapi import FastAPIfrom pydantic import BaseModelfrom typing import Listfrom transformers import AutoTokenizer, AutoModelimport torchapp = FastAPI()# Load the model and tokenizermodel = AutoModel.from_pretrained("/app").half()tokenizer = AutoTokenizer.from_pretrained("/app")# Request bodyclass Sentence(BaseModel):    sentence: str@app.post("/embed")async def embed(sentence: Sentence):    # Tokenize the sentence and get the input tensors    inputs = tokenizer(sentence.sentence, return_tensors="pt", padding=True, truncation=True, max_length=512)    # No need to move inputs to GPU as we are using CPU    # Run the model    with torch.no_grad():        outputs = model(**inputs)    # Get the embeddings    embeddings = outputs.last_hidden_state[0].cpu().numpy()    # Return the embeddings as a JSON response    return embeddings.tolist()

这里我们使用一个简单的pyhont web框架fastapi对外提供服务。接着我们将之前下载的模型和py代码放在一起，并且创建一个requirements.txt用于构建镜像时下载依赖，requirements.txt包含

torchtransformersfastapiuvicorn

其中前两个是模型需要使用的库/框架，后两个是web服务需要的库框架，接着我们在编写一个Dockerfile用于构建镜像：

FROM python:3.8-slim-buster# Set the working directory to /appWORKDIR /app# Copy the current directory contents into the container at /appADD . /app# Install any needed packages specified in requirements.txtRUN pip install --trusted-host pypi.python.org -r requirements.txt# Run app.py when the container launchesENV MODULE_NAME=web ENV VARIABLE_NAME=app ENV HOST=0.0.0.0 ENV PORT=80# Run the application: CMD uvicorn ${MODULE_NAME}:${VARIABLE_NAME} --host ${HOST} --port ${PORT}

接着我们就可以基于以上内容构建镜像了。直接执行docker build . -t myembed:latest等待编译即可

镜像编译完毕后，我们可以在本机运行它：docker run -dit --gpus all -p 8080:80myembed:latest。注意如果你是cpu环境则不需要添加“--gpus all”。接着我们可以通过postman模拟访问接口，看是否可以生成向量，如果一切顺利，它将生成一个嵌套的多维数组，如下所示：

接着我们需要同样的办法去炮制语言大模型的接口，这里我们采用国内相对成熟的开源大语言模型Chat-glm-6b。首先我们新建一个文件夹，然后用git拉取它的web服务相关的代码:

git clone https://github.com/THUDM/ChatGLM-6B.git

接着我们需要下载它的模型权重文件,地址：https://huggingface.co/THUDM/chatglm-6b/tree/main。下载从pytorch_model-00001-of-00008.bin到pytorch_model-00008-of-00008.bin的8个权重文件放在git根目录

接着我们修改api.py的代码：

from fastapi import FastAPI, Requestfrom fastapi.responses import StreamingResponsefrom transformers import AutoTokenizer, AutoModelimport uvicorn, json, datetimeimport torchimport asyncioDEVICE = "cuda"DEVICE_ID = "0"CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICEdef torch_gc():    if torch.cuda.is_available():        with torch.cuda.device(CUDA_DEVICE):            torch.cuda.empty_cache()            torch.cuda.ipc_collect()app = FastAPI()@app.post("/chat", response_class=StreamingResponse)async def create_item(request: Request):    global model, tokenizer    json_post_raw = await request.json()    json_post = json.dumps(json_post_raw)    json_post_list = json.loads(json_post)    prompt = json_post_list.get("prompt")    history = json_post_list.get("history")    max_length = json_post_list.get("max_length")    top_p = json_post_list.get("top_p")    temperature = json_post_list.get("temperature")        last_response = ""    async def stream_chat():        nonlocal last_response,history        for response, history in model.stream_chat(tokenizer,                                                prompt,                                                history=history,                                                max_length=max_length if max_length else 2048,                                                top_p=top_p if top_p else 0.7,                                                temperature=temperature if temperature else 0.95):            new_part = response[len(last_response):]            last_response = response            yield json.dumps(new_part,ensure_ascii=False)                return StreamingResponse(stream_chat(), media_type="text/plain")if __name__ == "__main__":    tokenizer = AutoTokenizer.from_pretrained("/app", trust_remote_code=True)    model = AutoModel.from_pretrained("/app", trust_remote_code=True).half().cuda()    model.eval()    uvicorn.run(app, host="0.0.0.0", port=80, workers=1)

同样的如果你是cpu版本的环境，你需要将（这里注意，如果你有显卡，但是显存并不足16G。那么可以考虑8bit或者4bit量化，具体参阅https://github.com/THUDM/ChatGLM-6B的readme.md）

model = AutoModel.from_pretrained("/app", trust_remote_code=True).half().cuda()

修改为

model = AutoModel.from_pretrained("/app", trust_remote_code=True)

剩余的流程和之前部署向量模型类似，由于项目中已经包含了，创建对应的requirements.txt，我们只需要创建类似词嵌入向量的Dockerfile即可编译。

FROM python:3.8-slim-busterWORKDIR /appADD . /appRUN pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simpleCMD ["python", "api.py"]

完成后可以使用docker run -dit --gpus all -p 8081:80myllm:latest启动测试,同样的使用postman模拟访问接口,顺利的话我们应该能够看到如下内容不要在意乱码的部分那是emoji没有正确解析的问题：

接下来我们需要构建c#后端代码，将这些基础服务连接起来，这里我使用一个本地静态字典来模拟词嵌入向量的存储和余弦相似度查询相似文本，就不再赘述使用es做向量库，两者的效果基本一致的。感兴趣的同学去搜索NEST库和es基于余弦相似度搜索相关的内容即可

核心代码如下，这里我提供两个接口，第一个接口用于获取前端输入的文本做词嵌入并进行存储，第二个接口用于回答问题。

///用于模拟向量库    private Dictionary> MemoryList = new Dictionary>();///用于计算相似度double Compute(List vector1, List vector2) => vector1.Zip(vector2, (a, b) => a * b).Sum() / (Math.Sqrt(vector1.Sum(a => a * a)) * Math.Sqrt(vector2.Sum(b => b * b)));...    [HttpPost("/api/save")]    public async Task SaveMemory(string str)    {        if (!string.IsNullOrEmpty(str))        {            foreach (var x in memory.Split("\n").ToList())            {                if (!MemoryList.ContainsKey(x))                {                    MemoryList.Add(x, await GetEmbeding(x));                    StateHasChanged();                }            }        }        return MemoryList.Count;     }...    [HttpPost("/api/chat")]    public async IAsyncEnumerable SendData(string content)    {        if (!string.IsNullOrEmpty(content))        {            var userquestionEmbeding = await GetEmbeding(content);            var prompt = "";            if (MemoryList.Any())            {  //这里从向量库中获取到第一条，你可以根据实际情况设置比如相似度阈值或者返回多条等等                prompt = MemoryList.OrderByDescending(x => Compute(userquestionEmbeding, x.Value)).FirstOrDefault().Key;                prompt = $"你是一个问答小助手，你需要基于以下事实依据回答问题，事实依据如下：{prompt}。用户的问题如下：{Content}。不要编造事实依据，请回答：";            }            else                prompt = Content;            await foreach (var item in ChatStream(prompt))            {                yield return item;            }        }    }

同时我们需要提供两个函数用于使用httpclient访问AI模型的api：

async IAsyncEnumerable ChatStream(string x)    {        HttpClient hc = new HttpClient();        var reqcontent = new StringContent(System.Text.Json.JsonSerializer.Serialize(new { prompt = x }));        reqcontent.Headers.ContentType = new System.Net.Http.Headers.MediaTypeHeaderValue("application/json");        var response = await hc.PostAsync("http://192.168.1.100:8081/chat", reqcontent);        if (response.IsSuccessStatusCode)        {            var responseStream = await response.Content.ReadAsStreamAsync();            using (var reader = new StreamReader(responseStream, Encoding.UTF8))            {                string line;                while ((line = await reader.ReadLineAsync()) != null)                {                    yield return line;                }            }        }    }    async Task> GetEmbeding(string x)    {        HttpClient hc = new HttpClient();        var reqcontent = new StringContent(System.Text.Json.JsonSerializer.Serialize(new { sentence = x }));        reqcontent.Headers.ContentType = new System.Net.Http.Headers.MediaTypeHeaderValue("application/json");        var result = await hc.PostAsync("http://192.168.1.100:8080/embed", reqcontent);        var content = await result.Content.ReadAsStringAsync();        var embed = System.Text.Json.JsonSerializer.Deserialize>>(content);        var embedresult = new List();        for (var i = 0; i < 1024; i++)        {            double sum = 0;            foreach (List sublist in embed)            {                sum += (sublist[i]);            }            embedresult.Add(sum / 1024);        }        return embedresult;    }

接下来我们可以测试一下效果，当模型没有引入记忆的情况下，询问一个问题，它会自己编造回答：

接着我们在向量库中添加多条记忆后再进行问询，模型即可基本正确的对内容进行回答。

以上就是本次博客的全部内容，相比上一个章节我们使用基于openai的接口来讲基于本地部署应该更符合大多数人的情况，以上

标签：

上一篇:布莱顿战曼城有机可乘：布莱顿 =VS= 曼城-天天看热讯 下一篇:布莱顿战曼城有机可乘：布莱顿 =VS= 曼城-天天看热讯

C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替 世界快报

C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替 世界快报

恢复内容开始在上一篇文章中我们大致讲述了一下如何通过词嵌入向量的方式为大语言模型增加长期记忆，用于落

布莱顿战曼城有机可乘：布莱顿 =VS= 曼城-天天看热讯

广交“天”下豪杰，畅通球坛“圣”宴！欢迎来到天圣时代世界体坛资讯速递GOALSPORTS足球世界资讯布莱顿...

近期接到税务部门电话别紧张 微资讯

近日，家住甘井子某小区的李先生接到了报税电话提醒，但由于太紧张，李先生直接将电话挂断。后来经税务局的

豌豆苗种植技术与管理 豌豆苗种植技术-世界通讯

今天来聊聊关于豌豆苗种植技术与管理，豌豆苗种植技术的文章，现在就为大家来简单介绍下豌豆苗种植技术与管

世界视讯！u盘启动工具显示文件过大-(u盘启动工具显示文件过大怎么办)

u盘启动工具显示文件过大(u盘启动工具显示文件过大怎么办)如何做u盘系统启动盘，大家记住以下后就能更方便

《务川仡佬族苗族自治县城镇管理条例》报请批准 天天时讯

多彩贵州网讯(本网记者杨婧)5月23日，贵州省十四届人大常委会第三次会议举行第一次全体会议，听取省人大民

西安创新推出户口迁移“跨省通办”便民举措

本报西安5月24日电 (记者龚仕建)“太方便了，省时省力，再也不用两头跑了，省了上千公里路程，真是高效

苹果憋了这么久的iPad版Final Cut Pro，用起来到底怎么样？|今热点

关于iPad和苹果眼里的生产力这东西，大家已经争论了好几年。无论你同不同意，苹果都在不断提升iPad的性能，

福州一地2600余户居民，即将实现“安居梦”|最资讯

记者24日从福州高新区获悉，福州高新区两园安置房二期（南港花园）项目建设部传来捷报，项目预计6月份全面

年9月13日最新相关报道消息 三种女人不适合戴翡翠 你在不在其中 环球快消息

今天大家应该都在关注三种女人不适合戴翡翠你在不在其中这件事，那么很多小伙伴在关注的同时自然是想要了解

最新消息：小米civi2和红米k60哪个好（小米civi2屏幕是lcd屏吗）

想必现在有很多小伙伴对于小米civi2屏幕是lcd屏吗方面的知识都比较想要了解，那么今天小好小编就为大家收集

翟宏海：43年坚持义诊服务乡亲

原标题：翟宏海：43年坚持义诊服务乡亲（图）他是一名长期战斗在基层卫生院临床一线的“老兵”，心怀大...

意达利控股(00720)：沈仲平获委任为独立非执行董事

意达利控股(00720)发布公告，李忠良因其他个人事务已提呈辞任公司独立非执行董事

深圳机场(000089.SZ)：拟1亿元设立全资子公司运营新一期国际物流设施

来源：格隆汇格隆汇5月24日丨深圳机场(000089 SZ)公布，公司拟以自有资金在深圳市设立全资子公司深圳市深畅

武汉母仪天下健康管理有限公司（关于武汉母仪天下健康管理有限公司介绍） 全球最新

1、武汉母仪天下健康管理有限公司为华中地区高端母婴护理综合管理机构。2、“母仪天下”传承国内著名的...

嘉华饼屋官网电话_嘉华饼屋官网 环球实时

1、楼主，明确告诉你不可能加盟。2、一。3、嘉华在地州上已经开设了各级店，并且还会继续开发市场。4、二。

招商局集团与中国电信签署协议 在数字科技等方面展开合作-每日快报

根据协议，双方将在数字科技、5G创新应用、交通物流、综合金融、城市和园区综合开发核心产业领域等方面展开

貔貅是龙的第几个儿子啊 貔貅为龙的第几个儿子-天天观速讯

貔貅不是龙的儿子，貔貅是无父无母的。龙的九子分别是囚牛、睚眦、嘲风、蒲牢、狻猊、霸下、狴犴、负屃、螭

金房节能(001210.SZ)：与中能建地热签署签署战略合作协议

格隆汇5月24日丨金房节能(001210 SZ)公布，公司与中能建地热有限公司于近日签署了《战略合作框架协议书》。

“林长+基地” 永兴油茶小穂条“嫁”出大产业

5月23日，永兴县林业局油茶办负责人介绍，该局立足本地资源优势，瞄准油茶产业发展目标，致力打造油茶产业

环球观焦点：小池镇：“三到位”扎实做好企业服务工作

为进一步推进优化营商环境工作，近期，小池镇积极开展企业走访活动，倾听企业心声，宣传惠企政策，积极为企

疫苗批号查询入口（疫苗批号查询）

你们好，最近小活发现有诸多的小伙伴们对于疫苗批号查询入口，疫苗批号查询这个问题都颇为感兴趣的，今天小

天津玛雅海滩水公园和欢乐谷是一个地方吗（附简介）|当前关注

天津欢乐谷和玛雅海滩水公园是两个独立运营的公园，分别设置有相应的门票价格体系。具体规定：为让游客能以

Hi4技术，能否给哈弗带来下一个黄金十年？_天天实时

据了解，搭载了Hi4系统的车辆，最高输出功率可达340kW，可覆盖紧凑型SUV到中大型SUV这个区间内的所有车型。

全球今亮点！永辉董事长张轩松：2023年推进阳光供应链建设、门店调优

永辉超市2022年股东大会：阳光供应链建设、门店调优、员工能力建设、全渠道发展、数字化改造是重点，2023年

混凝土回弹值计算公式（混凝土回弹值低怎么办）

每日快报!塞尔达传说王国之泪装点平原外围的驿站的画作挑战视频攻略

与吸血鬼大姐姐的日常（桃文／病娇）

实时：重磅！2023年中国及31省市PVC行业政策汇总及解读（全）智能绿色化发展为主旋律

焦点简讯:等等党才是最大赢家！雷军终于出手，小米618优惠方案正式出炉

全球聚焦：深耕数十载 山东滕州玻璃迈步国际一流高端产业集群

今日观点!为什么信用卡没有逾期却被止付了呢？协商还款止付比逾期还严重吗？

最新：中泰证券自营业务“大换血”，炒股“炒亏了”的券商还有多少

Uber与Waymo达成合作，将提供自动驾驶叫车和送货服务

泰国一学校体育馆屋顶在暴风雨中坍塌 酿7死18伤|天天播报

秦刚同荷兰副首相兼外交大臣胡克斯特拉举行会谈-全球今日讯

铜概念龙头有哪些？（2023/5/24）

快典网藏头诗软件_快典网

汽车抖动原因分析_汽车抖动的原因有哪些 天天即时看

东方电气（01072.HK）：5月23日南向资金减持5.7万股

网友反映杭州又现巨响？浙江地震局：目前杭州市及附近未记录到地震活动|全球微动态

滕州市贾庄区域改造建设工程回迁上房通知|世界新视野

富国银行：预计新西兰联储将加息25个基点

环球简讯:西班牙马德里大区医生群体举行罢工

交叉盘计算_交叉盘是啥意思

新消息丨广州CBD有新动作!珠江新城东区优化提升现正征集方案

如何在手提袋底部制作方角_送中学生什么礼物好实用男生-通讯

久吾高科(300631.SZ)：西藏久吾签订铝系锂吸附剂材料购销合同

德讯午评：大盘缩量震荡整理 医药股逆势走强

标普全球首席经济学家威廉姆森：然而，这一增长井喷式增长正在推动新的通胀压力，因为服务提供商难以满足需求，因此它们不仅提出更高的工资来吸引员工，而且发现自己能够提高服务收费

世界热讯:质押贷逾期3000还不起征信会怎么样

Apple发布macOSVentura13.5beta1

马力刺客｜性价比新王 二手极星2轮上功率实测 世界即时

畅通服务群众“最后一米”|全球百事通

C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替世界快报

C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地之openai接口平替世界快报

近期接到税务部门电话别紧张微资讯

豌豆苗种植技术与管理豌豆苗种植技术-世界通讯

《务川仡佬族苗族自治县城镇管理条例》报请批准天天时讯

年9月13日最新相关报道消息三种女人不适合戴翡翠你在不在其中环球快消息

武汉母仪天下健康管理有限公司（关于武汉母仪天下健康管理有限公司介绍）全球最新

嘉华饼屋官网电话_嘉华饼屋官网环球实时

招商局集团与中国电信签署协议在数字科技等方面展开合作-每日快报

貔貅是龙的第几个儿子啊貔貅为龙的第几个儿子-天天观速讯

全球聚焦：深耕数十载山东滕州玻璃迈步国际一流高端产业集群

泰国一学校体育馆屋顶在暴风雨中坍塌酿7死18伤|天天播报

汽车抖动原因分析_汽车抖动的原因有哪些天天即时看

德讯午评：大盘缩量震荡整理医药股逆势走强

马力刺客｜性价比新王二手极星2轮上功率实测世界即时

热点在线丨鹿晗兑现三年前承诺请医务粉丝看演唱会

火山引擎携手轻松集团推出首个AIGC医患交互应用

最新10万级吉利SUV！8155芯片+新动力开完就种草？

快资讯丨中国-中亚峰会成功举办成果清单让我憧憬未来

签注恢复在即旅游业摩拳港澳游

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

商家花10万请人直播带货结果3个月卖了不到700元