Skip to content

从零搭建大模型知识库(Build LLM RAG Corpus from scratch)

Notifications You must be signed in to change notification settings

OceanPresentChao/llm-corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

从零搭建大模型RAG知识库

本项目从零开始实现了大模型外接知识库的流程:

  1. 中文数据集处理
  2. 词向量模型训练
  3. 文档向量化
  4. 向量数据库存储知识库
  5. 本地ChatGLM2-6B大模型部署
  6. 简单的知识库应用

项目结构

  • corpus:存放知识库文档的文件夹
  • data:词向量模型训练相关的数据(模型文件较大,请自行下载模型)
  • doc:词向量模型训练的源码、文档
  • llm_server:简单的知识库应用
  • vector_db:将corpus里的文档存入qdrant向量数据库
  • config.json:项目的一些配置
    • OPENAI_API_KEY:openai的api key
    • EMBEDDING_MODEL_TYPE:文本向量化的模型openai或word2vec
    • CHAT_MODEL_TYPE:对话大模型openai或chatglm
    • CHATGLM_PORT:ChatGLM本地部署的端口
    • **PATH:一些路径,以项目根目录为起点
    • COLLECTION_NAME:向量数据库Collection的名称

运行

生成持久化知识库

cd vector_db
pip install -r requirements.txt
python main.py

main.py会自动创建名为COLLECTION_NAME的向量数据库,并将corpus文件夹中的文档向量化存储到数据库中

运行应用

cd llm_server
pip install -r requirements.txt
python main.py

运行本地部署的ChatGLM2-6B

参考ChatGLM2-6B官方文档

教程

About

从零搭建大模型知识库(Build LLM RAG Corpus from scratch)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published