OceanPresentChao / llm-corpus Public

Notifications You must be signed in to change notification settings
Fork 6
Star 39

从零搭建大模型知识库(Build LLM RAG Corpus from scratch)

39 stars 6 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
corpus		corpus
data		data
doc		doc
llm_server		llm_server
vector_db		vector_db
.gitignore		.gitignore
README.md		README.md
config_sample.json		config_sample.json

Repository files navigation

从零搭建大模型RAG知识库

本项目从零开始实现了大模型外接知识库的流程：

中文数据集处理
词向量模型训练
文档向量化
向量数据库存储知识库
本地ChatGLM2-6B大模型部署
简单的知识库应用

项目结构

corpus：存放知识库文档的文件夹
data：词向量模型训练相关的数据（模型文件较大，请自行下载模型）
doc：词向量模型训练的源码、文档
llm_server：简单的知识库应用
vector_db：将corpus里的文档存入qdrant向量数据库
config.json：项目的一些配置
- OPENAI_API_KEY：openai的api key
- EMBEDDING_MODEL_TYPE：文本向量化的模型openai或word2vec
- CHAT_MODEL_TYPE：对话大模型openai或chatglm
- CHATGLM_PORT：ChatGLM本地部署的端口
- **PATH：一些路径，以项目根目录为起点
- COLLECTION_NAME：向量数据库Collection的名称

运行

生成持久化知识库

cd vector_db
pip install -r requirements.txt
python main.py

main.py会自动创建名为COLLECTION_NAME的向量数据库，并将corpus文件夹中的文档向量化存储到数据库中

运行应用

cd llm_server
pip install -r requirements.txt
python main.py

运行本地部署的ChatGLM2-6B

参考ChatGLM2-6B官方文档

教程

About

从零搭建大模型知识库(Build LLM RAG Corpus from scratch)

python corpus from-scratch vector-database llm

Report repository

Releases

No releases published

Packages

No packages published

Languages