中文垃圾评论分类

数据集来源：JansonKong/spam_filtering，由于原本数据集质量不是很高（标签混乱），故使用 ChatGPT 对数据进行了重新标注。

原始数据：/normal0 、/spam0

重新标注数据：/data/normal.txt 、/data/spam.txt （正样本：731378，负样本：299854）

标注代码：/data/data_annotate.py (特别感谢 AIchatOS 提供的 ChatGPT api 接口!!![狗头保命])

pip install -r requirements.txt

目前主要就是做了下数据集的重新标注工作，代码还是和 JansonKong 的一样的，用的SVM，后面有时间会换下模型。

现存问题：在垃圾评论后面接一段很长的正常评论，会被识别成正常评论...

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea		.idea
_normal		_normal
_spam		_spam
data		data
normal0		normal0
spam0		spam0
README.md		README.md
__init__.py		__init__.py
count_vect.pickle		count_vect.pickle
cut_func.py		cut_func.py
getmodel.py		getmodel.py
matrixdata.py		matrixdata.py
predict.py		predict.py
requirements.txt		requirements.txt
run_cutdata.py		run_cutdata.py
stopwords.txt		stopwords.txt
svm.pickle		svm.pickle
svm_filter.py		svm_filter.py
svmdata.py		svmdata.py
test.py		test.py
tfidf_trainformer.pickle		tfidf_trainformer.pickle
垃圾邮件分类data.7z		垃圾邮件分类data.7z

Provide feedback