Jinnrry 1 год назад
Родитель
Сommit
c94597ec2e
1 измененных файлов с 10 добавлено и 1 удалено
  1. 10 1
      server/hooks/spam_block/README.md

+ 10 - 1
server/hooks/spam_block/README.md

@@ -1,6 +1,7 @@
 # 插件介绍
 
-使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k,在我1核1G的服务器上,单次推理耗时约3秒,Mac M1上可达到毫秒级耗时。
+使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k,在我1核1G的服务器上,单次推理耗时约3秒,Mac M1上可达到毫秒级耗时。耗时上,其实可以将模型进行裁剪,转换为Tensorflow Lite模型,转换后模型的资源消耗应该更小。但是Lite模型部署比较繁琐,涉及大量C库的编译安装,过程过于复杂。另外
+我觉得,这个模型在我这垃圾服务器上面都能勉强使用,其他所有人的服务器上面应该都能顺利运行了,没必要继续裁剪模型了。
 
 # Help
 
@@ -68,6 +69,14 @@ trec06c数据集:
 
 loss: 0.0187 - acc: 0.9948 - val_loss: 0.0047 - val_acc: 0.9993
 
+实际使用效果:
+
+我最近一周的使用效果来看,实际使用效果远低于模型理论效果。猜测原因如下:
+
+trec06c数据集已经公开十多年了,目前应该市面上所有反垃圾系统都使用这个数据集训练过。这个训练集训练出来的特征可能具有普遍性,而对于发垃圾邮件的人来说,这十多年他们也大致摸透了哪些特征会被识别为垃圾邮件,因此他们会针对性的避开很多关键字以免被封
+
+解决方案只能是加入更多更优质的训练数据,但是trec06c之后就没这样优质的训练数据了,因此如果大家愿意,欢迎贡献模型训练数据。另外,针对模型本身,也欢迎提出优化方案。
+
 # 训练模型
 
 `python train.py`