Text classification tools for fighting spam

twitter logo github logo ・1 min read

有人在DEV上推荐过文本分类工具(API,服务等)来打击垃圾邮件吗?

我们已经进行了垃圾邮件检测,但是我们希望通过文本分类来完善我们的工具带. 我们对使用依赖提供海报者IP地址的服务(例如Akismet)不感兴趣,并且理想情况下,我们希望使用开放源代码.

期待听到大家的想法!

twitter logo DISCUSS (4)
markdown guide
 

要了解范围:您是要防止垃圾邮件在网站上发布? (或之后迅速删除)

这是一个问题吗?还是您看到垃圾邮件的第一个迹象,并希望在垃圾邮件蔓延之前制止它?

"理解"文本可能很棘手. 也许可以修改SpamAssassin项目以在此处提供帮助. 否则,您对网站的看法是否可以作为一种选择,即在尝试发布带有链接的文章或评论时,要求新用户的前几篇文章都由高级会员批准?

当然,这与自动化相反,但是StackOverflow使用此概念可以使经验丰富的用户比新手更好地使用它,并且可以提供人工反馈,而不是自动拒绝.

 

我们已经采取了多种其他措施,包括提高可能的垃圾邮件数量和发送内容以供审核. 我们正在寻找一个检测库,它有可能将内容标记更广泛的策略的一部分.

就目前而言,垃圾邮件并不是网站上的大问题,我们只想继续完善我们的解决方案,以便更好地扩展.

 

我们对使用依赖提供海报者IP地址的服务不感兴趣

这是因为我们不收集此信息. 我们会主动将IP地址匿名化. 由于我们不允许任何未经身份验证的路人发表评论,因此我们也不需要它,因为来自社交登录的身份验证信息会提供更多线索.

我们已经针对不同的目的做了一些文本分类,但是我们仍然认为我们可以在垃圾邮件领域更加主动地进行分类. 任何输入表示赞赏.

 

垃圾邮件过滤通常使用朴素贝叶斯算法进行. 这非常简单,并且有许多不同语言的实现. 与任何此类分类器一样,该算法也需要训练. 与许多其他方法不同,可以在生产中进行培训.

9月30日发布的经典开发帖子

Hacktoberfest for beginners - Low hanging contribution opportunities

Michael Tharrington profile image
我是来自NC的友好的非开发人员,喜欢播放音乐/发出声音,吃蔬菜,并和我最好的朋友/妻子和我们的三只猫一起出去玩. (他/他)

眼睛疼吗?

dev.to现在具有黑暗模式.

去的"杂项"部分的设置 ,并选择夜间主题 ❤️

by  ICOPY.SITE