当前位置:婀娜女性网>美好生活>心理>

头条检测文章内容重复率工具

心理 阅读(2.31W)
头条检测文章内容重复率工具

对图文进行重复检测,一般从图文的标题、正文、封面三个维度做重复检测,用到的方法有编辑距离(针对标题)、Simhash(针对标题和正文)、dHash(针对封面)等。

Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果会更好一些,比如可以将整个正文输入得到BERT向量,比较两个BERT向量的距离。若存量文章很多的话,还需要借助Facebook开源的Faiss进行向量TopN距离召回。