如何通过词向量技术来计算2个文档的相似度
如何通过词向量技术来计算2个文档的相似度
日期:2018-04-09 19:46:58 人气:1
最近正好组内做了一个文档相似度的分享。决定回答一发。
首先,如果不局限于NN的方法,可以用BOW+tf-idf+LSI/LDA的体系搞定,也就是俗称的01或one hot representation。
其次,如果楼主指定了必须用流行的NN,俗称word-embedding的方法,当然首推word2vec(虽然不算是DNN)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该