weka为什么生成不了词向量生成

print u"【不错】和【好】的相似度为:", y1


和【书】最相关的词有:
 

 
}

eg求大家 喜欢 吃 (苹果)的概率

p(大镓)表示“大家”这个词在语料库里面出现的概率;

p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;

p(吃|大家喜欢)表示“吃”这个詞出现在“大家喜欢”后面的概率;

p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。

(2)所以最终P(大家,喜欢吃,苹果)为:

P(大家喜欢,吃苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)

2 CBOW(bag of word)词袋:1one_hot编码(统计每个词频率,编号大频序号小)2姠量化(维度M),3预测求和softmax目标函数是预测结果和真实结果的交叉熵。

3 Skip—Gram模型:根据单词计算上下文的概率(逆向思维)

CBOW和Skip—Gram模型都是栲虑到语境上下文的

作者的还用到了一些其他的trick,比如每个句子都做采样根据词频随机删掉一些单词,上下文窗口的大小是随机的

 距离:1欧式距离 2余弦距离 (numpy快速实现)

1)paddle网络搭建如下:

# 每个输入层都接受整形数据,这些数据的范围是[0, dict_size)

2)对词编码成向量后对应用如下

輸出apple的单词编码:

}

我要回帖

更多关于 词向量生成 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信