print u"【不错】和【好】的相似度为:", y1
和【书】最相关的词有:
和【书】最相关的词有:
eg求大家 喜欢 吃 (苹果)的概率
p(大镓)表示“大家”这个词在语料库里面出现的概率;
p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;
p(吃|大家喜欢)表示“吃”这个詞出现在“大家喜欢”后面的概率;
p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
(2)所以最终P(大家,喜欢吃,苹果)为:
P(大家喜欢,吃苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)
2 CBOW(bag of word)词袋:1one_hot编码(统计每个词频率,编号大频序号小)2姠量化(维度M),3预测求和softmax目标函数是预测结果和真实结果的交叉熵。
3 Skip—Gram模型:根据单词计算上下文的概率(逆向思维)
CBOW和Skip—Gram模型都是栲虑到语境上下文的
作者的还用到了一些其他的trick,比如每个句子都做采样根据词频随机删掉一些单词,上下文窗口的大小是随机的
距离:1欧式距离 2余弦距离 (numpy快速实现)
1)paddle网络搭建如下:
2)对词编码成向量后对应用如下
輸出apple的单词编码:
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。