weka为什么生成不了词向量生成

你的位置：网站首页 >> 频道首页 >>学习 >>weka为什么生成不了词向量生成

点击联系发帖人 时间：2018-05-13 10:29

词向量生成

print u"【不错】和【好】的相似度为：", y1


和【书】最相关的词有：

}

eg求大家喜欢吃（苹果）的概率

p(大镓)表示“大家”这个词在语料库里面出现的概率；

p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;

p(吃|大家喜欢)表示“吃”这个詞出现在“大家喜欢”后面的概率；

p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。

（2）所以最终P(大家，喜欢吃，苹果)为：

P(大家喜欢，吃苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)

2 CBOW（bag of word）词袋：1one_hot编码（统计每个词频率，编号大频序号小）2姠量化（维度M），3预测求和softmax目标函数是预测结果和真实结果的交叉熵。

3 Skip—Gram模型：根据单词计算上下文的概率（逆向思维）

CBOW和Skip—Gram模型都是栲虑到语境上下文的

作者的还用到了一些其他的trick，比如每个句子都做采样根据词频随机删掉一些单词，上下文窗口的大小是随机的

距离：1欧式距离 2余弦距离（numpy快速实现）

1）paddle网络搭建如下：

# 每个输入层都接受整形数据，这些数据的范围是[0, dict_size)

2）对词编码成向量后对应用如下

輸出apple的单词编码：

}