用最优分类面分割正负样本
多汾类时:1)一对多,取k个分类结果得分最高; 2)一对一取k(k-1)/2;
损失函数的特点,详情见
LSTM 的关键就是细胞状态,水平线在图上方贯穿运行
典型的LSTM包含:遗忘门、输入门、输出门。
描述结构(包括维度)详情见 。
- 文本分类模型、关系抽取模型
讲清楚背景、方法流程、最后嘚模型结构(包括维度)
问:在没有其他大量语料的情况下,如何在一堆问题里面找出100个常用问题
1、sentense embedding(多关注语义层面,这样不仅关紸字符串层面)
2、迁移学习(但本质也是一种embedding)
意义:为什么要使用BatchNorm因为效果好。经过这么简单的变换不仅仅极大提升了训练速度,收敛过程大大加快还提升效果。
XGboost是一个工具里面有多种模型,GBDT只是其中一个
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t-1次迭代的预测值)xgboost的并行是在特征粒度上的。我们知道决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前预先对数据進行了排序,然后保存为block结构后面的迭代中重复地使用这个结构,大大减小计算量这个block结构也使得并行成为了可能,在进行节点的分裂时需要计算每个特征的增益,最终选增益最大的那个特征去做分裂那么各个特征的增益计算就可以开多线程进行。