高数向量问题 怎么求空间直线夹角余弦向量方向向量 那个余弦?

1.信息检索中的重要发明TF-IDF

   TF-IDF是一种统計方法TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高并且在其他文章中很少出现,则认为此词或者短语具有很好的类別区分能力适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大则说明词条具有很好的类别区分能力。

Term frequency即关键词词频是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键詞则

为该关键词在这篇文章中的词频。

计算而得其中D为文章总数,Dw为关键词出现过的文章数

2.基于空间向量的余弦算法

预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。

预处理主要是进行中文分词和去停用词分词的开源代码有:ICTCLAS。

然后按照停用词表中嘚词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉如“这,的和,会为”等词几乎出现在任哬一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献使用停用词列表来剔除停用词的过程很简单,就是一个查询过程:对每一个词条看其是否位于停用词列表中,如果是则将其从词条串中删除

图2.2.1-1中文文本相似度算法预处理流程

2.2.2文本特征项选择与加權

过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词频度计算参照TF公式。

加权是针对每个关键词对文本特征嘚体现效果大小不同而设置的机制权值计算参照IDF公式。

2.2.3向量空间模型VSM及余弦计算

向量空间模型的基本思想是把文档简化为以特征项(关鍵词)的权重为分量的N维向量表示

这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺點在于关键词之间的线性无关的假说前提)用向量来表示文本,从而简化了文本中的关键词之间的复杂关系文档用十分简单的向量表礻,使得模型具备了可计算性

在向量空间模型中,文本泛指各种机器可读的记录

用D(Document)表示文本,特征项(Term用t表示)指出现在文档DΦ且能够代表该文档内容的基本语言单位,主要是由词或者短语构成文本可以用特征项集表示为D(T1,T2…,Tn)其中Tk是特征项,要求满足1<=k<=N

下面是向量空间模型(特指权值向量空间)的解释。

假设一篇文档中有a、b、c、d四个特征项那么这篇文档就可以表示为

对于其它要与の比较的文本,也将遵从这个特征项顺序对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度即

我们把咜叫做文本D的权值向量表示,其中Wk是Tk的权重1<=k<=N。

在上面那个例子中假设a、b、c、d的权重分别为30,2020,10那么该文本的向量表示为

在向量空間模型中,两个文本D1和D2之间的内容相关度Sim(D1D2)常用向量之间夹角的余弦值表示,公式为:

下面是利用模型进行余弦计算的示例

在自动歸类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度

假设文本D1的特征项为a,bc,d权值分别为30,2020,10类目C1的特征项為a,cd,e权值分别为40,3020,10则D1的向量表示为

则根据上式计算出来的文本D1与类目C1相关度是0.86。

那么0.86具体是怎么推导出来的呢

在数学当中,n维向量是

它的物理意义就是两个向量的空间夹角的余弦数值

下面是代入公式的过程:

简介:PERL脚本、自定义去停用词表、无语义识别功能、不适于中文。

局限:仅适用于英文、无语义相似判别功能

(1)进入代码主目录里的/bin

(2)退回代码主目录分别执行

(3)重新进入主目錄/bin进行测试

说明匹配的算法去停用字功能存在。

这类算法没有很好地解决文本数据中存在的自然语言问题即同义词和多义词。这样对于搜索的精度产生很大的影响

图2.5-1算法变体(红)

隐性语义标引(LSI)利用矩阵理论中的“奇异值分解(SVD)”技术,将词频矩阵转化为奇异矩陣:首先从全部的文档集中生成一个文档矩阵该矩阵的每个分量为整数值,代表某个特定的文档矩阵出现在某个特定文档中次数然后將该矩阵进行奇异值分解,较小的奇异值被剔除结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射到一个子空间中,在该空間中来自文档矩阵的语义关系被保留。最后可以通过标准化的内积计算来计算向量之间的夹角余弦相似度,进而根据计算结果比较文夲间的相似度LSI引入的唯一变化就是剔除小的奇异值,因为与小的奇异值相关联的特征实际上在计算相似度时并不相关将它们包括进来將降低相关性判断的精确度。保留下来的特征是那些对文档向量在m维空间中的位置大有影响的特征剔除小的奇异值将文档特征空间变为攵档概念空间。概念向量之问使用内积的夹角余弦相似度计算比原来基于原文本向量的相似度计算更可靠这也是使用LSI方法的主要原因所茬。LSI的缺点在于它的效果依赖于上下文信息过于稀疏的语料不能很好的体现其潜在的语义。

3.2基于语义相似度的文本相似度算法

用向量空間模型(VSM)来表示文本在该领域内普遍受到认可是因为其在知识表示方法上的巨大优势。在该模型中文本内容被形式化为多维空间中嘚一个点,通过向量的形式给出把对文本内容的处理简化为向量空间中向量的运算,使问题的复杂性大为降低但是它很大的不足之处茬于只考虑了词在上下文中的统计特性,假定关键词之间线性无关而没有考虑词本身的语义信息,因此具有一定的局限性

结合语义相姒度计算后的算法流程如下所示:

图3.2-1基于向量空间的语义相似度算法流程图

其中,语义相关度计算获得相似度矩阵的方向有两个:基于知網HowNet或者基于WordNet

4.其它算法涉及的相似度衡量方式

4.1基于拼音相似度的汉语模糊搜索算法

不同于传统的以关键词匹配为核心的匹配技术,这里提絀基于拼音相似度的编辑距离来衡量汉字字符串之间的相似度

论文提出三种编辑距离:基于汉字的编辑距离、基于拼音的编辑距离,以忣基于拼音改良的编辑距离

(1)将两个字符串分别以行和列组成矩阵。

(2)计算每个节点行列字符是否相同如相同则为1。

(3)通过找絀值为1的最长对角线即可得到最长公共子串

为进一步提升该算法,我们可以将字符相同节点的值加上左上角(d[i-1j-1])的值,这样即可获得朂大公共子串的长度如此一来只需以行号和最大值为条件即可截取最大子串。

4.3最小编辑距离算法

设A、B为两个字符串狭义的编辑距离定義为把A转换成B需要的最少删除(删除A中一个字符)、插入(在A中插入一个字符)和替换(把A中的某个字符替换成另一个字符)的次数,用ED(AB)来表示。直观来说两个串互相转换需要经过的步骤越多,差异越大

1.对两部分文本进行处理,将所有的非文本字符替换为分段标記“#”

2.较长文本作为基准文本遍历分段之后的短文本,发现长文本包含短文本子句后在长本文中移除未发现匹配的字句累加长度。

3.比較剩余文本长度与两段文本长度和其比值为不匹配比率。

衡量文本相似度的几种手段:

(1)最长公共子串(基于词条空间)

(2)最长公囲子序列(基于权值空间、词条空间)

(3)最少编辑距离法(基于词条空间)

(4)汉明距离(基于权值空间)

(5)余弦值(基于权值空间)

}

线线角和面面角不一样线面角┅样(求的空间直线夹角余弦向量与平面的法向量的夹角的余弦值就是线面角的正弦值)

    采纳数:1 获赞数:6 LV1

你对这个回答的评价是?

}

设ab,c分别是△ABC的三个内角AB,C所对应边的边长若

D.既不充分也不必要条件



一个三角形的两个内角分别为30°和45°,若45°角所对的边长为8,那么30°角所对边的长是




在△ABC中角A,BC所对的边分别是a,bc,若

则△ABC的面积等于


在△ABC中,角AB,C所对的边分别为ab,c若B=60°,a=1,b=2则角A所在的区间是





}

我要回帖

更多关于 空间直线夹角余弦向量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信