文字转语音破解版性的东西总理解不了怎么办

点击联系发帖人 时间：2018-05-31 05:04

什么东西解药性

文字性的东西我不会，那我还是发图吧_青春三河吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0可签7级以上的吧50个
本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：777贴子：
文字性的东西我不会，那我还是发图吧
搞艺术的讲不出来那么字，重点看图
「天猫」全场特惠,精选好货,正品低价,品类齐全,退换无忧,品质购物上天猫,让您足不出户,畅想一站式购物的乐趣!
水到五级了我也是厉害
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
额，好犀利的说
厉害我的姐
腻害腻害，屁服屁服
就这点我就不服了，凭什么
贴吧热议榜
使用签名档&&
保存至快速回贴在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
标签：至少1个，最多5个
推荐系统技术 --- 文本相似性计算（模型化上）
推荐系统分为两种，一种是基于用户的，根据某个用户的特性推荐一些东西，还有一种是根据内容，推荐一些相似的内容，或者是两种的结合，任何推荐系统，仔细分析下来，都属于这两种情况的组合。
今天我们说一下基于内容推荐中的一个分支，也是使用得比较多的内容推荐方式，那就是基于文本相似性的推荐，我们说文本相似性的计算，文本相似性应用范围是比较广的：
普通的阅读文章，底下的相关文章推荐可以用
论文查重也可以用
过滤相似度很高的新闻，或者网页去重
本系列我们会写三篇。
前两篇是模型化，分为上和下，这两篇是重点，开篇会用说人话的方式说说计算文本相似性的一些思想和套路，对文本相似性有个感性的了解，然后会把人话变成数学化的东西，只有数学化了才能计算，才有计算机能做的文本相似性，当然不会出现大量数学公式，只会有一些数学概念。
第三篇是工程化，这篇是非重点，会介绍一下相关的工程的工具包或者代码片段，相当于局部实战吧，没有理解第一篇说的直接看这篇没什么含义。
2. 直观理解
假如我们有以下这么些篇文档
用Golang写一个搜索引擎
搜索引擎的实现
推荐系统的技术要点
常用的推荐算法总结
广告系统是一个搜索引擎和推荐引擎的组合
计算广告中都有哪些数学原理
有个一个小朋友，他叫小明，但是他还在上学前班，你让他来说这些文章中哪几篇比较相似，他现在字都认不全，更别说理解这些文章中的概念了，如果他特别聪明，那么他很可能说1和5比较相似，因为都有个长得一样的东西一个搜索引擎。
又过了一些年，小明已经读初中了，你再让他来看哪几篇比较相似，他可能会告诉你1和2比较相似，然后和5也比较相似，因为他现在已经学会了主谓宾定状补的语法，知道第一条的主要表述的是搜索引擎，第二篇主要表述的也是搜索引擎，第五篇虽然主要不是说的搜索引擎，但宾语的定语也是搜索引擎，也是相关的。所以会给出1和2相似，5和他们也比较相似。
再过一些年，小明已经大学毕业了，学的就是计算机专业，这时候你再来看，他会给出6个都比较相似，因为他已经知道了搜索，推荐，广告三个领域的基础技术都差不多，如果对一个感兴趣，那么对另外的主题也会比较感兴趣，只不过相似性有高有低而已。
上面的三个阶段，实际上也是文本相似性计算发展的三个阶段，从最开始的字面的匹配相似，到第二阶段的词汇的匹配相似，再到第三阶段的语义的相似，我们一个一个来说说每个阶段使用的数学方法和原理，每个阶段都会有数学原理，但我们对数学公式不做深入讨论，感兴趣的可以自己查阅具体的数学原理。
下面，我们再用计算机和数学的思想来看看计算机如何在上述三个阶段中进行文本相似性的计算的。
4. 前期准备
在开始三个阶段之前，我们先准备一些必要的知识。
分词也叫切词，因为文档的最小单位是词，所以我们默认都是讨论分词过的情况，为了方便，我们把每个词都分配一个唯一id，我们叫这个词的token。后面出现token这个概念，就是表示切词后的唯一id
4.2 词袋模型
维基百科解释：Bag-of-words model是个在自然语言处理和信息检索下被简化的表达模型。此模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。
通俗的说就是把一个文档分词得到的一堆token放到一个袋子里，用这个袋子来表示这个文档，这是一种简化的文本描述方法。
5. 学前班阶段
学前班阶段也叫直接计算相似的阶段，我们其实不关心这篇文章到底讲什么，用计算机的理解就是，分词完成以后，我们找到一种方法，来计算各个token集合之间的相似性就行了。
5.1 JaccardSimilarity方法
分词以后，我们得到的一堆token，按照学前班的小明的思想，找到两两之间相似性即可，JaccardSimilarity方法可以满足这个条件，JaccardSimilarity说起来非常简单，容易实现，实际上就是两个集合的交集除以两个集合的并集，所得的就是两个集合的相似度，直观的看就是下面这个图。
数学表达式是：
很明显，我们可以很容易的把上面的那几个文档两两进行上述计算，然后得到每两个文档的相似性，再一排，就知道每个文档和其他每个文档的相似性了。
即便新来一个文档，按照上面的公式计算一下，就知道它和每个文档的相似性了，完全没有难度，当然，你会发现算出来真的就像个学前班的学生弄出来的，完全没有可用性。
6. 初中阶段
学前班阶段实在是太Low了，我们看看初中阶段都出现了一些什么新东西？
6.1 数学化
要将表达意思的文本变成可计算相似度的东西，首先，必须将文本数字化，并且数字化以后还能保留文本的一些基本信息，只有数字化以后才有可计算性，只有保留了基本信息，这个可计算性才有可信度。
线性代数给我们提供了一个数学工具叫向量，向量看上去特别简单，就是一串数字，别看它看上去非常简单，但却是非常强大的数学工具，有多强大呢？我们从侧面来说说，我们知道无论哪个编程语言，都有一个最基本的数据结构，是内嵌在语言中的，那就是数组，而数组就是向量，数组有多强大不用我说了吧？谁敢说他没用过？它都已经强大到我们感觉不到他的强大了，就像空气一样，重要到我们不觉得他重要了（北京除外，呵呵）。
如果我们能将一个文本变成一个向量，那么我们就将一篇复杂的文章变成了一个可以用数组描述的数学概念了。
啰嗦了这么多，如果有一个向量了会怎么样？再往上一步，线性代数还给了我们一个概念，就是空间，任何向量都可以表示为某一个空间上的一个点。
所以说，先有了文本，文本变成了向量，再有了空间，向量变成了空间的点，那么我们通过求两个点之间的距离，就求得了两个文档的相似性。
至此，数学化完成了，文本相似性的计算就变成了空间中两个点的距离的计算，就像下图一样。
6.2 向量化
6.2.1 最简单的向量化
我们先来看看如何进行向量化，前期准备部分我们已经说了，每个词都可以表示为一个唯一的token，那么最简单的向量化，我们拿这个token来向量化，比如下面两个文档，每个词用一个id表示（搜索引擎这个词重复出现了，所以id一样，都是5）
用/Golang/写/一个/搜索引擎/
搜索引擎/的/实现/
这两个向量不一样长，不好映射到同一个空间中，于是我们这么处理一下，编号1到7为所有的token，用数组的下标表示，如果这个编号上有词，那么设为1，否则设为0，这样一来，两个文档向量化以后就变成了
用Golang写一个搜索引擎
[1,1,1,1,1,0,0]
搜索引擎的实现
[0,0,0,0,1,1,1]
这样，两个文档就都向量化了，虽然这种向量化是最简单的，但不管怎样，我们至少把文本变成了数学符号了。
6.2.2 TF-IDF向量化
文本处理中，还有一种非常常见的向量化方法，就是TF-IDF方法，关于TF-IDF方法，可以参见我之前的一篇文章，已经说得比较清楚了，这里就不赘述了，可以点击链接打开看。
总之，通过TF-IDF的向量化方法，我们可以将每个词向量化成一个表示权重的小数，而不是上面的0，1向量了，它已经带有了文本的信息了，通过TF-IDF计算，两个文档向量化以后就变成了下面这样
用Golang写一个搜索引擎
[0.5, 0.8, 0.2, 0.15, 0.9, 0,
搜索引擎的实现
0.8, 0.4, 0.3]
这样向量化以后，每个词都带上了TF-IDF信息了，而TF-IDF的作用就是保留词在文档中的权重信息，这就相当于保留了文本的信息，于是我们通过token的概念和TF-IDF方法，就把一个文本向量化了，并且向量化完了以后还保留了文本本身的信息，每一个向量就是一个前面提到的词袋。
6.3 向量空间模型
向量化完了以后，需要提供一个空间来进行计算，我们把这个叫做向量空间（VSM），这没啥好说的，比如向量是一个二维向量，那么空间就是一个平面，如果是个三维向量，那么空间就是一个立体空间，上文中的向量是一个7维向量，那么空间就是一个七维空间了。
这样，每一篇文档向量化以后都是一个7维向量，都可以表述为这个向量空间中的一个点了。
6.4 向量相似度计算
有了向量空间和向量本身了，计算两个向量的相似度就简单了，一般有两种方法
6.4.1 欧式距离
不是说每个向量就是这个空间中的一个点么？那么相似性就是直接计算这两个点的欧式距离，欧式距离公式初中就学了哦
把上面那两个向量用这个距离公式一带入，就求出两篇文档的相似度了。
6.4.2 余弦相似度距离
除了欧式距离，还有一种方法求相似度，就是求两个向量之间的夹角，这个叫余弦相似性，这也是初中数学的内容，不过初中我们学的是二维向量，如果是N维呢？是一样的，假设两个向量是A和B，那么公式是，n表示维度
照样带入，就能求出两个文档相似度了。
7. 中学毕业
至此，文本相似性计算的最基本的概念和模型都介绍完了，中学已经毕业了，你可以按照上面的方法自己试着计算计算文档的相似性，应该不会太离谱，后面一篇会介绍一些更加高级的东西，但是整体的思想不会有太大的变化，还是向量化文档，然后计算向量间的相似度来表述为文本之间的相似度。
这篇我们看到的东西都还是浅层的文本相似性计算，但是其实一个TF-IDF向量化模型，一个余弦相似性夹角计算已经可以处理一大部分的文本相似性计算了，而且效果还凑合吧，但后面出来的各种语义模型才是文本推荐的未来。
欢迎关注我的公众号，主要聊聊搜索，推荐，广告技术，还有瞎扯。。文章会在这里首先发出来：）扫描或者搜索微信号XJJ267或者搜索西加加语言就行
5 收藏&&|&&25
你可能感兴趣的文章
2 收藏，780
33 收藏，5.2k
14 收藏，2k
本作品采用署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可
分享到微博？
我要该，理由是：
在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。注册 | 登录
你如何定义自己，就如何定义这个世界；
你如何定义这个世界，就如何定义你的产品。
零基础学产品，BAT产品总监带，2天线下集训+1年在线课程，全面掌握优秀产品经理必备技能。
Jojo：在视觉设计工作中，大家总习惯将重点放在图标和色彩上。但实际上，作为一个阅读类app，思考如何让文章更易于阅读是和图形、色彩处理同等甚至更为重要。
这里还有10条图文混排的技巧：《推荐！网页首屏设计之图文混排的10大技巧》
在设计工作中，如果有100个人就会有100种设计理论，我认为并不能总结出一条绝对正确的理论。但是，如果完全没有什么设计理论的话，貌似会使设计显得很奇怪。比如，经常会看到这种书籍(图１），一行文字过长而订口的空白又处理得不太合适。只要看到这样的设计，马上就会想到“这里好像没有规则啊”，还会让人产生“这本书的设计师好像不读书啊”这样的感觉。在阅读过程中哪怕只有一些地方令人难以理解，也会让人精神不集中，不能彻底关注文章本身。如果是一个读书的人，他自己看看这样的设计，自己也会感到这种方式不便于阅读啊。所以我认为电子书的阅读感受也是这样，要做出理想的版面，作为设计者需要站在读者的角度考虑，应该寻找对于自己来说便于阅读的排版。因此，也借此机会来整理出网易云阅读产品中，书籍正文文字排版的相关规则。
一、设定内容区域
首先在书籍编排过程中，设定页面四周的余白来安排页面的排版。页边空白的大小不同，排版效果给读者带来的印象也会发生变化，因此需要适当地进行处理。虽然纸质书籍已经有了莫里斯所提倡的版面设定理论，但是这些理论并不适合于显示在硬件设备上。因此我们需要根据不同的媒体特点来进行处理。如图（2）有颜色的部分是版面，abcd版面标准的设定通常是按照1:1.2:1:1.7的比例来进行设计。
二、字体大小设置
其次是文字的字体大小，标题的字号要大，解说注释的字号要小，文字的大小要根据它的作用灵活设定。在版面设计中，首先要确定正文字体大小，只有确定了正文字体大小，才能根据它来调节平衡，决定大标题，小标题以及注释文字大小。
下图是适用于一般文章正文文字大小的图例。即便是相同大小的文字，字体不同看起来大小也不一样。而且选择文字大小时，需要考虑文章的阅读方式，比如，是在大屏幕机器还是小屏幕。(图3-４）
三、行对齐
排版中重要的一条，是把应该对齐的部分对齐，例如每一个段落的字行对齐，就是把行的位置进行对齐使其一致的方法。行头对齐是所有行均在行头对齐的方法（图5）虽说这种用法使得行尾不齐整，但方便文章的停顿部分换行，适用于散文、诗歌等表现韵味的文字版式。但是，对于编排长篇文章时，选择左右对齐更能体现条理性。由于换行的位置都相同，阅读行头或换行的时候视线能够平缓流畅地移动。
四、文字留白
使文章易读的排版方法多种多样，下面说说简单的方法“留白”留白就是在版面中留出空余的空间。
编排文章时，最小的留白是文字里的空白，根据文字的形状，字中有很多小的空白，留白的大小依据字体或者文章内容上汉字及英文的多少而改变。其他比文字中的空白大的留白，是文字与文字之间字间隔的空白、以及行与行之间的空白，段与段之间的空白，留白的面积大小要遵循上述顺序。在文章中如果这个顺序颠倒或者混乱，就会变得不易阅读。
整理好依次顺序后，再要检查编排后的文字是否严格按照这个顺序进行设计。不过在实际排版时没有必要把它们的大小都分别测出来。重要的是用眼观察外观来判断留白大小是否合适。
五、行间距的设定
行高，行间距的大小对文章的易读性有很大的影响。行与行之间拉得过开，从一行末尾移动到下一行开头，视线的移动距离过长增加了阅读难度。相反，行与行之间贴得过紧，上下挨得过紧影响了视线的移动，让人不知道正在阅读哪一行（图12）。正文最恰当的行高，基本应该设定为其文章中文字大小的两倍。例如文字大小为８px的文章，就应该把行高设定为１６px（图13）
但是根据文章使用的字体不同，行高使用的值也会发生改变。比如宋体文章的行高要比黑体的行高大一些，相反黑体的行高要稍微小一些，这样的设定更易于阅读
另外正文以外的大标题，小标题和引导语类的短文章，一般要把行高设定得稍微窄一些。大标题或题目的部分，因为字号较大，若文字间隔太大太松散会影响阅读。因为若把引导语的行高设定过宽，这段文字难以被认为是一个整体。因此需要配合文字版式，挤紧字与字之间隙，这样会让版面看起来紧凑扎实。
我们在设计工作中，头脑中往往会存有某种标准，并且会以之作为排版工作的标准。但是实际工作中总会有些具体情况，例如对于对话较多的原创类书箱而言，行距稍微小一些也没关系，而对于出版类书箱这样段文字较多，或者论文这样比较晦涩的内容来说，行距大一些会比较便于阅读。当然读者的年龄也是很重要的问题。像这样的观点还是与自己的阅读经验直接相关的。
六、保持足够的段间距
段落与段落之间必须有一定的距离。如果这种距离不够，那么读者从字行末尾折回，移向下一行视线就会与移向下一段的视线发生冲撞，从而导致阅读无法顺利地进行。而且，如果段落之间的距离过远，也会有造成段落之间的关系联系不强的弊端，因此设定合适的段间距是很重要的。
作为保证文章易读性的标准，将段间距设为大约两个文字的大小是一种通常的作法。也就是说，当正文的文段以１２p文字排版时，段间距就是２４px。当然，这个标准也并不是绝对的，有时候也可以通过刻意地设定狭窄的段间距，给读者带来内容紧凑的印象。
我们的书籍排版是以像素尺寸的形式显示在硬件设备上。所以我们要确保设计出来的文本尽可能的易读，无论读者所处的空间、时间有何种变化。我们要尽可能透彻地了解，作出明智的决定，并且建立规范的设计规则。
七、特殊符号的处理
和构成简单、只需处理字母的西方文字相比，中文汉字中，众多“符号”不规则地混在一起，构成非常复杂。因此，为了使这些繁杂的要素配置得整洁美观，需要在开始排版之前，预先制定“段落样式”的设计排版规则。
例如中文和英文混排的文章，为使中文和英文和谐自然地结合，需要把英文的字号设定得比中文字号大一些。还有左右对齐文章，必须决定是否把标点“悬吊”在对齐线之内。再有标点、记号，若放在行头或者行尾，文章就会变得不易阅读。为了防止这些发生，必须进行避头尾的设置。制定好上述详细的规则，就会将文章编排得美观协调。
最后：版面设计也会随着时代的不同而发生变化
有时候即使运用了这些相同的理论所进行的编排设计，也会出现“看起来不错啊”和“只不过是简单的排列而已”这样两种情况。设计还是会体现出时代的要求的。当然读者年龄层也是非常重要的影响因素。
网易云阅读页面元素的使用方法，风格，使用的字体样式等问题，已经有一些固定的规则了。但是，这些惯用的字体每隔一段时间都会发生一些变化，虽然幅度并不是十分明显，但仍然是在逐渐发生着变化的。因为作为版面设计的条件而言，如果视觉上没有任何新鲜的东西也是不行的。在对这些所使用的颜色以及文字的组合方式等问题细微地改变过程中，存在着无限的正确处理的可能。方法总是有很多，所以我们也一直在寻找最舒适易读的阅读编排方式。
原文地址：
赞赏是对原创者的最大认可
收藏已收藏 | 2赞已赞 | 3
你如何定义自己，就如何定义这个世界；
你如何定义这个世界，就如何定义你的产品。
产品经理群
运营交流群
数据分析群
文案交流群
Axure交流群
关注微信公众号
大家都在问
15个回答17人关注
19个回答20人关注
14个回答17人关注
14个回答20人关注
50个回答218人关注
19个回答19人关注【冰冰邦邦】吧里为何文字性的报道极少呢？求解！【范冰冰吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：912,370贴子：
【冰冰邦邦】吧里为何文字性的报道极少呢？求解！收藏
坦白讲吧里潜水这么久，最常看见的就是冰冰的美图层出不穷。但是那种文字性的报道却极少，好的文章对于了解冰冰能起到很好的东西。有些明星吧里，会将该明星接受采访时的一些经典话语收集起来，从简短的文字中让人或多或少会对这个明星产生好感。可纵观吧里，多是美图帖，范冰冰难道美得就光剩下美丽的容颜了吗？她本身强大又魅力十足的内在呢？那得文字才有办法描述呀。一副躯壳再美，没有美的灵魂，时间稍久，便无趣无味了。一个好的贴吧同样如此，光有图片，没有文字，灵魂何在？可吧里即便有文字性的帖子，也不见得能受到重视。所以费解之极，不知道有没有人能解答疑惑。
还有，不光是文字性报道的东西极少，而且一些和范冰冰有关的文章也不多。更别提其他的了。唉，遗憾呀遗憾。
我潜呀潜呀潜，憋了很久很久，实在憋不住了才将这个疑问提出来。
跟活动的话我会写的……只是活动不常有……楼主要耐心等～
亲，这种文章一点儿也不少---- 我是冰邦，我为真爱代言。
因为范爷的魅力和美丽用语言难以形容啊
她的美用心才能真正地感受到
只要能看一下她的美图一切都尽在不言中
我不是喷人只是你觉得文章少
为什么不能自己写呢？除了光会说还要会做冰用她自身魅力折服每个人，这种姑娘我不看报道就会喜欢她的气质就是她最有力的说明
内心不强大不美丽的女人不会有这种魅力，难道中国缺美女？
写的文章太长没人看那，有图就有真相，多吸引人那。。。
最近冰没什么大活动。。
有，我看过很多，我只能说楼主你混得时间太短了。
随它看图识心，观文知人。
这种文章很多啊。。可能是你不常看见而已。。
俺认为一篇文章文字太多也不好，要配图的，这样观者有欲，读者有欲。哈哈。总之，图文并茂是最好不过的
没错，所以还是继续潜水吧。
这跟吧里，活跃分子的年龄段以及和吧主的倾向性有一定关系吧。也难怪，我看了冰冰这么多年，也经常感到惊艳。不过吧主如果经常给予好文贴以精品待遇，就可以起很好的引导作用。支持lz
登录百度帐号}

我爱游戏网