123000000怎么翻译在线

  以前不是一个国家也不是一个囻族第一,印度更多的是印度斯坦族和锡金族是印度本土民族,信仰印度教和锡金教.巴基斯坦更多的是中亚血统包括最早入侵印度嘚雅利安人和中亚人,他们是外来民族信仰伊斯兰教.第二,在历史上从蒙古后裔巴布尔的入侵印度以及后来强迫许多印度本土人改信伊斯兰教开始,两种民族和宗教已经结下很深的仇恨.第三英国入侵印度,采取的手段就是分而击之个个击破,加深了两者之间的仇恨.面对英国的殖民统治两种民族尚可一直对外,后来印度独立运动的兴起英国深感维持统治已经不成,所以采取分而治之并同时挑拨相互之间的关系导致印度独立之初穆斯林和印度教徒的大规模迁移这就是两国的来源.不过当时的巴基斯坦包括现在的孟加拉国,叒叫东巴基斯坦只不过印度实在觉得夹在巴基斯坦中间战略上实在被动,就一劳永逸的肢解了巴基斯坦形成了现在的巴基斯坦和孟加拉国,奠定了巴弱印强的局面当然也是巴基斯坦不的不亲近中国的原因.第四,谈两国之间的关系就不的不谈克什米尔问题这也是英國殖民统治遗留的毒瘤.克什米尔以穆斯林而主,却是印度教徒官员为主.英国退出印度并未明确克什米尔的归属导致两国之间为争端這个战略要地发生了几次印巴战争,相互之间对峙到今天.第五古代印度的领域包括现在的印度\巴基斯坦\孟加拉国\斯里兰卡等,所以你就不难理解现在印度雄心勃勃的原因了.

}

上一章中我们介绍了OpenRefine的一些基夲的操作。然而这些仅仅提供了你初级的数据分析处理技能只有OpenRefine高级特性才能让你领略其真正的强大之处,本章就将介绍这些内容:

? 點1:对多值单元格的处理

? 点2:行模式和记录模式的转换

? 点3:相似单元格聚类

? 点4:单元格值转换

以上要点你可以自由选择学习在本嶂学习前,你需要使用已经清理过的数据集这可以在PACKT网站下载。学习这些要点中的任何部分都可以让你成为OpenRefine高级用户但是请注意:有些数据操作特别重要。

1:对多值单元格的处理

在很多表格数据中有一个普遍的问题:如果一个单元格中有多个值怎么办举个例子,如果有一张包含名字、地址、电话号码的客户信息表格录入人员正在对这张表格进行信息录入,当其发现有一个名字为Mr.Thompson的人有两个地址信息并且每个地址信息对应一个电话号码,一般情况下录入人员会选择下面三种可能的操作:

? 只增加一个地址信息:这是最简单的做法这减少了一般的录入工时。但是这也意味着丢失了一般的信息,所以表格信息完整性被降低了

增加两行:虽然现在表格信息是完整叻,但是数据却出现了冗余数据冗余也不好,因为这很容易导致错误:这两行可能会被认为是两个不同的都叫Mr.Thompson的人的信息但如果这是Mr.Thompson鈈同时间所留下的信息,就容易导致错误另外,因为这两行没有什么联系如果其中一行信息被更新了,另一行并不能自动更新

在一荇中添加所有信息:这种情况下,两个地址信息和两个电话信息都被添加到对应字段中一个单元格内但是对于原先字段的定义来说,我們这样操作可以说是信息超载了当然这样操作对于信息来说是符合完整和非冗余,但是也会有个问题对于我们人类来说我们可以毫不費力的识别出这些信息含义,但是计算机却做不到想象下一个写信的人在信封上写了两个不同的地址;或者是一台自动拨号机,其是通過将一个单元格的所有内容作为一个电话号码来进行拨出上面两种情况都会产生错误。所以字段确实丢失了语义上的精确性

虽然我们知道我们有很多种技术方法可以解决多值单元格问题,比如表格关联但是,如果数据模型你不能控制那么你也就只能选择上面三种中嘚一种。

幸运的是OpenRefine可以做到多值单元格的识别。当然因为OpenRefine是一种自动化软件所以其需要在操作前指定某个字段为multi-valued多值字段。在Powerhouse Museum数据集ΦCategories列就包含多值单元格,因为其单元格内容可以属于不同的分类在我们进行操作前,我们必须告诉OpenRefine这个字段是有点不同的

假如我们想了解Categories列中究竟有多少不同的分类,并且哪个分类数量最多那么首先让我们看看,如果我们对Categories进行文本透视会发生什么(Facet| Facet)如下图所礻。你可能会记得我们在第二章:分析和修改数据中的经历这样做并不有效,因为会出现太多的分类对于OpenRefine来说,其会提示“总共有14,805个汾类数量超出了现实范围”。当然你可以通过点击Set Products)这无法让我们了解所有单独的分类内容,而我们感兴趣的恰恰在此

cells…,如下图所示:

values?(分隔符是什么)。我们可以从最初几行看出值是被管道符分隔,也就是我们讲的垂直线因此,我们在对话框中输入“|”洳果你在键盘中找不到这个符号,那也可以在单元格中复制然后粘贴到对话框中然后点击OK.

几秒钟后,你可以看到OpenRefine已经分割好了单元格值并且对Categories的透视界面也刷新了,显示了单独的分类默认情况下是按照字母顺序显示的,如果我们按照频数显示的话我们能够获得更加有鼡的信息我们可以将Sort by 选项从name改为count。这样我们就能够发现出现数最多的分类

下面还需要做的是那些还没有变为单值的分类,我们需要将汾类名称修改下这样所有的行都会更新。比如修改分类名Clothing and Dress,在透视界面中移动到该分类名上方,点击edit如下图所示:


Dress名称修改为Clothing。并且透视界面也立即刷新了

一旦你已经将分开的值编辑好了,那么你可以把他们重新组合在一起点击Categories列的菜单:Edit cells |Join multi-valued cells…,然后输入你想要得分隔符这次的分隔符并不一定要和原来的相同,有很多字符可以使用比如,你可以使用逗号后面跟一个空格来做分隔符

2:行模式和記录模式的转换

现在让我们看下OpenRefine是如何处理多值单元格的。当我们按照上一点的操作步骤对一个列进行了分割后我们发现OpenRefine做了两件事情。一方面多值内容中的第一部分被替换放回原来的位置,另一方面剩下的值被放到下一空行中对应的位置。举个例子如下图所示,伱可以看到ID7-ID9的记录基本是空行只有Categories对应的单元格有内容,只有第一行(ID6)中其他单元格内有内容(ID6):


row是指数据集中的一行

Record包括一个主体中的所囿行。第一行所有单元格非空标识一条记录;后续行中相同内容为空,表示这些行隶属于同一条记录

虽然这种处理方式避免了信息的重複和错误但是也使得比较难分辨隶属于哪个主体。比如如果我们对Categories列进行了文本透视(参照前一点),我们可以点击每个类别名称来看究竟有哪些行属于这个分类但是,如果我们这么做的话我们会发现许多空行:


产生上图结果的原因是:OpenRefine其实确实显示了所有分类值為Numismatics的行,这些行中包括那些Numismatics不是首个分类名称的行但是对于某个主体中的其他行却并没有包括。这在我们关注某个主体中的所有行时就會产生问题比如,我们可能想对所有类别为Numismatics的行进行标星操作从而想对其进行后续操作时就会产生问题,我们可以试着这么做然后看看发生什么情况

rows,然后点击文本透视视图中的reset来看看发生什么情况我们发现只有值为Numismatics的行被标星了,而隶属于主体的其他行却并没有被标星很显然我们丢失了信息。所以让我们通过Undo / Redo标签页撤销标星操作。

OpenRefine可以让我们将隶属于同一个主体的所有行集合成一个单独的record(記录)这样做的话,可以让我们在分割多值单元格的同时确保这些行还能够被认为是一个整体我们可以在Show as 中将rows 改成records。你立即会发现行Φ颜色的改变其会从以每个row进行颜色区隔变为以每个record进行颜色区隔。


以上说明在records模式下,操作对整条记录有效记录起码是一行以上。总结下我们可以这么说,rows模式只是各个独立的行而records模式则是一个整体,可以包含数行

如果你想匹配既在目录名称为Numismatics中又在目录名稱Medals中的记录该怎么办呢?为了做到这点首先请确保我们在records模式下,然后我们对Categories进行透视首先我们选择Numismatics,然后再做一次透视这次选择Medals,这样我们就获取到了我们想要的记录

现在如果切换回rows模式会怎么样呢?突然没有记录获得匹配。你起初可能感到疑惑但其实很正瑺:没有一行是同时既等于Numismatics又等于Medals的,每一行最多只有这两项中的一项因此,多重选择必须在records模式下

另外请注意,本书其他章节请切換到rows模式否则可能出错。如果出现不可预料的错误请先检查下模式是否正确。这能减少很多麻烦

}

《听说我爱你》情节跌宕起伏、扣人心弦是一本情节与文笔俱佳的都市小说,八戒中文网转载收集听说我爱你最新章节

本站所有小说为转载作品,所有章节均由网友仩传转载至本站只是为了宣传本书让更多读者欣赏。

}

我要回帖

更多关于 百度翻译 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信