如何理解最小描述长度 mdl例子

在电子工程世界为您找到如下关于“码大”的新闻
码大资料下载
=ANSI(GBK)码)。 5、大容量的收码区,为了加快显示速度会把超过10K的数据自动隐藏(可以点击【全显】钮查看)。 6、收码区的显示方式可以灵活设置:原始接收数据、按帧换行、通道数据、发送数据。 7、可以为收到的数据标注时间和来源。 8、可以自动比对发码区和收码区的数据是否一致(用于自发自收测试模式)。 9、收码区的内容,可以点击【转发】钮转到发码区。 10、可以在每次发码之前自动清除收码区。二...
功能不变。从开机到自动关机执行每个功能都有不同的莫尔斯码提示音。本电路具有较强的抗高低频干扰的能力和使用方便的大电流开关接口,以适应不同的发射设备。&&& 二、硬件电路原理硬件电路如图1所示。设计电路的目的在于方便实用,以免在紧张的操作中失误,所以除了听抄练习键外其它键没有定义复用功能。各键的作用在图中已经标出。PTT控制在每次复位时处于关闭状态,每按动一次PTT...
功能不变。从开机到自动关机执行每个功能都有不同的莫尔斯码提示音。本电路具有较强的抗高低频干扰的能力和使用方便的大电流开关接口,以适应不同的发射设备。&&& 二、硬件电路原理硬件电路如图1所示。设计电路的目的在于方便实用,以免在紧张的操作中失误,所以除了听抄练习键外其它键没有定义复用功能。各键的作用在图中已经标出。PTT控制在每次复位时处于关闭状态,每按动一次PTT...
通过应用MDL准则在信号检测中的特性,引入检测统计量和设定最佳判决门限,得到了一种新的UW检测方法,它与常用的检测方法不同之处在于可在调制数据上进行。通过对该检测方法的分析和计算机仿真,表明该检测方法能适应大频偏条件,并具有较好的检测性能。关 键 词 独特码检测; 最小描述长度准则; 独特码在卫星时分多址(TDMA)通信系统中,各端站以突发的形式将数据发送到TDMA帧中。通常突发结构是由载波恢复...
编码2器为单圈绝对式编码器,其在转动中测量码盘上各码道刻线,以获取唯一的编码,当转动超过360 度时,编码又回到原点,这样就不符合绝对编码唯一的原则,这样的编码器只能用于旋转范围360 度以内的测量,故称为单圈绝对式编码器。如果要测量旋转超过360 度范围,就要用到组合绝对式编码器。组合光电轴角编码器是一种适用于大量程位移、角度精密测量的光电数字测角仪器,其测量范围可超过整周(360°)的几倍,甚至...
,耦合度大,不利于对系统的维护和扩充。& 二十世纪80~90年代初的CNC系统大多采用这种结构。.& 基于实时操作系统的结构模式&&& 实时操作系统(Real Time Operating System RTOS)是操作系统的一个重要分支,它除了具有通用操作系统的功能外,还具有任务管理、多种实时任务调度机制(如优先级抢占调度、时间片轮转调度等...
2G相比有何不同?.... 44140. 分组域话单的标准格式是什么? 44八、 编号44141. 请给出中国移动GT数据E.212码与E.214之间的转换关系。.... 44142. 用户的的个人识别号码都有哪些? 号码结构如何?...... 44143. 请给出中国移动用户MSISDN号码与IMSI号码的映射关系。....... 45144. 请写出3G用户MSISDN与GSM用户MSISDN...
电信CDMA培训考试 试卷(含答案)CDMA 网 络 优 化 试 题一 . 基础知识1、填空题 (每空0.5分,共25分)1.无线信号在水面上传播比在空气中传播的损耗__大____(大/小),无线信号的频率越高,在空气中传播的损耗越__大____(大/小)。2.
FER和 C/I,Ec/Io 均可用于表征无线信号质量的好坏,其中文名称为:
扩频技术应用于高速移动环境时使得接收信号附加了很大的多普勒频率偏移,增加了捕获难度,如低轨道卫星扩频通信等。本文在基于FFT 的捕获方法基础上,提出了分段式数字匹配滤波器和FFT 捕获相结合的捕获方法,同时采用基于并行导频的信道估计方法来校正多普勒频率偏移,实现信号的正确解调。该方法既具快速捕获的特点,同时捕获多普勒频率偏移范围大。关键词: 多普勒频率偏移 PN 码捕获 分段数字匹配滤波器 快速...
这三种码,试图给大家一个比较完整和清晰的认识为了搞清楚这几个问题,我们先要明确一个概念-直序列扩频通信。直序列扩频通信系统  扩频通信是一种无线通信技术。他所用的传送频带比任何用户的信息频带和数据速率都大许多倍。用W表示传送带宽(单位为Hz),用R表示数据速率(单位为bit/s),W/R被称为扩展系数或处理增益。W/R的值一般可以在一百到一百万的范围(20db~60db)。 讲到这里,不得不把香农...
码大相关帖子
& && & RK3399的CPU采用big.LITTLE大小核架构,双Cortex-A72大核+四Cortex-A53小核结构,对整数、浮点、内存等作了大幅优化,在整体性能、功耗及核心面积三个方面都具革命性提升。 RK3399的GPU采用四核ARM新一代高端图像处理器Mali-T860,集成更多带宽压缩技术:如智能迭加、ASTC、本地像素存储等,还支持...
, IEEE 1394b、RapidIO、OIF 标配、开放基站架构计划 (OBSAI)、常用公共无线接口 (CPRI)。
旗舰型DPO77002SX采用ATI (异步时序交织)结构,实现了70 GHz和200 GS/s (5&&ps/样点)实时采集性能。这种已获专利的对称结构本身的噪声要远远优于传统带宽交织方法。DPO70000SX提供了***低的噪声、***高的保真度和***大的...
然后在main里面调一个 gpio_config() 统一设置
确实非常牛逼,我看了半天没看出来为啥对应的是那些值,没找到对应关系
换了技师,还是原来的味道:surrender:
怼的漂亮!就是没有好好地怼一下HAL库 而是一笔带过了 差评 扣蜀黍你1分 只给你打99分
顶起来,让ST的人看到
辣鸡辣鸡,虽然我不是玩st的码农,但也觉得st的代码辣鸡,蜀黎说的有离,赶紧换个院子...
& & 互联网的发展,推动了大数据时代的到来,手机群控系统也相对普遍用于网络营销中,而河北振坡网络科技有限公司在QQ群控系统的开发中也一直遥遥领先于同行。
&&目前群控系统的现状是:现在市面上的群控系统绝大多数的都会封号,而河北振坡网络科技有限公司的QQ群控则利用的是腾讯独特的接口,可防止百分之98以上的封号情况出现,引用云端共享的数据来进行数据剖析...
,如UTF-8,UTF-8编码不存在这个问题,UTF-8的第一个字节和后续字节不存在重叠,不会出现从中间匹配的现象。Unicode编码是更通用更安全的编码 ,不过在单片机编程领域,GB2312用的好像更多,所以这个方案可行性小。
方案3. 自己手动撸码进行各种操作也是可行的。
字符串处理一直是编程中最常见的操作,尤其在软件领域,对待字符串要严谨严肃,否则稍不注意就会被人利用漏洞,进行各种攻击...
存储子网络、外设间通过集线器、交换机和点对点连接进行双向、串行数据通讯等系统对高数据传输率的要求。
使用SATA(Serial ATA)口的硬盘又叫串口硬盘,是未来PC机硬盘的趋势。2001年,由Intel、APT、Dell、IBM、希捷、迈拓这几大厂商组成的Serial ATA委员会正式确立了Serial ATA 1.0规范,2002年,虽然串行ATA的相关设备还未正式上市,但...
单独设定一条尽可能宽的大电流线,以将传输压降减到最低。为了避免太多电流损耗,需要采用多个通孔来将电流从某一层传递到另一层。
2. 高功率器件的电源去耦。如果不能在高功率放大器的电源引脚端对它进行充分的去耦,那么高功
率噪声将会辐射到整块板上,并带来多种的问题。高功率放大器的接地相当关键,经常需要为其设计一个金属屏蔽罩。
3. RF输入,输出隔离原则。
在大多数情况下,同样关键的是确保RF...
演进下产业化进程不断加快,2020年商用时间表有望提前,对应主题投资层面迎来较好的布局时点。9月27-30日,第26届中国国际信息通信展览会(PT展)将发布我国5G技术第二阶段测试成果。我们认为,在万物互联巨大的市场前景下,技术演进不断加快,2020年5G商用时间表大概率有望提前。
& & 从历史对比角度看,4G产业化路径对于5G具有较强的借鉴意义:1)从核心变量变动情况看...
作为一只码农,不仅有敲出惊人代码本领,更有一种与生俱来的天赋,就是在惊人的代码中创造神奇的臭虫。既然是臭虫,就没人喜欢了,但是既然是我们创造的,那我们是不是应该有义务将其逮住,然后就呵呵呵😄👌。。你懂的。。臭虫的种类繁多,能不能像物种的分类分为界,门,纲,目,科,属,种呢,我是没这能耐,哪位大神可以分一下。呵呵。但是有一种臭虫是最令人讨厌的,在编码...
伪 基 站 采 集 手 机 号 码 【电/薇:132,乄0207,乄8776】如果网页打不开请点击百度快照【电/薇:132,乄0207,乄8776】我上次找的他,态度也很好,费用什么的也很好,需要的找他(忽略以下内容)一、机电一体化技术的概述
机电一体化就是综合地运用机械、计算机、微电子、电力电子、光学、接口等技术,对各个功能进行合理的配置,从而实现了高质量、多功能、低能耗的价值和功能。机电...
你可能感兴趣的标签
热门资源推荐& & & & &MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度(
比特数) 等于这些实例数据进行编码压缩后的长度加上保存模型所需的数据长度,将该数据长度称为总描述长度。最小描述长度( MDL) 原理就是要求选择总描述长度最小的模型。
& & & & & 最小描述长度在分词中的应用也比较直接,就是将分词视为一种编码方式,如一个字符串,”iloveyou“ ,总共8个符号,就是对应的8个字母,经过分词后就是“i love you”,就只有3个符号,就是3个单词,这样总长度变小了,但是需要额外的信息来记录单词的信息,也就是模型。因此需要的总的长度不一定变小。
& & & & &最小描述长度具体应用的分词中的计算方式,见paper “Shlomo Argamon, Navot Akiva,&Amihood Amir, and Oren Kapah. Efficient unsupervised&word
segmentation using minimum description length. In&Coling 2004, 2004.”
& & & & &&
& & & & 其基本公式为:& & &
& & & & CODE(Data|L) + CODE(L)
其中L是词典,Data是语料
CODE函数表示描述数据需要的最小位数
两个部分中,
CODE(L)就是描述词典所需的信息,也就是记录模型需要信息:
CODE(L) = b*sum(length(w))
其中b表示描述字母集所需要的位数,如2个字母,需要的位数就是1bit,4个就是2bits,依次类推
w表示词典中词的长度&
CODE(Data|L)为分词后的语料,记录这样的语料需要的信息:
CODE(Data|L)&= -sum[ C(w) * ( log(C(w))- &log(N) ) &]
其中C(w)为语料中词w的出现的次数,N为语料的包含总的词数。
如语料为:Data =&w3w1&w5&w2w2&w3
则语料共有6个词,其中w3的数量为2,w1为1...
这个里面的log应该是以2为底的
举一个简单的例子,两行已经分好词的语料:
字典部分:
共有两个字符,则b=1,即为用一个bit就可以表示a,b两个字母了
共有4个词,a,b,ab,ba
其长度和为1+1+2+2 = 6
则CODE(L)部分的值为1*6 = 6
分词后的语料部分:
语料长度为5个词,则N=5
a出现2次,则对应的值为2*( log(2)-log(5) ) =&-2.64
b,ab,ba均出现1次,对应的值均为1*( log(1)-log(5) ) =-2.32
则CODE(Data|L) ,也就是语料部分的值为 :
-1*(-2.64&-2.32-2.32-2.32&) = 9.61
则该词语料的总的描述长度 mdl=6+9.61 = 15.61
& & 这个数组其实是描述这个分词方法和对应语料需要的总的信息量。对其取2为底的对数,则值为log2(15.61)=3.9,也就是编码这个分词后的数据,需要的最小2进制位数是4位。
& & 相应的,我们可以计算一下,不经分词,就是只用字母来表示这个语料,需要的信息量约为8.8966,显然,这样的分词方式是得不偿失的,当然,如果词出现很多,分词后记录语料的信息量会是少的。
对应的python代码如下,其中输入文件为分词好的语料,词直接用空格隔开,一行一个句子
#!/usr/bin/env python
#coding=utf-8
import sys
import math
reload(sys)
sys.setdefaultencoding('utf-8')
#MDL,(minimum description length),最小描述长度
#输入,分好词的文件,格式为 词 空格 词 空格...
word_dict = {}
#加载语料,统计词和词频,用于后续的处理
def load_corpus(word_seq_file_name):
data_file = open(word_seq_file_name, &r&)
for line in data_file:
line = line.strip()
word_list = line.split(& &)
for word in word_list:
word_dict.setdefault(word,float(0))
word_dict[word] += 1
#获得字母的描述长度值
#目前只处理单字节的字母
def get_letter_info():
letter_dict = {}
#统计letter
for word in word_dict:
for letter in word:
letter_dict.setdefault(letter, 0)
letter_dict[letter] += 1
#计算字母的描述长度
letter_num = float(len(letter_dict))
letter_info = math.log(letter_num, 2)
return letter_info
#获得词典的词的总长度
def get_dict_info():
word_length_sum = 0
for word in word_dict:
word_length_sum += len(word)
return word_length_sum
#获得单词序列的描述长度
def get_word_seq_info():
word_info_sum = 0
freq_sum = sum(word_dict.itervalues()) #所有词的词频
for word in word_dict:
word_freq = word_dict[word]
word_info = word_freq * ( math.log(word_freq, 2) - math.log(freq_sum, 2) )
word_info_sum += word_info
word_seq_info = -1*word_info_sum
return word_seq_info
#获得最终的mdl
def get_mdl():
letter_info = get_letter_info()
dict_info = get_dict_info()
word_seq_info = get_word_seq_info()
mdl = letter_info*dict_info + word_seq_info
return mdl
if __name__==&__main__&:
if len(sys.argv)!=2:
print &please input word corpus filename&
sys.exit()
load_corpus(sys.argv[1])
print get_mdl()
数据文件例子:
处理这个文件,获得的值得应该是
本文已收录于以下专栏:
相关文章推荐
奥卡姆剃刀原理认为:如无必要,勿增实体。该思想在现代科学的语境下可以表述为:如果两套理论有着相同的解释力,那么取较简单的那个。这其实是一种哲学思想,以简洁为美,如同在物理学界追求对称美一样,它既不能被...
最小描述长度( MDL) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再...
MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省...
一、MDL的提出目的
提出最小描述长度(MDL)的目的是为了根据信息论中的基本概念来解释极大后验假设(MAP)。
二、理论基础
极大后验假设(MAP)
贝叶斯公式:
Minimum Size Subarray Sum问题
问题描述:Given an array of n positive integers and a positive integer s, find the minimal length of a su...
category的作用:分类可以在不改变原来类的代码的情况下,给某一个类扩充一些方法分类的格式@interface 类名 (分类名称)
扩充的方法
@end分类(category)的使用案例NSStr...
Description of interest regions with local binary patterns
      该文章发表在Pattern recognition, 2009上,主...
他的最新文章
讲师:韦玮
讲师:陈守元
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)线GaussMarkov模型参数估计的最小描述长度方法_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
线GaussMarkov模型参数估计的最小描述长度方法
&&专用论文
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩2页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢1章_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
&&集合检测题
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩52页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢最小信息长度
Minimum Message Length
...用信息论进行生物信息学分析的初步尝试 如用于解决算法概率(Algorithm
probability),最小信息长度(Minimum message length)和最小描述长度(Minimum
description length)等问题 [1] 信息论的分析方法是对前述统计方法的自然延伸 信息体 现了基因的宏...
基于4个网页-
使用最小均方误差准则,用一个FIR均衡器联合缩短信息与回波冲激响应,有效地缩短了回波和信道冲激响应长度。
Both channel and echo response can be shortened at random with a single FIR equalizer by following the minimum mean square error rule.
当您输入的值比您在属性视图的验证标签页中设定的最小长度短的时候,同样也会生成错误信息。
Likewise an error is generated after the submit button is pressed if a field is shorter than the minimum length entered in the validation tab of the attributes view.
$firstVoiceSent
- 来自原声例句
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!}

我要回帖

更多关于 最小描述长度 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信