只显示主题贴
timerri 写道基于词频或者字频统计的分词算法优点是速度快,缺点也很明显,就是自学能力差,新词猜测成功率低。应用在关键字搜索上是够了。但是应用在文章自动分类,自动关联等方面时就不尽如人意。
期待有真正自然语言识别能力的算法出现.....不知道还要多久....
由字构词的方法解决的就是新词(未登录词)的猜测成功率,基于词表的大概在60%-70%左右,而此方法可以高达80%-90%甚至更高。
现在语言学界对于分词以及语意识别一般有两种取向,基于统计和基于规则。而事实验证,可行的方式只有以统计为主,在时间日期、命名实体(组织机构名或者人名、地名)上面辅助以规则的分词对于分词的准确率以及分词效率是 ...
- 进入论坛 Java 版
robbin 写道的确只是一个最简单的介绍,那么基于这种原理的分词算法应该如何设计呢?
最重要的是构建一个字表,基本形式如下:
的 S
一 B
是 S
剩下的处理过程就和基于词表的正向最大匹配过程一样了,采用EM 或者 HMM 模型,对字窗中的字进行切分
ps:附件中为黄昌宁教授的关于由字构词的方法的一份ppt
- 进入论坛 Java 版
现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。
最新的一种分词算法叫做“由字构词”的分词方法,关于“由字构词”分词方法的最早的一篇论文发表在2002 年第一届SIGHAN 研讨会上,紧接着Xue 在ME 模型上实现了由字构词的分词系统参加了Bak ...
- 进入论坛 Java 版
同意楼上的,广告联盟的应用应优先将访问记录在日志而不是数据库里。配置一下apache 就能达到同样的目的了
- 进入论坛 Java 版
volatile 可以安全的替代锁的两个条件:
1、对变量的写操作不依赖于当前值。
2、该变量没有包含在具有其他变量的不变式中。
针对条件1,i++ i-- 这样的操作是不能用volatile 替代
针对条件2,if (volatileVar > num) 这样的形式也不能用volatile 替代锁
- 进入论坛 Java 版
首先,我觉得如果编译器真的这么做的话,那不叫优化,而叫折腾了。
做个实验:
int a = 3;
int b = 3;
a = 4;
编译成字节码:
0: iconst_3
1: istore_1
2: iconst_3
3: istore_2
4: iconst_4
5: istore_1
二进制表示:
06 60 06 61 07 60
足够简单了,如果加上一堆判断,反而是降低了jvm 效率!
- 进入论坛 入门讨论 版







评论排行榜