发新话题
打印

词语库要相对的大,相对的全

词语库要相对的大,相对的全

近来很多朋友都在支持所谓的精简词库,当然对于字词方式者,这是非常有必要的,因为这样可以适当地减少重码。
    但是,对于语句录入或短句录入或者超级字词方式来说,我个人的认为是词库量尽可能的大。很多朋友又往往只是看到词库中有些词可能一辈子也用不到,但是往往没看到很多时候自己想用的词往往在词语库中没有的情况。我的感觉是如果在输入过程中,识别不正确时,在修改过程中如果因为词语库没有这些词而必须一个字一个字地修改,那是一件非常丧气的事情。我个人认为,基础库(公共库)应该是150~200万比较合适,专业词库的词库量要根据各专业的特点来定。
    对于上述问题,有些朋友会提出如下两个疑问。
   1、语句识别需要修改,说明该输入法的智能性或识别率不高。
     目前来说,自然码的识别率已经相当高了,特别是6.32以后的版本,自然码已经完美的利用了黑马语句的识别技术了。当然,由于每个人的文风、写作习惯及不同的专业要求,输入的内容会有所不同,表达同样的意思时,其表达的方式也会有所不同。因此无论哪种语句输入法,其识别率都不会达到百分百,在语句修改时,以词为单位进行修改,明显比以字为单位修改轻松多了,在结合自然码的语句方式中二字词和三字词加形码修改,则更为方便了。
     2、自然码的智能学习功能挺强大,完全可以让用户通过智能学习自己以往的文章来完善个人词语库。
     诚然,诚然自然码的词库整理及智能学习功能已经很强大了,实际上很多人都不太会使用这些功能,包括我们当中的很多专家级的人物对这方面的功能都很少涉猎。既然这样,我们怎么要求广大的初级用户去整理自己的个人词语库呢。所以作为一个优秀的输入法,词库应该尽可能覆盖面广,满足大多数人的要求。按照目前自然码的处理技术,处理大词库完全不成问题。
《自然码输入系统 2000》 集“多环境、多内码、多方案、多词库、多习惯、多功能”为一身 自然码官方网站:http://www.zrm.com.cn/ 自然码爱好者论坛:www.zrm.com.cn/bbs 自然码输入法专区:http://www.srf.cn/list.asp?boardid=44 自然码爱好者 QQ 群: 7928071

TOP

  对整句和语句方式的使用者,我只想说,“黑马一出,谁与争锋!”。 有了黑马这个超级大库,还需要其他大库吗?  到时其他的专业词库只需要做本专业相关的词就可以了,相对来说,就不会那么大了。

TOP

^_^黑马是语料库

黑马是语料库,里面都是一些“看不到”的词,记录的都是一些词语的前后搭配,如果修改,还需要自然码系统词库支持。
另外,有很多人不用黑马,难道自然码都不为那些考虑吗。
《自然码输入系统 2000》 集“多环境、多内码、多方案、多词库、多习惯、多功能”为一身 自然码官方网站:http://www.zrm.com.cn/ 自然码爱好者论坛:www.zrm.com.cn/bbs 自然码输入法专区:http://www.srf.cn/list.asp?boardid=44 自然码爱好者 QQ 群: 7928071

TOP

词库分为必选的和可选的(各类专业词库),我的意见是必选词库应小而精,各类可选词库应大而全,这样大家都能各取所需,自由选择,这是最合适的。甚至,主库可以是纯单字库,可选词库中有7万词的F词库,有100万词的C词库,可随意挂接。
      至于是小词库好还是大词库好,大家可以慢慢讨论,不仅是自然码,在其他输入法(如极点、加加等)论坛都有过精彩的争论,值得参考。

[ Last edited by 回到十年前 on 2005-5-26 at 15:04 ]

TOP

唉!我是喜欢大词库啊,越大越好。当然,是在有用有效先进的前提下了。呵呵!
呼啸的时光掠过鹰的双翅 远方依然在远方之外

TOP

鹰翔天涯,你真是我的知音

有了你这句话,我就有动力了。
《自然码输入系统 2000》 集“多环境、多内码、多方案、多词库、多习惯、多功能”为一身 自然码官方网站:http://www.zrm.com.cn/ 自然码爱好者论坛:www.zrm.com.cn/bbs 自然码输入法专区:http://www.srf.cn/list.asp?boardid=44 自然码爱好者 QQ 群: 7928071

TOP

有了“coudan”、“foolman”、“tj_wangtao ”、“chtx ”、“dongchenyu ”…………一批
高手的存在,自然码的前途从此无限……
日行一善,功德無量,福生無邊!

TOP

coudan,虽然我们观点不同,希望我不是增加你的阻力,而是成为来自反方的动力,你就是要把大词库搞好,来证明给我们看你是正确的。

TOP

其实现在自然码的主字词库就是如此

引用:
Originally posted by 回到十年前 at 2005-5-26 14:39:
词库分为必选的和可选的(各类专业词库),我的意见是必选词库应小而精,各类可选词库应大而全,这样大家都能各取所需,自由选择,这是最合适的。甚至,主库可以是纯单字库,可选词库中有7万词的F词库,有100万词 ...
目前自然码的主字词库含有约5万的字词,其实可以结合过客的思路,完善以下即可。
《自然码输入系统 2000》 集“多环境、多内码、多方案、多词库、多习惯、多功能”为一身 自然码官方网站:http://www.zrm.com.cn/ 自然码爱好者论坛:www.zrm.com.cn/bbs 自然码输入法专区:http://www.srf.cn/list.asp?boardid=44 自然码爱好者 QQ 群: 7928071

TOP

其实啊,这没有什么可争的,不存在谁正谁误,就象计算机,有微型化和巨型化两种趋势,你能说哪种对呢?适用于不同的人群而已。

TOP

功德无量,你还少列了 版主-梦回唐朝,以及leybyr、长短句、暮鸦  等人

[ Last edited by dongchenyu on 2005-5-26 at 19:06 ]
自然码——简单、高效、经典的拼音输入法!位居连邦软件输入法类榜首!
●击键次数少,重码极少,不用翻页,不用数字键选择,易于盲打;●效率高,是普通全拼3~4倍!●难度是五笔1/10!
自然码利用拼音加上偏旁声母发音,解决了拼音重码率高的问题。


网站www.zrm.com.cn
论坛bbs.zrm.com.cn
QQ群:7928071
自然码聚宝盆:dongchenyu.5u6.net

TOP

今天才发现,原来词语库太大的话自然码占用的内存也是很大的,我挂上自然基础词库和扩充词库,占用内存30M ,但是只用那个微软词库的话只有12M,呵呵好小呀,还真是不错的

TOP

舍不了孩子、套不了狼

引用:
Originally posted by liusunshine163 at 2005-5-28 16:25:
今天才发现,原来词语库太大的话自然码占用的内存也是很大的,我挂上自然基础词库和扩充词库,占用内存30M ,但是只用那个微软词库的话只有12M,呵呵好小呀,还真是不错的
《自然码输入系统 2000》 集“多环境、多内码、多方案、多词库、多习惯、多功能”为一身 自然码官方网站:http://www.zrm.com.cn/ 自然码爱好者论坛:www.zrm.com.cn/bbs 自然码输入法专区:http://www.srf.cn/list.asp?boardid=44 自然码爱好者 QQ 群: 7928071

TOP

我相反,这几个词库我是统统全挂。是真挂哦。不是挂了的挂。^_^。
呼啸的时光掠过鹰的双翅 远方依然在远方之外

TOP

引用:
Originally posted by 回到十年前 at 2005-5-26 14:39:

必选词库小而精,可选词库大而全,大家都能各取所需
赞成!
青山不墨千年画 流水无弦万古琴

TOP

大词库有大词库的好处

我希望词库大而全,以适应各行各业的需要。否则,要用到某些词语,而使用的输入法里没有,要一个字一个字地输入就惨了。几种输入法智能大比拼 ,微软拼音2003和智能狂拼Ⅲ所以把“上野”识别为“商业”,就是因为它们词库里可能没有“上野”这个词,而自然码不但有这个词,而且可以加辅助形码输入(输入uhyel,“上野”一词就提到了前面)。所以词库大有大的好处,可以提高识别率。当然要允许用户选择挂接。

TOP

要允许用户选择挂接(chtx)

适合我的就是最好的——给用户更多的自主权。
青山不墨千年画 流水无弦万古琴

TOP

词库既不是越大越好,也不是越小越好。根据窝子的公式(词库效率=确定性/均码长),词库的好坏在于确定性,即很少出现词组打空的现象。
    窝子一开始是用减法来提高确定性,即保留单纯词,删去“国际贸易”这样的复合词,遭到了很多老用户的反对。因为,窝子忘了一点,确定性还与用户对词库的熟悉程度有关。
    另外一个相反的提高确定性的方法,就是大词库,尽量将所有可能用到的词组都放进去。所以,现在的词库走向了两个极端,要么是10万以下,要么是50万以上,甚至是上百万。
     究竟哪个效果更好,现在还没有明确的结果。所以,允许用户自由选择,是最好的办法。将来,黑马语料库能否做到上千万词组,主库能否采用单字+单纯词,综合上述两种方法之长,解决词库的难题,还不得而知。

TOP

现在的大词库的问题是问题词太多了,很多根本就是错词!说实在的,自然码用户的词汇准确率可能会比一般的拼音用户要高,个人感觉。我自己打东西还是很注意是否打错的,当编辑时代留下来的毛病。

TOP

我觉得,不应当追求大而全。
适用的才是最好的。

现在的词库太大了,如果自然码允许删除使用频率极低的词语,那么,在词库中留下的,都是对用户而言有用的,这样的,才是最好的。

当然,另外一个可以接受的词语库方案是:
1、基础常用词语库:最常用的词语,也即使用频率较高的;
2、基础扩充词语库:使用频率不高,但是可能会用到的词语;
3、专业类词语库:可以划分比较大的专业,比如,化工、经济、文学、医药等;
4、个人词语库:个人日常使用及智能学习方式积累的词语库。

1的词语库量,应当在10万左右,这样才有普遍适用性。
2的词语库量,应当在10~50万以上,可以供用户选择挂接。(不是现在的扩充库哦)
3的词语库量,根据专业情况而定。
4由个人使用而定。

现在迫切需要增加的功能是:
1、彻底删除词语的功能;
2、删除频率低于一定程度的词语的功能(或者将其移到个人词语库中);
3、用户可以屏蔽主库后,在语料中对个人词语库进行频率统计,然后可以执行1将频率很低的词语删除。

TOP

发新话题