4月9日下午,在搜狗拼音输入法交流会上,搜狐公司副总裁王小川向与会记者和博客们做了“搜索引擎·词库·输入法”的主题演讲。
王小川表示,词库是输入法的基石,最能代表输入法的开发实力。搜狗在词库方面投入了包括产品、开发、研究、测试和编辑等10多名人员,整个工作持续了8个月时间。
据介绍,搜狗拼音词库经过了词条搜集、词频统计、词库优选、垃圾词过滤、词条注音、新词发现六个重要步骤。
通过对互联网100亿页面展开大规模的词汇挖掘和搜狐矩阵资源的人工整理等多种方式,搜狗拼音获得了360万原始词库以及使用度。进而根据词频等多种参数,获得40万优选词库,再通过人工整理、机器整理获得35万基本无垃圾词词库。然后对每个词条进行注音,获得35万标注正确读音的词库。最后通过新词发现系统和人工审核系统获得新近产生的热门词汇,并通过在线升级系统随时补充到用户词库当中,使得最新最热的词汇都能够一网打尽。
根据统计,在1.5版本的搜狗词库中,Google与搜狗完全相同的错误超过10000个,Google词库包含有搜狗词库中的30多万条词汇,词库重合率高达96%。
有数据表明,Google拼音在4月6号和8号的两次升级过程中,剔除了搜狗词库中的大量词汇,使得其首词首选率大幅下滑,而点击翻页次数猛增60%。
附:搜狗拼音和Google拼音输入法所有功能对比大全
输入法所有功能对比大全 | |||
图例 √ 支持 × 不支持 * 不完全支持 | |||
搜狗3.0 | |||
基础功能 | 全拼 | √ | √ |
简拼 | √ | √ | |
立即转换/按空格转换 | √ | × | |
智能组词 | √ | √ | |
动态词频 | √ | √ | |
双拼 | √ | * | |
自带多种双拼方案 | √ | √ | |
词库备份 | √ | √ | |
词库恢复 | √ | √ | |
导入新词 | √ | × | |
删除用户词库 | √ | √ | |
高级功能 | 字母选词 | √ | × |
模糊音 | √ | √ | |
限制候选项个数或页数 | √ | √ | |
二三候选词 | √ | × | |
以词定字 | √ | × | |
选词 | √ | √ | |
删词 | √ | √ | |
字符集选择 | √ | √ | |
v模式英文输入 | √ | √ | |
中文数字大写 | √ | √ | |
自定义短语 | √ | √ | |
快速输入最近输入过的词 | × | × | |
特殊符号输入 | * | × | |
专业词库 | × | × | |
笔画输入或部首输入 | √ | √ | |
笔画或部首辅助码 | √ | √ | |
插入当前日期时间 | √ | × | |
程序自动升级 | √ | √ | |
词库自动升级 | √ | × | |
在线存储词库 | × | √ | |
词语联想或n键长词功能 | √ | × | |
个性化与外观 | 候选项个数设置 | √ | √ |
字体、大小、颜色设置 | √ | × | |
光标跟随/不跟随 | √ | √ | |
皮肤功能 | √ | × | |
自定义状态栏设置 | * | × | |
横竖排显示方式 | √ | × | |
拼音候选词分开显示窗口 | √ | × | |
自定义标点 | √ | × | |
皮肤制作 | √ | × |
|