搜狐首页-新闻-体育-娱乐-财经-IT-汽车-房产-家居-女人-TV-ChinaRen-邮件-博客-BBS-搜狗 

数码天下 > 网狐学院-全中国人的电脑学习中心 > 网络应用-网狐学园 > 搜索引擎
我搜故我在--搜索引擎产品的工作机制揭秘(图)
时间:2006年09月04日23:52 我来说两句  

 
来源:计算机世界

25亿像素的大照片
P2P视频下载60%为情色
两大浏览器龙虎争霸
最佳创意产品NuLOOQ
迅雷存在严重DDOS漏洞
Windows的环保卫士
Vista和XP响应速度相近 用注册表砌安全墙
插件让IE向Maxthon看齐 把摄像头变3D扫描器
搜狐数字艺术博客大赛 低端显卡Aero亦流畅
搜狗拼音输入法 | 暴风影音 | WinRAR | FlashGet | 瑞星卡卡 | Firefox | Picasa
搜狗工具条 | ACDSee | Maxthon | Internet Explorer | Windows Live Messenger



  搜索引擎的中文分词技术

  中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动分词的速度和准确度。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此,搜索引擎对分词的准确性和速度都提出了很高的要求。

  目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同,机械分词方法又有如下几种算法: 正向最大匹配算法、逆向最大匹配算法、最少分词算法等。这种方法的优点是分词的速度快,准确度有一定的保证,但对未登录词的处理效果较差。实验结果表明: 正向最大匹配的错误率为1/169左右,逆向最大匹配的错误率为1/245左右。另一种比较常用的中文自动分词方法是基于统计的分词方法,这种方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词,对常用词的识别精度较差,时空开销也比较大。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配分词速度快、效率高的优势,又利用了统计分词中新词自动识别和自动消除分词歧义的特点。

  分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,词典太大或太小都是不合适的; 辞典太小,有些词切分不出来,辞典太大,切分过程中起义现象将大大增加,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题一直是该领域研究的热点。

  1. 歧义处理

  歧义是指可能有两种或者更多的切分方法。例如: “表面的”这个词组,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面+的”和“表+面的”。这种称为交叉歧义。像这种交叉歧义十分常见,“化妆和服装”可以分成“化妆+和+服装”或者“化妆+和服+装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必须根据整个句子来判断了。

  例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词; 在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

  即使交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词、哪个应该不是词。例如: “乒乓球拍卖完了”,可以切分成“乒乓+球拍+卖+完+了”、也可切分成“乒乓球+拍卖+完+了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

  对歧义现象的处理方法一般采用类似于动态规划的算法将歧义问题的求解转化为一个优化问题的求解。在求解过程中,一般使用词频或概率等辅助信息求得一个最大可能的分词结果,这个结果在某种意义下是最佳的。

  2. 未登录词处理

  未登录词就是分词词典中没有的词,也称为新词。最典型的是人名、地名、专业术语等。例如,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如: 在句子“王军虎头虎脑”中的,“王军虎”还能不能算词?

  未登录词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前,对未登录词的处理一般采用统计的方法,首先从语料中统计出出现频率较高的字组,然后按照某种规则把它们作为新词添加到辅助词典中。

  目前,中文自动分词技术在搜索引擎中已经得到广泛应用,分词准确度已经达到96%以上,但是在对大规模网页进行分析处理的时候,现有的中文自动分词技术还存在许多不足,例如上面提到的歧义问题和未登录词的处理问题等。因此,国内外的科研院校,如北大、清华、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都一直关注并研究中文自动分词技术,这主要是因为网络上的中文信息越来越多,对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市场,存在无限的商机。但是,中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品,还要在基础研究方面和系统的集成方面做许多工作。

  搜索引擎面临的挑战

  目前的搜索引擎不可能做到“博大精深”,这是因为它们是矛盾的两个方面,不可兼得。随着互联网信息的急剧增长,关于搜索引擎的“博大”越来越难实现,从利用信息的角度也完全没有必要,“精深”反而是人们越来越重视并追求的指标。另外,多层次的搜索服务体系远远没有建立起来,传统搜索重导航作用、轻精准信息服务,就像行人问路,行人需要的不仅仅是方向,还要知道具体的路标指示。

  现在人们经常谈论下一代搜索引擎,那么,下一代搜索引擎与第二代搜索引擎有什么不同?又有什么关系?它应该包括哪些功能?这些都是应该回答的问题,但答案是众说纷纭。也许下一代搜索引擎融入了更强劲的智能化、人机交互等方法来改善相关度的计算,也许下一代搜索引擎不仅仅运行在大规模服务器上,更有可能的是运行在共享计算资源的个人电脑集群上,或者植入“搜索芯片”中,也许其索引库的边界已经模糊、也许更加清晰,也许当下搜索巨头通过资金、品牌等人为地不断树立的商业壁垒,终究抵挡不住创新搜索技术的颠覆,正如当初Google将Altavista无声地瓦解一样。


[上一页][1][2][3][4][下一页]

(责任编辑:韩建光)


我来说两句 全部跟贴 精华区 辩论区

用户:  匿名发表:  隐藏地址:
*用搜狗拼音输入法发帖子,体验更流畅的中文输入>>

设为辩论话题      


精彩图片新闻


激情四溢沙滩宝贝


数码公社专栏

相关链接





搜狐短信 小灵通 性感丽人 言语传情
三星图铃专区
[周杰伦] 千里之外
[誓 言] 求佛
[王力宏] 大城小爱
[王心凌] 花的嫁纱
精品专题推荐
短信企业通秀百变功能
浪漫情怀一起漫步音乐
同城约会今夜告别寂寞
敢来挑战你的球技吗?
 精彩生活 

星座运势 每日财运
花边新闻 魔鬼辞典
情感测试 生活笑话


今日运程如何?财运、事业运、桃花运,给你详细道来!!!





菊花台
迷迭香
青青河边草
丁香花
原来你也在这里
爱如空气
不要再来伤害我

公社热图


·北美惊现若干神秘UFO/图
·范冰冰真空写真露点[图]
·传说中国内第一美女车模


频道精彩推荐

·俄客机坠毁170人遇难
·莫斯科市场爆炸事件
·重庆遭遇特大旱灾
·2008奥运会 NBA 科比 F1
·男篮世锦赛 姚明 王治郅
·美网公开赛 刘翔 篮球
·中网公开赛 体育彩票
·派朗 suv 跑车 微型车
·一汽奔腾 福美来2代
·九寨沟 国美收购永乐






不怕不怕
吉祥三宝
桃花朵朵开
千里之外
大城小爱
梁祝
迷糊娃娃可爱粉红卡通
四季美眉给你最想要的

news
搜狐分类 ·搜狐招商


创意就是这么简单
女星豪乳尺码大曝光
·现场抓拍明星着透视装
·芙蓉二代横空出世
·央视女主持辞职拍艳照
·徐若瑄15岁全裸写真曝光
·拍摄:娱乐圈性交易过程
·抓拍模特海滩宽衣解带
·外国女生流行拍的艺术照
·台湾十大波霸照片大比拼
·网络美女全裸人体摄影
·范冰冰终于还是脱了

推荐企业
2006年世界电信展 诺基亚 瑞星 联想 摩托罗拉 三星 清华紫光 金山 索尼爱立信 索尼
给编辑写信



设置首页 - 搜狗输入法 - 支付中心 - 搜狐招聘 - 广告服务 - 客服中心 - 联系方式 - 保护隐私权 - About SOHU - 公司介绍 - 全部新闻 - 全部博文
Copyright © 2018 Sohu.com Inc. All Rights Reserved. 搜狐公司 版权所有
搜狐不良信息举报邮箱:jubao@contact.sohu.com