本文章信息
作 者 资 料
作 者 首 页

我 要 收 藏
文 章 下 载
添 加 专 题
 >> IT写作社区闫辉《程序员》杂志

专访海量科技:让中文信息处理与世界同步

(这条文章已经被阅读了次) 时间:2003年12月12日 09:52 来源:闫辉 原创-IT

让中文信息处理与世界同步

-专访海量科技

 

前言:四十人的公司中有近十人从事基础研究,他们研究的汉语自动分词技术取得突破性进展,在北大人民日报一千多万汉字的人工语料上测试,分词准确率达到99.5%以上。原美国朗讯科技总公司副总裁叶祖禹博士以个人身份投资入股并出任公司董事,原Intel中国研究中心周富秋博士出任公司董事。这些都来自于一家天津的软件公司-海量科技。

 

“如果中文能像英文一样词之间也有空格,那我们公司也就不存在了。”海量科技总经理郝玺龙口中说这句话的时候,他显得轻松。然而,就是这样一个看似简单的问题却给中文处理带来了巨大的包袱,使得中文处理很难达到英文那样易用、精确的水平,并制约着很多中文应用领域,从中文智能信息处理到检索、分类,甚至到中文输入法,分词都成为了最大的绊脚石。“没有中文分词,其他一切深入的中文信息处理都无从谈起。”一位专家这样说。

 

正因为如此,国家投入了大量的人力物力研究中文分词技术。然而几十年过去了,中文分词准确率仍然在97%以下徘徊,而这3%的差误率便让很多中文信息智能处理的下一步工作无法开展。

 

200110月的一天,在Intel中国研究中心会议室,当中心副主任周富秋博士看到海量的分词演示效果时,非常惊讶。周博士是世界上著名的自然语言理解科学家,手下有来自多所著名学府的不同学术流派的博士。其中多项研究都是基于中文分词的应用技术,他深知该技术的难度。2002年,周富秋博士成为海量科技董事会董事。虽然现在他已经担任中兴通讯主管软件的副总裁,但只要一有机会,周富秋博士就指点海量智能计算技术的基础研究。

 

初步研究分词技术

 

到底海量科技是如何起步,瞄上中文分词技术的呢?这要从海量的总经理郝玺龙说起。

 

郝玺龙上大学时学的是情报专业,毕业后在一家上市公司作投资分析工作。1997年他开始构思自己的证券情报咨询服务,他知道分析工作必须基于庞大情报数据库。然而,实际操作中他发现中文情报资料库无法实现有效的查找,细究根源,竟然发现分词技术是整个中文信息处理的瓶颈。

 

在看过一些相关的资料和实例后,郝玺龙觉得有些思路,便开始在家里尝试。随着研究的深入,他逐渐意识到中文分词技术的价值远高于情报咨询。

 

当时的中文分词技术一般都是通过与词典的对比来区分词,而郝玺龙手头没有一个数字化的词典,打字速度也不快,于是他决定从另外的角度出发,研究没有词典的分词技术。

 

当然这个研究开始并不顺利。不过,一个偶然的机会,电视上播放原教育部副部长韦珏谈中国基因技术取得突破并申请专利的节目。韦珏举了一个例子:把基因片段从一个完整的DNA序列中分离出来,很难去切割,因为对一个基因序列来说,既没有尺,又没有刀。而中国的研究者提出了一种方法,将基因片段按照基本单元堆积,然后进行校验,使整体上分割的基因达到一个动态的最优。相当于假设很多片段,虽然它们之间有交迭,但每个片段都有独立性和完整性。最后再进行模型校验,从整体上判断是否具有完整性。通过这种方法证明每个基因的排列都是恰当的,实现基因片段的正确分割。听到这里,郝玺龙有些激动,因为这与在一个句子中如何判断和分词是异曲同工。

 

采用这种理论,又经过了长时间研究,他们创建了自己的中文分词算法。不过,在测试的过程发现了一个问题,这就是一些很难识别的词可能识别很准确,但容易识别的词却识别不对。于是,他们又引入了词典,并创建了一个动态分析的算法,叫无缝分析。这时他们的中文分词准确率一下就提升到了满意的效果。

 

有了这些突破,郝玺龙和其他两位创始人在199910月份注册了海量科技公司,主要以研究中文分词技术并实现应用化为主。

 

分词也是工程问题

 

郝玺龙表示,他们是以技术为核心的公司,核心团队尽管都不是专业出身,没有在学校进行过这方面的研究,但这也让它们摆脱了以前各种思想的束缚。

 

难理解的是,做中文分词却要摆脱“词”的束缚。郝玺龙表示,因为在汉语中“词”并没有一个准确的定义,有时候很难说这是不是一个词。其实分词是一种底层技术,其目的不是只为分词,而是为了如何更好应用。如果思想只限制在“词”这个层次,那一定会被“什么是词”这个无法得到答案的问题所束缚和迷惑。举个例子:‘鸡蛋’、‘鸭蛋’、‘照明’、‘照亮’这些词语,用户和专家的看法就不一样。在海量内部的理论研究小组,早就不叫分词,他们用更严格的叫法:切分单位的描述与识别。至于什么被定为单位就由应用来确定。就像《笑傲江湖》中令狐冲“无招胜有招”一样,当我们还在沉迷于“招式”奇妙的时候,又如何能够体会到武学的真谛呢!

 

摆脱了学术上的束缚,思想便得到了解放。海量科技在切分单位处理问题上提出了独特的看法:在不同应用中应该有不同的分词标准。

 

首先,各种应用对分词要求的颗粒度(切分单位的细致程度)是不同的。比如自动分类、关键词抽取比搜索需要的分词颗粒度要大,因为这样表示文本语义特征时效果会更好,而检索有一个查全率的要求,就需要把分词单位做的更为细致,不然就会造成漏查。到现在为止,海量已经做了五种类型的分词标准,分别是:检索、自动分类、聚类、自动摘要和关键词抽取。

 

新词的识别也是海量科技取得的重要突破。外来语音译词的识别一直是中文分词技术的难关,比如“摩托罗拉”这样的词汇,词典中根本没有,也不会收录,但如果分成“摩托”和“罗拉”,在应用中就会出现很多麻烦。而这种词汇在汉语中大量存在,而且每天都在出现。

 

海量科技开发了一套人机互动的半人工学习体系来解决新词识别的问题。这套体系可以学习,可以由人告诉计算机哪些分词可能是错误,并人为修正这种错误。系统再进行学习之后,会自动完善算法,分词的准确率就会不断提升。这也符合现代人工智能系统理论,就是用半自动代替全自动,通过自上而下的灌输,不断的学习,依靠人的智慧来提升系统的智能程度。

 

不过,以上都是单点的突破。分词不是一个算法所能描述的,它涉及了多个难点,比如交叉、组合歧义的分析、新词的识别、还有复合词的分析与识别,而这些识别之间又相互影响和干扰。在近三十年的分词研究中,很多高校的学者往往关注某一个难点的算法,例如交叉歧义,姓名识别等等,所以分词总体的准确率很难达到理想的效果。

 

随着海量科技对中文分词技术的深入研究,借助自身的某些单点算法突破和前人优秀的算法思想,郝玺龙和他的研究团队提出了中文分词技术的“复方概念”。复方是中药的术语,因为有些病很复杂,很多处方之间最后需要调理达到一个平衡。根据复方理论,把各种算法不拘泥于是统计算法还是基于规则,最后在一个评测层面上进行平衡,使之达到最好的分词效果,现在海量已经把分词中的部分技术注册了专利。

 

当郝玺龙总结海量分词的技术特点时,他说:“海量中文分词技术的核心特点是复方概念的应用,以及系统的半人工学习架构。该架构的设立使海量的分词准确率每天都在进步。因此中文分词不仅仅是个技术问题,也应该是一个工程问题。”

 

中文分词技术研究经验

 

做了这么多年中文分词和相关技术研究和开发,郝玺龙总结了一些经验。

 

好的评测带来满意研究成果。不管进行那一项研究,都首先需要建立一个能够量化的评测体系。郝玺龙认为,如果没有三年时间建立的分词量化的评测体系,不可能有今天海量的成就。因为评测体系可以使任何的算法改进得到直观体现。同时,评测也是衡量研究人员工作成果的标准。建立一个评测体系,一点不比研究本身简单。首先要定准确率标准、语料的标准、不同的应用、分词的不同词典、不同复合词构造标准和不同的语料。在标准的建立过程中,海量科技投入了巨大的人力物力。

 

不管是基础技术还是应用技术,中文智能计算的任何一个问题都是复杂问题,因此要专注。郝玺龙非常骄傲的是,他们的研究核心团队从创建之初到现在,没有人员流失。他说:“做这种事情会经历几个阶段,开始有一个突破,但会有一个停滞期,可能会徘徊很多年。这中间有诱惑,也有苦难。有人选择转变,有人选择放弃,而我们选择了专注和艰苦。公司的核心智能计算研究中心始终做基础研究,不承担任何项目的压力,从来不和客户打交道,考核他们就是看创新的成果和评测的指标。对于一个四十多人的小公司,有近十个人做基础性的研究工作,这不是普通公司所能做到的。”

 

第三点就是细致,细致是研究员必须的素质。郝玺龙说:“做基础研究工作需要像绣花般细致的工作。我们把几十万个中文词,反复整理,人工加注各种属性,尝试进行各种分类,这是细致而智力水平又很高的体力劳动,没有绣花的精神很难做到。”

 

 

未来公司技术的发展

 

郝玺龙认为,在分词技术取得突破的基础上,基于语义的智能计算技术将会有革命性的发展。同时应用技术的发展也必将推动分词的深入研究。下一个阶段的分词研究不是难点和特例的研究,而是分成什么样的形态和属性才能更好的满足不同的实际应用。

 

郝玺龙和他的同事们一直有个理想,这就是在未来几十年中,所有进行中文信息处理的计算机的底层系统上都运行着中文分词程序,在语义层面进行中文处理,让中文处理更智能、更高效。郝玺龙说:“语言、文字是一个国家、民族文化的载体,世界上很多曾经兴盛一时的民族,因为语言文字的失传而从世界文化之林中消失。如果国外的某个公司在这方面注册了专利,中国人每进行一次中文处理,还需要向别人付专利费,这是一件非常可笑和不能接受的事情。到那时,我们就会受制于他人,中文处理水平会落后于其他语言。我们一定要让最好的中文分词技术掌握在中国人自己的手中,让中文信息处理与世界同步。”

 

综述:

自从中国有了第一台计算机,中文技术就成为了关注的焦点。从最初的汉卡到后来的CCDOS,从五笔字型的发明到各种各样的中文输入法,从四通打字机到WPS,都在力图帮助中国人更好的使用计算机,进行中文信息处理。而当时的这些技术也催生了中国第一代的软件英雄。

然而,随着微软推出中文操作系统,很多中文技术被无情的吞没了,人去楼空。中文化技术还有没有市场,还有没有必要做中文化技术,哪些领域是我们可以做的?

海量科技的例子给了我们很好的启示。应该说,.之前中文化技术还是在I/O层面上,比如中文输入、输出等辅助性技术,这种技术壁垒不高,容易被操作系统所集成而失去市场。

在这种情况下,中文化技术的发展开始逐渐向系统更高层面,和中文本身更深层次的研究发展了。

中文的特点就是具有“音”、“形”、“义”,这些本质内容决定了中文与英文的差别所在,海量科技所研究的技术主要集中在了“义”这个范畴上并取得了成绩,汉王或者紫光这样的公司研究手写输入或者OCR技术是在“形”上做了很好的文章,而诸如科大讯飞这样做中文语音合成的公司更多的技术是在“音”上。这些公司所研究的技术因为更贴近于中文的本质,所以他们的研究更具有生命力。

此外,诚如海量科技的总经理郝玺龙所言,中文化技术的核心虽然不多,但由这个核心衍生出的各种中文化应用还是具有广阔的市场空间,尤其是在中文智能信息处理方面更是未来的发展方向。

当然,除了海量这样的公司之外,还有一些公司和个人也在做着同中文化技术有关的工作,比如汉语编程公司和易语言这样的编程语言产品。他们也在为中文化做着贡献,只是这些工作还有待于市场的进一步考验。

 

什么是中文分词?

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

要想说清楚中文分词的意义和作用,就要提到智能计算技术。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言。反观人类的语言,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。



批 注 该 文]    [采 用 该 文]    [发 表 评 论]    [文章下载]    [关闭窗口

相关批注:
暂时还没有媒体记者对这篇文章做出批注

相关采用:
暂时还没有媒体记者采用这篇文章

相关讨论:
文章评论:专访海量科技:让中文信息处理与世界同步         庄稼