战斗民族如何战胜谷歌,在人工智能领域取得一席之地?(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
如何确定分词的方式有很多种,比如正向最大匹配法,按照中文阅读习惯,从左向右分词;又比如最短路径分词法,把一段话切出的词数最少等等。这些只是比较传统的方法,现在还可以利用NLP技术,从语义理解上进行分词;利用邻近算法,看哪些相邻字符出现的频率最多,就按照这样的方式进行分词。
如何战胜谷歌?语言壁垒是关键
同样的概念,在Yandex的搜索引擎技术中也存在,只不过不叫分词技术,叫“морфология”这个词可以被理解为“词形”。
这就要谈到了俄语这门语言的特殊性,和中文、英语不同,俄语中词与词之间的关系通常用词形变化表示,于是,同一个名词可以有12个形式,形容词甚至能达到20、30个形式……所以,俄语中会有动名词、形名词这些奇怪的东西。
于是,因为俄语的特性,在搜索中非常容易引起歧义,对搜索的精度要求也更高。比如машиностроительный这个词,在俄语中意为“机械的”。在谷歌搜索中,可以找到与之完全匹配的网页,却很难找到有关机械形容词剩下的二十多个词形变化的网页。
而Yandex搜索引擎技术擅长的,恰恰就是关键词的多义分析和查找。也形成了一些Yandex独有的搜索方式,比如加上“”即可只搜索指定单词,不搜索变形词,也利用指令只搜索形容词形态、动词形态等等。
俄语属于斯拉夫语族内的东斯拉夫语支,也就是说白俄罗斯语、乌克兰语甚至捷克、波兰等等地方的语言都会都类似的语法形态。而Yandex的分词技术在这些语言中的表现也很出色。
凭借着语言优势上的独有技术,Yandex战胜了谷歌成为了俄罗斯本土最大的搜索引擎。而大量用户使用累积的数据,更让Yandex可以发展机器学习技术对算法进行进一步优化。放到整个NLP技术里也是一样,难怪Yandex可以在语音识别上获得不小的进展。
机器学习给了这个世界一个相对平等的机会,就算技术、资金相对落后,语言上的优势仍然可以树立起壁垒,更别提语料数据这一宝贵的数据。有Yandex的案例在先,是不是意味着那些基于泰语、印度语、阿拉伯语等等小语种的搜索引擎,也会在人工智能领域有着独有的优势?
看来除了中美之外,我们还可以把眼光放到更远的地方。
声明:本文仅为传递更多网络信息,不代表99科技网观点和意见,仅供参考了解,更不能作为投资使用依据。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn