战斗民族如何战胜谷歌，在人工智能领域取得一席之地？(2)

2017-11-04 15:20来源：钛媒体脑极体编辑：李超群

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

　　如何确定分词的方式有很多种，比如正向最大匹配法，按照中文阅读习惯，从左向右分词;又比如最短路径分词法，把一段话切出的词数最少等等。这些只是比较传统的方法，现在还可以利用NLP技术，从语义理解上进行分词;利用邻近算法，看哪些相邻字符出现的频率最多，就按照这样的方式进行分词。

　　如何战胜谷歌？语言壁垒是关键

　　同样的概念，在Yandex的搜索引擎技术中也存在，只不过不叫分词技术，叫“морфология”这个词可以被理解为“词形”。

　　这就要谈到了俄语这门语言的特殊性，和中文、英语不同，俄语中词与词之间的关系通常用词形变化表示，于是，同一个名词可以有12个形式，形容词甚至能达到20、30个形式……所以，俄语中会有动名词、形名词这些奇怪的东西。

　　于是，因为俄语的特性，在搜索中非常容易引起歧义，对搜索的精度要求也更高。比如машиностроительный这个词，在俄语中意为“机械的”。在谷歌搜索中，可以找到与之完全匹配的网页，却很难找到有关机械形容词剩下的二十多个词形变化的网页。

　　而Yandex搜索引擎技术擅长的，恰恰就是关键词的多义分析和查找。也形成了一些Yandex独有的搜索方式，比如加上“”即可只搜索指定单词，不搜索变形词，也利用指令只搜索形容词形态、动词形态等等。

　　俄语属于斯拉夫语族内的东斯拉夫语支，也就是说白俄罗斯语、乌克兰语甚至捷克、波兰等等地方的语言都会都类似的语法形态。而Yandex的分词技术在这些语言中的表现也很出色。

　　凭借着语言优势上的独有技术，Yandex战胜了谷歌成为了俄罗斯本土最大的搜索引擎。而大量用户使用累积的数据，更让Yandex可以发展机器学习技术对算法进行进一步优化。放到整个NLP技术里也是一样，难怪Yandex可以在语音识别上获得不小的进展。

　　机器学习给了这个世界一个相对平等的机会，就算技术、资金相对落后，语言上的优势仍然可以树立起壁垒，更别提语料数据这一宝贵的数据。有Yandex的案例在先，是不是意味着那些基于泰语、印度语、阿拉伯语等等小语种的搜索引擎，也会在人工智能领域有着独有的优势?

　　看来除了中美之外，我们还可以把眼光放到更远的地方。

　　声明：本文仅为传递更多网络信息，不代表99科技网观点和意见，仅供参考了解，更不能作为投资使用依据。

投稿邮箱：jiujiukejiwang@163.com 详情访问99科技网：http://www.fun99.cn

共2页:

相关推荐

李子柒王者归来！停更四年后她如何重拾顶流光

原标题：李子柒王者归来！停更四年后她如何重拾顶流光芒？在长达1200多天的

互联网+2024-11-13

人人都能学AI！AI成热门专业背后人才培养如何破

原标题：人人都能学AI！AI成热门专业背后人才培养如何破局近日，2024年高考

互联网+2024-07-14

Twitch如何解决直播版权问题？音乐人怎么才能吃

原标题：Twitch如何解决直播版权问题？音乐人怎么才能吃到直播行业2000亿的蛋

互联网+2024-06-24

图灵测试2.0 如何判断AI到底能干什么不能干什么

原标题：图灵测试2.0 如何判断AI到底能干什么不能干什么图灵测试本身是一个

互联网+2024-06-21

AI变革时代算力基础设施如何赋能数字中国？

原标题：AI变革时代算力基础设施如何赋能数字中国？ AI技术也成为当下建设数

互联网+2024-06-03

马斯克：推特仍拒绝解释是如何计算出虚假/垃圾

原标题：马斯克：推特仍拒绝解释是如何计算出虚假/垃圾账户占比为5%的，非常

互联网+2022-05-22

长沙个人所得税怎么交长沙个人所得税如何交

原标题：长沙个人所得税怎么交长沙个人所得税如何交 1、在某网站搜索湖南地

互联网+2022-04-24

海外版抖音TikTok是什么，如何利用TikTok赚钱？

原标题：海外版抖音TikTok是什么，如何利用TikTok赚钱？一、什么是TikTok？ Tik

互联网+2022-04-20

市场震荡之后我们该如何看待中国互联网

原标题：市场震荡之后我们该如何看待中国互联网即将过去的3月，在中国互联

互联网+2022-03-30

社区传媒突破场景限制 “新潮传媒”们该如何逐

原标题：社区传媒突破场景限制新潮传媒们该如何逐鹿市场？你在电梯里的时

互联网+2022-03-26

头条资讯

推荐资讯