主页 > 快资讯 > 正文

CDA数据人才必备:除了知识图谱,图还能做什么?

2021-09-27 14:51来源:今日头条编辑:毛青青

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  原标题: CDA数据人才必备:除了知识图谱,图还能做什么?

  提到图,大家可能不怎么了解,但是提到知识图谱(knowledge graph), 是当前的热门话题。近年来,各个行业涌现出大量的垂直应用及服务提供商,各个企业,从技术到业务的各个条线,纷纷学习知识图谱的概念、技术、建设方法。知识图谱,是对现实世界的抽象,通过点和边描述实体之间的关系,构成一个大型的语义网络,提供一种从关系的视角来观察世界的方法。但究其本质,知识图谱其实只是图的其中一种应用。那除了知识图谱,图还能做什么呢?今天CDA数据分析师小编就来解答这个问题。

  目的:

  跟大家讨论图到底是什么,不是通过生硬的概念,而是通过一些启发性的例子

  跟大家讨论,图分析的价值究竟在哪里

  如果真的要用图分析,我们需要一个大概什么样的路径

  提到一个新的东西,首先要知道它是什么。相信之前对图有了解的小伙伴,一下子就能说出图的概念:图(graph)是由一组或多组点以及点和点之间的关系(也被称为边)组成的。比如知识图谱,实际上是把知识提取出来做连接,如果仅仅是把数据连接起来,那可能只是一个数据图谱。但是在我们与客户实际交流的过程中发现,只知道图的概念,是没办法真正切换到图的思维方式的,而图的思维方式,对于重新思考业务,有着非常大的价值。

  什么是图的思维方式呢?让CDA数据分析师小编举个例子,这个场景大家一定不会陌生。

  白板是公司里最常使用的工具之一。当遇到一个问题需要群策群力的时候,我们会召集一些小伙伴,到一个会议室里进行头脑风暴。首先,抛出几个议题,大家发散思维,将想到的东西尽可能多的写在白板上。然后,将这些信息进行分类、排序,或者绘制一些流程。当苦苦思索,陷入僵局的时候,我们会紧盯着白板上的信息,飞快地运转自己的大脑,期望能想出一些新的点子。忽然,灵光一现,可能是白板上的某些东西和自己脑中的信息产生了碰撞,也可能是白板上某些信息之间,貌似有一些新的联系,就这样,一个新的点子产生了,我们可以就这个点子进行新的讨论,并重复这个过程。而解释这种想法,我只需要把自己的想法写在白板上,并重新理清关系。

  听起来很熟悉吧?没错,这其实就是我们自然的思考方式,也就是图的思维方式。这个栗子中,最重要的是联系(connection),我们需要把每个人脑中的信息联系起来,去发现一些新的东西,同样地,当我们向别人解释自己的想法,用图的方式去解释这些信息如何联系在一起,构成一个想法,别人也更容易接受。

  在侦探电影中,我们经常看到侦探把案情的所有信息贴在墙上,去发现里面一些隐藏的关系,因为这很有可能是破案的关键。如果家里的实体书种类繁多,散落在各处,我们在思考的时候,很有可能偶然看到某本书,想到了其中的某些内容,把它们和思考的内容结合起来产生一些新的想法。跨学科思维,其实也是将一些可能看起来毫不相干的内容联系起来,产生新的想法或者解决方案。

  所以图思维,核心是联系(connection),当我们思考的重点在于事物之间如何联系,或者期望通过联系事物去产生一些新的思考的时候,其实已经运用了图思维。

  而意识到这是一种图思维,会有什么样的意义呢?还是举个例子,这其实会让我们多一种解决问题的方式。

  这是斯坦福大学《数理逻辑与人工智能》中的一个问题。

    看到这个问题,不妨停下来思考一下,你会如何解决这个问题。

    下面是我们运用图的思维来解决这个问题的方法。

    边用来表示每个儿子的不确定边,连接两个可能情况。比如红边用来表示大儿子的不确定边,红边连接的可能情况中,A2与A3的情况是完全相同的,所以大儿子没办法确定到底是哪种情况。依此类推,蓝边代表二儿子的不确定边,黄边代表三儿子的不确定边。

    第四个条件,三儿子说,知道,我额头上有泥。可以看到,剩下的可能情况中,没有三儿子的不确定边,而所有的这些情况中,都是三儿子额头上有泥的情况。

  看到这个问题的第一反应,你可能会想着用纯逻辑推理的方式来解决这个问题。但是如果用图的思维方式,我们将解决问题的重点放到了情况之间的联系上。我们可以先构造一个认知图(Epistemic graph),去看每个人的认知和可能情况之间的联系,然后根据条件结合每个结点的邻边,不断缩小图中的结点的范围,最后推理出结论。这种方式会让这个问题变得更加简单。

  图是一个高度抽象的模型,数据中的各种关系都能用图表示。图中的点和边,可以非常灵活,不局限于现实意义的实体。最直接能想到的当然是某个人可以是点,某个产品可以是点,它们之间的联系是边;路口是点,路口与路口连接的XX路是边。但你完全可以把某个产品的某个特性抽象成点,比如颜色、重量;XX路抽象成点,路口也抽象成点,XX路和YY路的连接是边。甚至再扩展到一些虚拟的实体,比如可能的情况是点,某笔交易是点,某个订单是点。甚至到某些分子是点,分子之间的连接是边(没错,图是可以用在化学/生物等学科上的)。图由你自由定义,可以连接人,连接物,连接知识,连接数据,连接规则,连接过程,连接抽象的和实际的实体。

  图能给企业带来什么价值呢?上述的两个例子可能已经给了你一些启发。CDA数据分析师小编认为图非常擅长通过联系发掘数据中隐藏的价值。在国外,其实已经有非常多行业的客户在用图做实际应用,囊括了能源、电信、政府、医疗、金融、电商等各个行业。图本身并不是一个垂直行业的技术,而是通用的技术。

  国内的应用场景主要集中在金融行业。当然,图用来做反欺诈、反洗钱等,是非常适合的,这些也是很成熟的应用。其他行业为什么没有对图进行大规模的应用呢?其实是因为,对图有了解的人,基本集中在学术和计算机领域。而想要将图的价值发挥出来,需要业务人员的参与和思考,因为业务人员是最懂业务的。理解和使用图的思维方式,是应用图解决实际问题的第一步。

  我们通常把这种用图去分析问题的方式叫做图分析(Graph Analysis)。我们认为,如果想要应用图分析给企业带来真正的价值,需要图的思维方式(产生需求&问题)+企业数据(解决问题的数据基础)+解决方案(解决问题的方法)+工具(选择合适的工具解决问题)。

  图的思维方式

  由于历史原因(有兴趣的小伙伴可以了解一下数据库的历史,导航数据库-关系型数据库-nosql数据库-图数据库),当我们思考业务和数据结合的时候,往往会考虑技术的限制,应用关系型数据库的方式,也就是用表的思路来思考,这会极大的限制我们的思路。而现在有了新的工具——图数据库,可以将我们的想法更直接的与工具结合,不需要再将最初的想法打碎成一个个表格,再通过表格来表示实际业务。

  举一个企业反薅羊毛的实际场景,薅羊毛是指商家或金融机构为了拉新会举办一些推广活动,比如每邀请一个新用户注册,可以获得一定的积分奖励,这些积分可以兑换现金、优惠券或者奖品。活动上线会吸引黑产团伙,这给推广方造成了大量的资金浪费。薅羊毛和反薅羊毛成为了黑产团伙和推广方之间的博弈。

  针对这种推广活动,关系型数据库里最简单的存储方式是分为邀请注册表和积分兑换表两张表,通过统计的方式去识别黑产团伙,比如每个独立设备登陆的账户数,每个IP上登陆的账户数等等。然而黑产团伙可以通过群控设备,虚拟IP等等技术来绕开这些检测。

  但如果转换成图的思维方式,着重从关系的角度去分析,会发现一些非常有趣的模式。用户邀请注册的这些新用户,他们既没有产生新的交易,也没有邀请新的人,甚至还按时间形成非常有序的排列,这毫无疑问也是薅羊毛的一种模式,单纯通过统计很难发现。

  所以第一步,需要业务人员切换到图的思维来重新思考业务,找到那些以前解决困难或者解决不了的复杂业务问题,尝试用图的思维方式来解决,甚至找到一些新的业务价值点。

  企业数据

  我们的想法往往需要通过数据分析来验证或者落地。当我们的数据量巨大,且类型复杂的时候,单纯的统计分析已经没办法满足我们的需求了。业务人员在进行探索式分析时,需要多维度思考,落地到关系型数据库里,就体现为多表关联,在数据量巨大的时候,这对关系型数据库是个灾难。而采用数据仓库和大宽表的方案也不尽如人意。本质上是因为,这些技术的重点并不是在数据之间的关系上。在应用图分析平台,CDA数据分析师小编认为业务人员和数据分析人员,都可以从数据的角度出发,去做一些探索,找到一些隐藏的联系。尝试从关系的角度,发掘出新的价值。

  解决方案

  当有了想要解决的问题和解决问题的数据基础,还需要解决问题的方法。我们可以把行业经验和图算法结合起来。比如,我们想要发现一些隐藏的洗钱团伙,欺诈团伙,可以用图中衡量群体度的算法——鲁汶算法(Louvain Modularity);我们想要找到所有客户中最有影响力的人(KOL),可以用图中衡量中心度的算法——页面排名算法(PageRank)。业务人员、数据分析人员、IT人员都可以参与到其中,包括一些经验丰富的解决方案提供商,都是我们有力的帮手。

  工具

  从业务的探索到最后的落地应用,需要一个安全易用、稳定可靠的工具支持。更重要的是,要选择合适的工具。

  首先,是否传统的关系型数据库就能解决这个问题,或者图数据库才能解决这个问题,还是需要多种工具结合使用。

  再者,关于工具本身的功能。业务人员可能更加关注探索与交互的易用性;开发人员可能更加关注开发的便捷性,语言是否强大;运维人员可能更加关注系统管理、资源监控。不同的角色有不同的关注点,这都是工具需要解决的问题。

  看完上述四个步骤,你肯定会有很多问题,比如,怎么从数据的角度在图中做探索呢?有没有什么已经落地的,图的解决方案?关于企业不同角色对于工具的关注点,TigerGraph能够满足吗?由于篇幅有限,这些问题,我们会在后续的内容中一一解答。

  最后,CDA数据分析师小编总结一下,除了知识图谱,图还能做什么呢?Think in graph, and you will find it.

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
科学数据基因组SDH2.0重磅发布:创腾科技破解药 科学数据基因组SDH2.0重磅发布:创腾科技破解药

5月26日,创腾科技携手新药创始人俱乐部,成功举办数据智能驱动,加速产品研

快资讯2022-06-01

西部数据推出模块化高性能存储解决方案,助力 西部数据推出模块化高性能存储解决方案,助力

全新解决方案旨在进一步实现省时高效的更优工作流程 2022年5月26日, 上海 西

快资讯2022-05-27

工信部部长肖亚庆:2021 年大数据产业规模突破了 工信部部长肖亚庆:2021 年大数据产业规模突破了

原标题:工信部部长肖亚庆:2021 年大数据产业规模突破了 1.3 万亿元 26日讯,

快资讯2022-05-26

飞桨      数据:477 万开发者,56 万模型,服务 飞桨 数据:477 万开发者,56 万模型,服务

原标题:飞桨 数据:477 万开发者,56 万模型,服务 18 万企事业单位 5月2

快资讯2022-05-20

银保监会新规:不得强制捆绑、搭售产品,不得 银保监会新规:不得强制捆绑、搭售产品,不得

原标题:银保监会新规:不得强制捆绑、搭售产品,不得利用痕迹数据开展未经

快资讯2022-05-19

董明珠澄清与格力地产无关,称要将格力打造成 董明珠澄清与格力地产无关,称要将格力打造成

原标题:董明珠澄清与格力地产无关,称要将格力打造成培育人才的基地 5月

快资讯2022-05-11

绿盟科技参与编写的《数据安全法》实施参考( 绿盟科技参与编写的《数据安全法》实施参考(

原标题:绿盟科技参与编写的《数据安全法》实施参考(第一版)发布 近日,

快资讯2022-04-27

某公司向境外出售中国高铁数据 不由得让我们警 某公司向境外出售中国高铁数据 不由得让我们警

原标题:某公司向境外出售中国高铁数据 不由得让我们警惕 在4.15国家安全日来

快资讯2022-04-15

华为员工越权访问机密数据被判刑 对获刑员工出 华为员工越权访问机密数据被判刑 对获刑员工出

原标题:华为员工越权访问机密数据被判刑 对获刑员工出具谅解书 4月12日上午

快资讯2022-04-12

IBM 出售沃森医疗的数据分析资产 咨询公司:其竞 IBM 出售沃森医疗的数据分析资产 咨询公司:其竞

原标题:IBM 出售沃森医疗的数据分析资产 咨询公司:其竞争力弱于其它巨头 1

快资讯2022-01-23