知识图谱_标签_开发者

博客(251)
视频(12)
论坛(0)
云声(21)
代码示例(0)

[SaaS] 国内外知识相关SaaS的洞察与思考（上篇：Guru & Zendesk）

前言前阵子规划知识相关的能力，领导提醒我们，应该看看国内外的知识SaaS。不看不知道，一看吓一跳。国外SaaS和国内SaaS洞察完，不客观、不公正的直观感受是：国外：市值真高，生态真丰富，对SaaS理解真深刻国内：价格真便宜，竞品真多，互相之间协同真少如果国内外粗略对比一下，个人觉得，作为一个合格SaaS的灵魂三大件 - 逻辑多租、三方生态市场、客制化能力，国内SaaS产品后两项成型的少，还是感受到了差距。下面是我的洞察报告，整体思路是围绕两个大类的SaaS开展：Knowledge Management SaaS（知识管理垂域SaaS）Customer Service SaaS（客户服务SaaS）计划国内外各选一对产品，来详细展开：国外选Guru & Zendesk，国内选语雀 & 网易七鱼。过程中看过的一些大大小小的产品，确实能力各有千秋，但基本类似，选TOP SaaS代表性是足够的。PS：之所以这么选，是想从广义和狭义知识管理角度来开展分析。狭义看，就是做好知识管理自己，KM SaaS最合适；广义看，要支撑业务，而客户服务是知识管理的最佳场景，没有之一。本篇洞察分三篇完成：上篇：国外 -- Guru & Zendesk中篇：国内 -- 语雀 & 网易七鱼+Udesk下篇：知识SaaS之我见（没写完，下周更...）目录[TOC]1. 需求为了不盲目的洞察，我还是先圈了一下基本的需求，下面以此为纲，开展分析。1.1 对知识库的需求我们需要找的知识库，应该具备以下三个能力：CMS：提供知识内容管理能力，尤其聚焦OGC方面（OGC的特色，就是企业付钱生产的知识，比如客服案例、SRE SOP，乃至架构文档、流程文档等）易编写：知识编写方面，支持富文本是基础，更好的是支撑Notion式的开放性block，最好也支持在线协同编辑可集成：提供丰富的集成和被集成能力（从周边系统汇聚知识，或集成到各种触点供消费）客制化：支持可编排的知识评审、质检等流程；支持可配置的KOS；支持自定义的知识模板和元数据（这些因场景而异，属于开放性的一部分，最好是有能力支撑定制，实在没有，支持外挂也行）1.2 对客服系统的需求我们需要找的客服系统，应该具备以下四个能力：工单管理：工单的生命周期管理，包括响应的SLA提醒智能客服：机器人客服，是云客服当前具备的能力，越智能越好（如支持意图和流程编排、丰富的卡片式互动、意见收集、丰富的能力扩展）电话客服：人工电话客服，也是云客服当前具备的能力，最好支持智能摘要在线客服：人工在线客服，当前云客服不具备（曾经拥有，后来拿掉了，原因不详），需要在线坐席管理功能强大（从坐席排班、分流、流转），另最好有坐席辅助功能（帮助坐席推荐话术、智能客服协同等）2. 国外：Guru & Zendesk2.1 About Guru国外的Knowledge Management SaaS不少，Guru算是大家提到比较多的，实力综合TOP1（参考下表）。另外，有很多SaaS功能类似，但是分类在Customer Service SaaS下面，所以整体看会更多（比如Bloomfire）PS：国外SaaS的评分网站，找到好几个，这块感觉国内还是散的，该有个。供参考GetLatka - 大大小小都有、Cloud100 - 最小的约20亿$、Saastr - 热点汇聚2.1.1 需求1：CMSGuru抽象了几个概念：Card：所有的知识都是一个卡片，无论生产和消费Verification：所有的知识，强制有校验机制，包括校验人和校验周期因此，Guru在CMS方面，Verification切中了OGC知识的高质量要求（一定要有人看护），值得借鉴。但是我们想要的，围绕OGC的评审、发布流程的能力，是没有的。2.1.2 需求2：易编写知识内容书写方面，Notion已经定义了未来的文档编写模式，参考即可，就看谁参考的好。Guru支持了基本的block类型，包括章节、图表、附件、代码、iframe等，但是暂时不支持三方扩展，只支持通过iframe嵌入一些面板来扩展，这个不如Notion。在协同上，支持Comments，可以通过@一个人，提醒谁来处理（但是不支持针对某些文字的批注）。每个Card都自带一个Analytics，可以分析有多少人访问了，多少人打开了。卡片支持Archive操作，归档以后搜索不到。2.1.3 需求3：可集成Guru提供了5种集成方式，除了传统的SSO和API，前面三个更值得关注：Apps：与两种APP进行集成，一类是Featured Apps，Guru作为三方插件，集成到其他系统里（Chrome插件、办公协同工具插件，个人非常喜欢这些插件）；一类是Workflow Apps，Guru的动作与外围App的动作编排起来（业务动作编排，iPaaS的范畴，属于SaaS生态互动的一部分）Knowledge Syncs：同步知识，就是以Guru为知识中心，从外围同步知识过来，当前知识了Zendesk、Confluence、Salesforce，当然也支持手工导入AI Suggest Text：基于一些场景，提供AI建议（比如Zendesk里的一个Ticket，可以触发Guru的知识推荐，推荐相关卡片）2.1.4 意料之外的功能这里我想提几个Guru很有趣的功能：Pre-populated Collection Framework：创建一个Collection（知识集）的时候，可以选择一些模板，模板里带了一些规划好的知识集目录树 Knowledge triggers and alerts：通过Chrome插件，识别触发Trigger的条件，然后进行响应，这个体验很不错，而且对网站无侵入实现知识推荐。比如当打开某个网站，且内容中包含哪些特定的内容时，推送某些知识卡片（类似规则匹配的推荐，属于AI Suggestion功能的手动版，感觉场景有限，不如加钱买AI推荐）Ask an Expert：专家问答，提问一个问题，然后通过一个卡片来回答，最终知识还是沉淀成了一个卡片。这个功能配合AI Suggest Expert会帮助用户推荐答题者（根据专家的过往画像匹配）。有个设计细节，一个问题只能有一个卡片对应，其他人只能增加Comments，这个很有趣，我跟研发知识专家徐罡讨论的时候，他也建议企业知识问答，应该共同维护一个结果。2.2 About ZendeskZendesk与Guru不同，这是一家上市公司（2019年上市，当前市值110亿美金 -- 2022年6月初的数据）。看Customer Service SaaS排名，Zendesk前面几家没一个是纯粹的SaaS。InterCall是电信公司、Exela是做BPC的、Quadient是老牌邮寄设备公司（1924年成立的Neopost）。且看市值，InterCall被WSTC收购以后退市了，Exela市值60M$，Quadient德国公司市值6亿欧。所以，综合来看，这行里Zendesk算头部公司了。Zendesk的页面整体很清爽，右侧可以切换功能，共包括：Support - 即工单管理Guide - 即Help CenterGather - 和Guide是一个（是Help Center中对内的一个栏目）Chat - 在线客服Talk - 电话客服Explore - 数据分析Sell - 一个简单的CRM系统，从Leads到Deal（核心是电网销）2.2.1 需求1：工单管理Zendesk的工单管理，提供了对话式的交互面板，空间很开阔。支持图文、附件的交互，也支持嵌入一个知识联接。右侧是Zendesk的特色，支持三个侧边窗：User Profile：用户的基本情况、用户的过往交互情况（仔细看，这里记录了这个用户提了哪些单子、访问过哪些帮助文档、打过什么电话...）Knowledge：基于这个Ticket推荐的知识（从Zendesk知识库获得）Apps：从Zendesk的App市场下载并安装的APP（关于Zendesk的Marketplace，非常秀，下面详细介绍）我还在这里看到一个很有意思的功能：Redact，即Mask掉一些信息，而且不可逆，类似于给Ticket脱敏的感觉。当然，客制化能力，是软件能成为SaaS的核心。工单的Workspace是可以修改和拓展的，包括Ticket View（分类视图）、Macros（快捷回复）、Dynamic content（一些套话）等等。同样，工单的Form、Fields、Tags也都可以自己定义和拓展。2.2.2 需求2：智能客服其实Zendesk并没有在显著的位置放一个产品，叫智能客服，而是隐藏在Admin Center里，具备基本的机器人场景编排能力，但是并不够强大。比如问答语料、图谱问答之类的能力都是没有的，更像是坐席的辅助。但是，Zendesk有APP市场，里面搜bot，能搜出一两百个，当然Ada是很有名的一个（不知道算不算最），我认为这是SaaS最有魅力的一点，有人搭台，有人唱戏，不要全套，要生态。然后再看Ada的APP市场，Zendesk也在里面，当然Salesforce、Shopify当然也在的。我中有你，你中有我。所以，单独讨论Zendesk的CX Bot能力怎么样？我觉得能力很一般。但是Zendesk里能用Ada，很牛，很厉害，啥都有了。2.2.3 需求3：电话客服咱们云是有400热线的，但没有在线客服，所以优先看了电话客服。这里可以选购一个国家的号码，然后配置激活一个电话线路。开启后，其实没有特别的Console页面支持电话客服功能，而是融入了Agent Workplace，跟工单在一起，右上角激活了“电话”按钮。我试了一下，基本算开箱即用，互动的录音默认就开启了，从通话到工单的流转，也是默认就通的，基本上啥也没做就能用了。这里有个小细节：呼入电话后，Ticket是在Agent Workspace里自动建好的，输入框处自动切换成Internal Note。另外，这个底色也是自动切换成浅橙色的，很方便区分出来是回复给客户的，还是自己留档的Admin Center里还包括了很多细节配置，包括IVR拨号菜单、预留的响应录音（Greetings），还提供了坐席和花费情况的看板。这块我之前没有用过其他产品，觉得还不错。2.2.4 需求4：在线客服在线客服产品形态跟电话客服一样，也是没有自己的Console。融入到了Agent Workplace的右上角，同样，Message也可以创建和关联Ticket。个人理解，其核心能力，是一个渠道类的产品，Web Widget只是一种渠道，还有很多其他的，比如微信、钉钉、FB、WhatsApp等等。 Zendesk天然集成了一些渠道，并且提供了Web Widget。所有的渠道最终都汇聚到Zendesk的Message引擎里，而响应上，Bot是其中一种，Agent也是一种，更多是一种分流（Routing、Trigger）。因为我们网络屏蔽了IM功能，所以我没能尝试。2.2.5 其他功能：帮助中心、数据分析和CRM帮助中心：Zendesk的帮助中心和社区是一个东西，或者说社区是帮助中心的子集。能力最牛的是样式定制。提供了三种玩儿法：简单无码配置一个高代码写一个从Theme市场买一个（真卖钱，跟华为主题卖钱一样） PS：这三板斧，我觉得是一个SaaS的基本素养，非常值得学习 PPS：思考：从产品划分上，我们的工单、机器人、案例库、帮助中心，当前的几个IT产品，是否太散了呢？数据分析：Zendesk不仅开放了一些自助分析能力，还把数据集也开放了，全给到用户，支持用户自助分析，这在产品设计的时候是要考虑进去的，很不错 CRM：我觉得，是个比较简单的CRM，跟Salesforce比的话。点进去发现URL都换成了app.futuresimple，搜了一下，果然是18年收购的一家公司，做电网销CRM的。粗略看了下，有几个有趣的能力：Reach，提供了600万+的企业名录，及企业里的人（还有职位信息），可以基于这些数据创建一些Leads。我找了我们团队CRM的专家来点评，她认为这个功能最特别，这样有点像卖数据的公司（让我想起了各种招聘APP背后的黑产）和周边系统双向集成，比如Sells里能看到Ticket情况，Ticket里也可以看到Sells的情况，包括电网销和客服的渠道互通之类的2.2.6 一些有趣的细节我觉得SaaS的灵魂有三个东西，一个是逻辑多租，一个是三方生态市场，一个是客制化能力。国内外SaaS差别比较大的，在后两者，且看Zendesk的表现：Custom objects： Zendesk支持自建一些对象，有点像Salesforce了，做一些定制的拓展Apps and integrations： Zendesk提供了三个市场，一个是App插件市场，一个是Help Center主题市场，最后一个是伙伴市场（咨询、实施、集成、ISV）看完这些，我觉得别人估值110亿$是有道理的。上篇到此结束，下篇再分析国内两个产品及个人思考。

郑岩 - 我是郑大师~ 发表于2022-07-11 18:31:04 2022-07-11 18:31:04 最后回复郑岩 - 我是郑大师~ 2022-07-11 18:31:04
308 0

知识图谱企业数字化华为云AI助手
[其他] 知识图谱的应用

知识图谱的应用是非常广泛的，如果从一个知识库或者数据库的角度来看，知识图谱可以是任何系统的基础工程，涉及到存储、记忆、分析和智能的东西，都可以应用知识图谱。直接思考的话，知识图谱首先是一个规模庞大的数据库（或者说知识库），百万级、亿级的数据相互关联，可以从更多维度对事物进行更精确的分析。举个例子，金融知识图谱可以**通过关联来查找异常、找出团伙、推荐目标客户等**，以往这些关联业务需要结构化数据库进行查找，而大部分行业存在着许多非结构化数据，比如表格，文本、图片等，知识图谱可以从这些非结构化数据，半结构化数据中提取信息，完成分析，相当于大大扩展了应用的维度和广度。这一类对数据的直接应用，就是图结构消费场景，包括图数据搜索，路径分析，关联分析，图谱可视化等等，其核心就是对庞大的图谱数据快速查找、关联、分析和展现。除了对数据的直接查找和分析，还可以从自然语言的角度应用知识图谱。知识图谱天然的适合人类自然语言的处理，可以用人的思维提出问题，利用图谱庞大的数据规模，通过算法、推理规则、机器学习和深度学习等产人工智能，实现一些问答和分析。举个例子，知识图谱中存在砂石，组成，水泥>和水泥，组成，混凝土>两个三元组，通过知识推理，可以得到砂石，组成，混凝土>，即通过一定的知识推理得到未知的事实与关系。这一类数据应用，就是语义消费场景，包括自然语言检索、智能分析、知识推理等等，其核心是把图谱中的知识通过规则或深度学习，形成一定的人工智能。

黄生 发表于2022-02-26 20:00:22 2022-02-26 20:00:22 最后回复 @Wu 2022-02-28 20:43:03
929 3

知识图谱
[其他] 知识图谱：人工智能的记忆系统

或许你并没有留意，但不论是谷歌搜索人物得到的关联图谱，购物网站越来越精确的商品推荐，还是常见的siri，小爱同学等语音助手，或者是金融放贷时的风险控制，智慧医疗的治疗方案推荐；所有这些智能应用，背后都少不了知识图谱的支撑。如果打个比方的话，知识图谱就是人工智能的记忆系统，让机器感知世界，认识世界，并且通过规模庞大的知识图谱的融合、推理、深度学习等，将这些记忆链接、应用、产生智慧。可以说，知识图谱已经成了人工智能时代的基础设施。知识对于人工智能的价值就在于，让机器具备认知能力和理解能力。构建知识图谱这个过程的本质，就是让机器形成认知能力，理解这个世界。为了让计算机能够理解和使用，需要一套计算机科学的规范定义，节点对应的是本体（Ontology）和实例，节点和节点间相互的关系可以用图结构或者相对简化的三元组来表示。通过这样的数据结构，可以完备的表示信息。有了信息还需要使用，比如查询、推理等。要使计算机理解数据，就要按照一定的规则存储和组织语言，通过各种关键字标明每一处信息的含义是什么。在知识图谱中，有RDF（Resource Description Frame 资源描述框架）和Owl语言（Ontology Web Language 网络本体语言）来对本体进行描述，让计算机理解图谱中的信息。会有专门的结构化查询语言对图谱进行查询，比如针对RDF的查询语言SPARQL或者针对图结构的查询语言Cypher（开源图数据库Neo4j中实现的图查询语言）。具体怎样定义与描述，会在知识图谱构建部分有限的展开。 **知识图谱是一种图结构，因此可以摆脱传统关系型数据库的严格限制**，在字段和实例的增加、修改等方面都更加随意和自由，可以加入新的实例，新的节点，新的关系。还可以把不同的实体建立联系，把多个图谱的同一实体建立联系（实体对齐），这和人类认知世界的方式是类似的。这也是知识图谱的优势，容易建模，有很大的灵活性；结构化的数据和图结构的组织，使得机器可读的同时人类也易于理解，这和人脑的神经元及记忆系统很像，也更容易产生人工智能。

黄生 发表于2022-02-26 19:37:53 2022-02-26 19:37:53 最后回复 @Wu 2022-02-28 20:43:57
882 2

知识图谱
[其他] 知识图谱表示模型是如何进行外推的?

论文题目：How Does Knowledge Graph Embedding Extrapolate on Unseen Data: a Semantic Evidence View作者：李韧, 曹亚男, 朱倩男, 毕冠群, 方芳, 柳毅, 李谦论文概述：当前众多现象表明，知识图谱嵌入表示学习工作可以在外推场景下取得成功，即给定一个训练中未出现的三元组，模型依旧能表现出良好的预测效果，这种外推能力令人印象深刻。但已有工作大多集中于设计精巧的三元组建模函数，并没有对这种外推现象进行充分研究。因此本篇工作对以下两个问题进行了探讨：1. 知识图谱表示模型是如何进行外推的？2. 如何设计具备更强外推能力的知识图谱表示模型？一方面，我们从语义匹配的视角，在关系、实体和三元组层面上分别提出了三种语义证据，并通过对广泛的基线模型的实验分析，验证了这三种语义证据在模型外推方面的重要作用。另一方面,为了更好地利用外推信息，我们将三种语义证据融入到邻域模式中，设计了一种新颖的图神经网络模型用于学习知识图谱嵌入表示，称为语义证据-图神经网络（SE-GNN，Semantic Evidence-Graph Neural Network），以更显示、充分的方式对三种语义证据进行了建模。我们在知识图谱表示学习的基准数据集FB15k-237和WN18RR上进行了充分的实验，证明了我们模型的有效性，以及具备更强大的外推能力。https://www.zhuanzhi.ai/paper/3c69a25cb115574601cf71f5f1fb7f61

可爱又积极 发表于2022-02-10 15:08:26 2022-02-10 15:08:26 最后回复 @Wu 2022-02-12 11:29:28
1176 1

知识图谱
[技术干货] 《知识计算即服务：赋能企业知识化转型》——华为云知识图谱负责人郑毅博士主题演讲

从计算智能，到感知智能，再到认知智能，是业界普遍认同的人工智能技术发展路径。随着技术的演进，人工智能已经在"听、说、看"等感知智能领域达到或超越了人类水准，但是在需要逻辑推理的认知智能领域还处于初级阶段。当前被广泛使用的深度学习方法容易受到对抗样本的干扰已经是研究者们达成的共识，追其根本原因，张钹院士曾总结为：大家只是在灯亮的方向对模型修修补补，没有向人类深入学习。更为具体的是：没有在数据驱动的基础上引入知识，没有改变深度学习网络的模型与结构。那么引入了知识的人工智能将给产业带来怎样的改变呢?11月12日，华为云知识图谱负责人郑毅博士在我国人工智能领域旗舰学术会议—2020全国知识图谱与语义计算大会（CCKS）上带来《知识计算即服务：赋能企业知识化转型》主题演讲。各行各业在发展的过程中沉淀了大量的知识，比如生产系统中的机理模型、丰富的技术典籍文献、专家大脑里面的宝贵经验、方法总结、测试报告等等。但是这些知识分散在不同部门，分散在不同地域，分散在不同介质中。对于一些专业领域，例如石油勘探，煤焦化配比，行业经验都沉淀在专家头脑中，新进人员需要漫长的学习过程才能逐渐掌握业务所需的知识，这些知识都无法做到高效传承，严重制约了企业业务的拓展。企业亟需一个内部的平台，将专家的宝贵知识，整理成统一的知识底座，消除知识孤岛，实现知识标准化、共享化和智能化，构建可持续传承的知识体系。在工业领域，工业机理模型是工业生产的核心，而由于认知程度、假设因素、计算简化等众多因素，机理模型在实际运用中往往会产生偏差。用打靶做个比喻，机理模型可以保证打中靶标，但是稳定命中靶心还是很难。通过知识计算，把机理模型带入深度神经网络，一起参与大规模数据驱动的运算，就可以实现二者的优势融合，将打靶的水平稳定到10环，弥补机理模型局限。为助力企业知识化转型，华为云推出业界首个全生命周期知识计算解决方案，赋能企业构建属于自己的知识计算平台。该方案提供从知识获取、知识建模、知识管理到知识应用的全流程服务，形成知识全生命周期的管理及使用。如今，知识计算正在成为行业知识与 AI 结合的一条全新且高效的路径，逐渐被应用到各类行业场景中，使能企业进行知识化转型。知识计算不仅能够赋能机器，还可以赋能于人，让专家经验直达一线，大幅提升行业从业人员的工作能力。在汽车领域，一汽通过使用知识计算平台可以让4S门店一次修复率提升4%、等待时间下降23%，让车企专家培养周期缩短30%。在油气领域的储层识别场景中，华为云知识计算解决方案将多源异构数据、空间地质关系、录井传感器特征等进行联合表征，通过结合联合表征与深度学习预测模型，使得符合率提升6%，通过一站式知识图谱流水线平台降低了图谱构建维护门槛，提升了知识建模及更新的效率，缩短了70%的油气层评估时间。郑毅表示知识计算已经在知识聚合、降本增效、增储上产等多方面为油气企业带来了巨大价值。人们常说，知识就是力量。知识计算将深度改变知识的使用方式，再次释放知识的强大⼒量，突破当下的 AI 认知瓶颈，全方位地赋能企业，提高产业智能化程度，实现商业场景的迭代和升级，让AI真正做到普惠大众。

大赛技术圈小助手 发表于2022-01-06 14:08:39 2022-01-06 14:08:39 最后回复大赛技术圈小助手 2022-01-06 14:08:39
262 0

知识图谱深度学习
[技术干货] 学习历史预测未来，国防科大新模型在多个数据集上实现未来事实预测SOTA

作者：祝存超、陈牧昊、范长俊、程光权、张岩时序知识的表征和推理是一个具有挑战性的问题。在本文中，来自国防科技大学等的研究者借鉴了自然语言生成（NLG）中的复制机制思路，并通过设计一种全新的基于时序知识图谱嵌入（TKGE）的模型来更有效地建模时序知识图谱。在多个公开时序知识图谱（TKG）基准数据集上，新模型 CyGNet 在未来事实（链接）预测任务上均实现了 SOTA 结果。知识图谱在知识驱动的信息检索、自然语言理解和推荐系统领域有着广泛的应用。一个知识图谱只拥有静态某一时刻的事实，而目前快速增长的数据往往表现出复杂的时间动态，即时序知识图谱（TKG）。具有代表性的时序知识图谱包括全球事件、语言和音调数据库（Global Database of Events, Language, and Tone, GDELT）和综合危机预警系统（Integrated Crisis Early Warning System, ICEWS）。下图 1 展示了 ICEWS 系统的一个外交活动记录子图。然而，现有建模时序知识图谱的方法忽视了时间事实的复杂演变（即许多事实在历史上反复出现）这个自然现象。例如：全球经济危机大约每隔 7 至 10 年就会定期发生一次；外交活动定期发生在两个建立关系的国家之间；东非动物每年 6 月都会进行大规模的迁徙。更具体地说，在整个 24 年的 ICEWS 数据集中（即 1995 年至 2019 年），超过 80% 的事件在过去已经发生过了。这些现象更进一步强调了利用已知事实预测未来事实的重要性。这也是本文的主要出发点。所以，为了能将时间事实的复杂演变现象融入并建模时序知识图谱，来自中国国防科技大学、美国南加州大学、法国计算与先进技术学院等机构的研究者相信更有效地利用历史上发生过的已知事实能够提高时间事实推断的精度。他们决定借鉴在自然语言生成中的复制机制（copy mechanism）思路，探索一种新的框架，通过有效学习时间重复模式以更精准地建模时序知识图谱。论文链接：https://arxiv.org/pdf/2012.08492v1.pdf代码链接：https://github.com/CunchaoZ/CyGNet首先，研究者通过复制机制来探究时序事实的内在现象，并提出在时序知识图谱中学习推理未来事实的时候应参考已知事实。其次，研究者通过时间感知复制生成（copy-generation）机制创建了一个新的时序知识图谱嵌入模型CyGNet（Temporal Copy-Generation Network) 。该模型能够结合两种推理模式以根据历史词汇表或整个实体词汇表来进行推测，从而更符合上述 TKG 事实的演变模式。最后，研究者在 ICEWS18、ICEWS14、GDELT、WIKI 和 YAGO 等 5 个公开 TKG 基准数据集上进行了广泛的实验，结果表明 CyGNet 在未来事实（链接）预测任务上优于以往 SOTA TKG 模型。5 个数据集的统计。方法模型 CyGNet 举例如下图 2 所示，研究者以预测 2018 年 NBA 冠军球队为例，总体介绍了 CyGNet 模型的预测流程。可以看到，当预测 2018 年哪支球队获得了总冠军时，我们可以从历史得知一共有 18 支 NBA 球队曾经获得过冠军。CyGNet 首先获得每个实体的嵌入向量（见彩色柱），然后使用生成模式（generation mode）得到所有 30 支 NBA 球队获得冠军的概率（见绿色条形，条形越高表示概率越大），同时使用复制模式得到所有曾经得到过冠军的 18 支球队的概率。通过合并两个模块得到的概率，CyGNet最终预测「金州勇士（Golden State Warriors）」能够获得 2018 年 NBA 冠军。模型 CyGNet 结构CyGNet 各部分之间的联系如下图 3 所示，主要由复制模式和生成模式两个模块组成。前者从一个具有重复事实的特定历史词汇表中选择实体，后者从整个实体词汇表选择实体。在训练过程中，研究者按照时间顺序依次训练每个时间片的知识图谱。每训练一个新的时间片的知识图谱，他们都会将该时间片之前的所有历史重复事实加入到历史词汇表，如下图 4 所示（验证和测试的时候，研究者使用整个训练集的历史信息）。复制模式首先得到每个时间片的历史词汇表，该词汇表由多热指示向量表示，其中在历史出现过的实体记为 1，未出现过的实体记为 0.然后通过一层 MLP 获得一个索引向量 v_q：通过将中的未出现过的实体的值设为无限小的值（如 - 10000），然后通过简单的加和，将未出现过的实体概率值降到无限小。通过一层 softmax，即可将未出现过的实体概率无限逼近与 0，得到历史出现过的所有实体的概率值 p(c)：生成模式（generation mode）生成模式通过一层 MLP，然后再接一层 softmax，即可得到整个词汇表的概率值：通过参数 alpha 调整复制机制和生成机制的权重，得到最终预测概率，概率最大的即 CyGNet 预测的实体：实验分析链路预测实验结果研究者在以下五个公开 TKG 基准数据集上进行了实验，如下表 2 和 3 所示。CyGNet 模型在预测未来事实的链路预测任务上的表现超过所有 baseline 模型，这说明了 CyGNet 可以通过结合复制机制和生成机制有效地建模时序知识图谱数据。控制变量实验结果CyGNet-Copy-only 是当 CyGNet 只使用复制模式，CyGNet-Generation-only 只使用生成模式，CyGNet-Generation-new 是 CyGNet 模型改变生成模式的词汇表，即生成模式只从全新的从未发生过的实体中选择。如下表 4 所示，每个模块都对模型产生了重要的作用。参数 \ alpha 的敏感度分析以 ICEWS18 为例，研究者分析了调整复制模式和生成模式权重的参数 alpha。实验结果证明 CyGNet 能有效的结合生成模式和复制模式。总结时序知识图谱预测在现实中是一个重要且有挑战性的问题。传统的方法大多侧重于通过对时序信息进行精细复杂的建模来提高预测的准确性。CyGNet 抓住时序实体经常性的重复出现这一现象，借鉴了自然语言生成领域中的「复制-生成」机制，设计了两个模块进行预测。两个模块的模型都很简单，却打败了传统的设计很复杂的模型，这充分说明了利用好时序实体重复出现特性的优势。然而对于这一特性不明显的数据，CyGNet 的表现可能未必同样出色。本文来源：https://www.jiqizhixin.com/articles/2021-01-24-3

大赛技术圈小助手 发表于2022-01-06 12:50:29 2022-01-06 12:50:29 最后回复大赛技术圈小助手 2022-01-06 12:50:29
373 0

知识图谱机器学习
[其他] 知识图谱 - 人机对话

知识图谱的人机对话系统　　人机对话系统传统上分为任务型和聊天型。　　任务型帮助用户完成某项任务，如在餐厅预订桌子或在车内场景中帮助驾驶员（如果你想熟悉典型的基于 KG 的对话系统，请阅读我以前的文章）。　　聊天型主要是小型聊天，具备互动娱乐性质。最近深度学习在没有特定的 pipeline 的端到端对话系统（尤其是聊天系统）成就斐然，你可能有所耳闻。　　然而，越来越明显的是，这两种类型的系统都必须配备一些知识，任务型系统需要任务领域的知识；聊天型需要的更多是常识性知识。预期　　对这项技术的预期，ACL 候任主席周明本人表达得再清楚不过了——他在欢迎辞中强调了将知识图谱、推理和上下文结合到对话系统中的重要性。　　我还要补充一点，KGs 能够提高 agent 答案的可解释性。因此，如果候任主席就 KGs 来讨论对话系统，那么这一领域就大有所为了。　　这正是我们在 Fraunhofer Iais Dresden 和 Smart Data Analytics 研究组所做的工作，既推动了产业应用的发展，又拓宽了基于 KG 的对话平台的研究视野，请原谅我对这一主题的偏见。

我就是豆豆 发表于2021-09-18 14:36:51 2021-09-18 14:36:51 最后回复用户 2021-10-12 17:17:45
883 7

知识图谱
[热门活动] 华为云联合竹间智能发布AICC+ Cloud标准产品，技术紧密结合，领跑AI赛道！

5月27日19:00，华为云云市场新生态直播间邀请到了竹间智能COO孙彬老师，为观众带来《AI能力整合，做企业的“最强大脑”》的精彩分享，直播中孙彬老师从竹间智能联合华为云在AI产业落地过程中的经验、产品、实战案例等多方面展开讨论，深入讲解了竹间智能在为各行各业提供AI技术升级，实现智能数字升级等方面所做的努力与成果，直播最后，孙彬老师也详细解答了直播间观众提出的相关问题，让我们一起来复习一下要点吧！ >>点此观看直播回放<<竹间智能是以情感计算、自然语言理解的技术作为核心技术的科技型公司，而自然语言理解是人工智能领域最难的部分，曾被誉为“人工智能皇冠上的一颗明珠”，让机器人能读懂、看懂、听懂海量非结构化的的数据，提炼出可用于决策的数据加以利用，辅助企业发展。近年来，在AI落地产业的过程，华为云联合竹间智能，已在金融、智能终端、互联网、企业、健康医药、政务公共服务等领域崭露头角。华为云联合竹间智能发布AICC+ Cloud标准产品竹间智能自动化AI平台产品包括Scorpio自动化机器学习平台、NLP自然语言理解平台、Bot Factory™一站式的情感交互人工智能平台，AICC+（AI Contact & Collaborate) 解决方案平台、WFEA流程自动化引擎，以及Gemini (Knowledge Factory) 知识工程平台六大核心平台。此次华为云联合竹间智能，在华为云云市场发布AICC+ Cloud标准产品，是企业客户高度标准化、低代码定制化、低运营落地的企业智能化软件服务。AICC+平台是AI落地产业应用最广泛的产品之一，除了外呼平台外，还包括了机器人质检、对话机器人等。针对不容使用场景，电话机器人还衍生出了包括防疫机器人、催收机器人、满意度调查机器人、HR招聘机器人、回放机器人、营销机器人等。在报装场景中，使用电话机器人，通过语音识别及地址库对比，机器人能够一定程度上改善人工记录信息不全及误记等情况。另外，坐席助手在帮助客服人员工作时，能够通过将用户语音实时转文字，判断客服质量，并实时反馈给客服人员；通过对是否抢话、语速情况、客户情绪等进行监测，当产生冲突矛盾时，及时通知坐席人员，调整话术。还能生成用户画像，对接智能知识库，判断客户意图，在知识弹窗界面之中，陈列建议话术，帮助坐席人员更好的服务用户。依托华为云，竹间的六大核心平台和解决方案支持私有部署，公有云，混合云，以SaaS与PaaS开放给更多客户，云+AI产业中心建设以“华为云生态整合”为目标，将华为云与竹间的智能化技术紧密结合，将双方的优势转化成最大价值，为客户带来更强大的服务能力！直播精选问答：1、Q：要成为竹间智能生态渠道伙伴，有哪些客观的条件要求？ A：首先，竹间智能欢迎众多伙伴，共同推进技术落地。成为竹间AI代理合伙人，有好的商业模式及自己的客户即可；成为AI区域优选合伙人，只要具备软件交付能力，产业落地能力，竹间会提供售前支持及产品培训，帮助伙伴完成AI产品的学习；成为AI战略性伙伴，则可以与竹间产品相结合，共同服务客户，在推动AI产业落地上共同努力。 2、Q：在AI+医疗领域，竹间智能相较于同行有何特别之处？ A：AI+医疗目前是AI各个领域都希望继续开拓的。竹间智能能够利用对话机器人，帮助药厂或医疗机构，将药的使用知识，医疗器械的使用知识，疾病的判别知识，整合成为一个智能知识库，同样可以用对话机器人帮助患者或全科医生分析病情、推导病情，及时预警，跟踪处理，电话机器人可以全天候服务，不管是药的使用者、慢性疾病患者、防疫对象，都可通过人工机器人触达。在此领域中，竹间也有很多落地场景，人工智能场景不止这些，希望有更多的行业合作伙伴能与竹间智能携手，共同开拓更多AI医疗场景，健康是第一要务，竹间亦会在此领域继续努力。 3、Q：AI应用在使用过程中对企业和用户数据结合的准确率满意度有多高？是否符合期望的结果？ A：例如，目前在金融行业中，机器人可以完成40%以上的服务内容，机器人与人工配合，可以完成约83%的服务内容，人工能独立完成的服务内容，大约占17%，今天在整个产业中间，机器人获机器人与人工配合，已经能够完成大多数的服务内容，专业性、重复性的内容则会更多。机器人对语音的理解能力，识别率可以达到93%以上，难点是机器人如何高效回答？在如社保咨询等开放性的问题中，机器人虽只能完成20%左右，但是这个数据已经可以节省下一个城市四分之一的服务人员。人工智能产业落地，准确率和问题解决率还会不断上升，这得益于技术发展和业务团队的不懈实践，关键是业务落地过程中，将其运用在了正确的方向。 4、Q：实验中机器人的话术都是设计好的，但是在实践中，可能会面对许多不同性格的人群和复杂场景，在回答过程中“答非所问”的情况是不是会持续优化？ A：自然语言理解就是让机器人理解人所说的内容，我们致力于用自然语言去与人对话，而绝非简单的发布指令。竹间智能就是要解决这些“答非所问”的技术短板，帮助大家使用人工智能去搭建更好的服务场景，竹间智能要做更难的场景，更复杂的机器人，用更强大的人机耦合技术去完成更复杂的场景服务。5、Q：竹间智能AI的相关应用底层是不是使用了华为云的一些AI技术服务，如果网速慢、网络不好，会不会影响使用，安全性与稳定性是如何保障的？ A：竹间与华为云团队做了很多的技术对接，在产品中间，不仅有竹间自己的核心技术，也会调用华为云的高端能力，包括Iaas能力、PaaS能力，还有EI能力等。但在交付过程中，竹间会遵照客户的IT设计场景，如果客户是本地化部署的，那就会将竹间产品部署至客户的IT环境中，提供所有的平台、算法模型、软件，符合用户的安全制度、性能要求。目前也有越来越多的企业希望利用互联网能力，所以竹间的平台都可以部署在云端，甚至也可以调用云端的能力，在华为云上以SaaS的模式部署，且有利于将竹间的产品能力，华为云的产品能力，还有华为云上其他生态伙伴的产品能力汇聚在一起，进行调用。 6、Q：竹间智能AICC平台，采购后的交付时间大概是多长？ A：如果是在云端平台交付，可以论小时来计，能够实时交付给客户。如果用户需要为对话机器人设计流程，则要与竹间智能客服联系，安排后续方案。如用户考虑安全性，将平台部署在自己的IT环境中间，则需考虑实际项目部署时间。从速度上来看，由于有多个平台的沉淀与支持，竹间应该是行业内较快部署的几个品牌之一。 7、Q：竹间智能知识工厂的产品，都有哪些优势？ A：知识工厂分两部分：即产出的产品，以及产出产品的过程。知识工厂有做数据分析的平台，可以将海量的数据进行分析比对，按要求进行提取、查重、分析等操作。AI通过学习衍生出更多功能的应用为企业提供服务，如舆情分析，智能推荐、文章查重、文章撰写、邮件分类等。 8、Q：竹间智能在AI产业竞争中，是如何保证自己的优势？ A：竹间团队的精神是：我们要好的技术，但是真正在为企业服务时，其实拼搏的是产品的综合能力，最终传递的其实是服务的质量。所以竹间坚持产品标准化，能够一键部署，云化，满足企业多种场景的需求，让产品更具生命力。当然，服务是必备的，第一时间响应问题，完成好AI产业落地，是竹间一直努力的目标。 9、Q：竹间智能产品是如何解决数据安全及客户拓展的问题的呢？ A：数据安全是一个大问题，竹间的原则是做AI技术不触碰客户的数据，这也是做人工智能服务团队的准则，由于竹间所服务的头部企业大部分都是私有化部署，所以都是按照客户的IT要求，部署在客户的IT环境中，过去的银行、保险、证券行业均是如此，部署完毕之后，将数据库，包括模型全部报备完毕后交给客户，内容均留存在客户本地，竹间提供的是AI服务平台，并不会牵动客户的数据，调优也是在用户环境中进行。云化过程中，也严格遵守华为云规范，且在部署前会与客户约定好安全协议。 10、Q：竹间智能未来准备进入哪些领域？或再开拓哪些场景？ A：坚持核心技术，继续在AI落地产业的技术赛道上打拼。依旧会在金融行业进行投入，金融行业是人工智能使用的高地，竹间会在该领域继续深耕细作；另外在企业应用，尤其是智能设备企业，将会是竹间智能高速推广的关键领域；其次，医疗教育领域的人工智能发展空间较大，竹间会部署专门的团队针对这些领域去开拓新场景，开发新应用；在政务公共事业上，大量AI场景应用其中，竹间智能在AI+防疫场景中也已经进行了实践，并还将深入探索，未来希望能够成为人工智能赛道的头部企业，与行业同仁共同进步！想了解更多直播详情，点击《 AI能力整合，做企业的“最强大脑”》，进入华为云云市场直播间观看精彩回放！本期直播商品（华为云云市场在售）：AICC-客户智能联络中心竹间人工定制服务竹间智能知识工厂【华为云云市场，助您上云无忧】

云商店 发表于2021-05-29 17:21:18 2021-05-29 17:21:18 最后回复云商店 2021-05-29 17:21:18
4743 0

知识图谱人工智能华为云AI助手云商店
[其他] 分享信息提取：OpenIE 和链接预测

Broscheit 等人在论文「Can We Predict New Facts with Open Knowledge Graph Embeddings? A Benchmark for Open Link Prediction」（https://www.aclweb.org/anthology/2020.acl-main.209.pdf）中定义了给定开放知识图谱在面临以下挑战时的开放链接预测任务：给定一个（“主语文本”或“关系文本”）的查询，系统需要预测真实的、不能被简单解释的新事实。然而，并没有可用的实体或关系 URI 能将表面形式绑定到同一个表征上。尽管如此，许多相同实体或关系的表面形式可能会造成测试机泄露，因此需要仔细地构建并清洗测试集。作者提出了一种构建并清洗数据集的方法、一种评价协议，以及一种对比基准测试任务。OLPBench 是一种最大的基于知识图谱嵌入的链接预测数据集：它包含超过 30M 三元组、1M 独特的开放关系、800K 个被提及了 2.5M 次的唯一实体。在实验中，作者使用了 ComplEx，通过 LSTM 聚合多词例声明。开放链接预测任务由此变得十分困难：即使强大的 768 维 ComplEx 也只得到了 3.6 MRR，2 Hit@1，6.6 Hits@10 的测试结果。显然，这是一个颇具挑战的数据集：看到这些方法不仅可以被扩展到如此之大的图上，还能够将性能提升到与 FB15K-237 相当的水平上（在ACL 2020 上，我们发现有关知识图谱增强的语言模型和命名实体识别（NER）的工作变少了，而另一方面，「Graph-to-Text」方面的自然语言生成工作正处于上升趋势！转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-05-08 20:00:05 2021-05-08 20:00:05 最后回复谭涟漪 2021-05-10 19:30:30
1260 3

知识图谱
[其他] 分享信息提取：OpenIE 和链接预测

信息提取：OpenIE 和链接预测如果你从事的工作恰好与根据原始文本构建知识图谱相关，也许你已经知道大家约定俗成将 OpenIE 作为起点。正如前文所述，像 OpenIE4 或 OpenIE 5 这种基于规则的框架仍然被广泛使用。也就是说，提升 OpenIE 信息提取的指令可以缓解知识图谱构建过程中存在的许多问题。请注意：使用 OpenIE 获得的知识图谱也被成为「Open KG」（开放知识图谱）。Kolluru 等人在论文「IMOJIE: Iterative Memory-Based Joint Open Information Extraction 」（https://www.aclweb.org/anthology/2020.acl-main.521.pdf）中提出了一种生成式的 OpenIE 方法「IMoJIE」（迭代式的基于记忆的联合信息提取）。在 CopyAttention 范式的启发下，作者提出了一种迭代式的序列到序列信息提取算法：在每一轮迭代中，将原始序列与之前提取的信息连接，并将其输入给 BERT 从而获得最终的嵌入。接着，将带有拷贝和注意力机制的 LSTM 解码器用于生成新的信息提取结果（包含三元组的词例）。为了进一步改进训练集，作者将 OpenOE 3 和 OpenIE 4 以及其它系统的结果作为生成结果的「银标签」进行了聚合和排序。尽管该架构看似简单，但它相较于现有的对比基线确实带来了显著的性能提升。模型简化实验（又称消融实验）的结果表明，BERT 对于整体的信息提取质量至关重要，所以我猜想如果使用一个更大的 Transformer，或使用一个针对特定领域预训练的语言模型（例如，如果你的文本是来自法律或生物医学领域）信息提取质量会得到进一步的提升。转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-05-04 18:12:55 2021-05-04 18:12:55 最后回复 Jack20 2021-05-08 10:39:05
1710 3

知识图谱
[其他] 分享结构化数据双曲和超关系知识图谱（3）

一篇题为「Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge Graph Embedding Models Under a Unified Framework」（https://arxiv.org/pdf/2006.13365）的论文中，讨论了这一问题。他们花费了逾 21,000 GPU 小时进行了超过 65,000 次实验，评估了 19 种模型。在这些模型中，最早的有 2011 年首次发布的 RESCAL，最新的有 2019 年发标的 RotatE 和 TuckER。他们尝试了 5 种损失函数以及各种包含/不包含负采样的训练策略，并且考虑了许多很重要的超参数。我们也向社区公开了所有模型的最佳超参数。此外，他们发布了 PyKEEN 1.0（https://github.com/pykeen/pykeen），这是一个用于训练知识图谱嵌入模型并进行对比实验的 PyTorch 程序库。我建议读者通读 Sachan 的论文「Knowledge Graph Embedding Compression」（https://www.aclweb.org/anthology/2020.acl-main.238.pdf），他们研究了通过离散化技术对知识图谱实体嵌入进行压缩。例如，「Barack Obama」会被编码为「2-1-3-3」而不是一个 200 维的 float32 格式的向量，「Mihcelle Obama」则会被编码为「2-1-3-2」。也就是说，你仅仅需要一个长度为 D、取值范围为 K 的向量（在本例中，D=4，K=3）。为了进行离散化，「tempered softmax」是一种较好的实现方式。作者建议使用双向 LSTM 作为将 KD 编码转化回 N 维浮点向量的反函数。实验结果令人惊讶，在 FB15K-237 和 WN18RR 上的压缩率达到了 100-1000 倍，而在进行推理（将 KD 编码解码回去）时只会产生微笑（最多为 2%MRR）的性能下降，计算开销也很小。我建议大家重新思考一下现在的知识图谱嵌入流程（尤其是在生产场景下）。例如，通过 PyTorch-BigGraph获取的 78M Wikidata 实体的 200 维嵌入需要 1100GB 的存储空间。试想一下，仅仅压缩 100 倍会是什么样子。以下是一些对流行的知识图谱嵌入模型的改进工作：Tang 等人（https://www.aclweb.org/anthology/2020.acl-main.241.pdf）通过正交关系变换将 RotatE 从二维旋转泛化到了高维空间中，该模型在 1-N 和 N-N 关系上的性能有所提升。Xu 等人（https://www.aclweb.org/anthology/2020.acl-main.358.pdf）通过把密集向量分到 K 个组内，将双线性模型泛化到多线性场景下。他们说明了当 K=1 时，该方法与 DisMult差不多，当 K=2 时，该方法会减化为 ComplEx和 HolE方法，作者还测试了 K=4 和 K=8 的情况。Xie 等人（https://www.aclweb.org/anthology/2020.acl-main.526.pdf）通过将标准的卷积核替换为计算机视觉领域著名的 Inception网络中的卷积核从而扩展了 ConvE。Nguyen 等人（https://www.aclweb.org/anthology/2020.acl-main.313.pdf）将自注意力类的编码器以及一个卷积神经网络解码器应用于三元组分类以及个性化搜索任务。转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-04-29 08:37:07 2021-04-29 08:37:07 最后回复小强鼓掌 2021-07-09 16:13:18
1468 8

知识图谱
[其他] 分享结构化数据双曲和超关系知识图谱（2）

Guan 等人在论文「NeuInfer: Knowledge Inference on N-ary Facts」（https://www.aclweb.org/anthology/2020.acl-main.546.pdf）中，并不想丢失 Wikidata 中的大量三元组之外的信息，提出了一种学习超关系知识图谱嵌入的方法。NeuInfer 旨在计算一个超关系事实的正确性与兼容性得分。首先，作者将（h,r,t）嵌入输入一个全连接网络（FCN），从而估计该三元组的似然度（正确性）。接着，对于每个键值对，作者构建了一个五元组（h,r,t,k,v），然后将其输入到另一组全连接网络中。当有了 m 对键值对时，构造出的 m 个向量会经过最小池化处理，最终得到的结果代表兼容性得分，即这些限定符与主要的三元组的共存情况。最后，作者使用了这两种得分的加权求和来得到最终得分。作者在标准的对比基准测试任务 JF17K（从 Freebase 中抽取得到）和 WikiPeople 上测试了 NeuInfer，并展示了在 JF17K 任务中，在预测头实体、尾实体、属性值时，该模型相较于 NaLP 模型取得的显著提升。下面，我们将讨论发表在 ACL 2019 上的知识图谱嵌入算法的可复现性。Sun、Vashishth、Sanyal 等人（https://www.aclweb.org/anthology/2020.acl-main.489.pdf）发现，一些近期发布的知识图谱嵌入模型声称它们得到了目前最先进的效果，但是它们存在测试集泄露问题，或者在经过了为正确的三元组评分的 ReLU 激活函数后会出现许多值为零的神经元。此外，他们还说明了，性能度量得分（例如 Hits@K 和 MRR）取决于正确三元组在采样的负样本中的位置（实际上正确三元组不应该出现在负样本中）。另一方面，目前存在的性能很强的对比基线在任何位置的表现都是一样的。作者要做的就是使用评估协议，将一个有效的三元组随机放置在否定的位置上。与此同时，使用将一个正确三元组放置在负样本中随机位置上的评估协议。转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-04-27 21:43:19 2021-04-27 21:43:19 最后回复 RabbitCloud 2021-04-28 20:17:20
793 1

知识图谱
[其他] 分享结构化数据双曲和超关系知识图谱

双曲空间是机器学习领域中最近很活跃的话题之一。简而言之，在一个双曲空间中，得益于其特性，我们可以在使用更少的维度的同时，更为高效地表征层次和树状结构。在这一目标的驱使下，Chami 等人在论文「Low-Dimensional Hyperbolic Knowledge Graph Embeddings」（https://www.aclweb.org/anthology/2020.acl-main.617.pdf）中提出了 AttH，这是一种使用旋转、反射、平移变换对知识图谱中的逻辑和层次模式进行建模的双曲知识图谱嵌入算法。「Att」指的是应用于旋转和反射后的向量的双曲注意力。为了避开不稳定的黎曼优化，作者使用了正切空间，d 维庞加莱球上的所有点都可以映射到其中。在这种复杂的场景下，每种关系都不仅仅与一个向量有关，还与描述特定关系的反射和旋转的参数有关。尽管如此，在真实世界的知识图谱中 R<<V，因此总开销也不会过高。在实验中，AttH 在 WN18RR 和 Yago 3-10 上的表现十分优异，这些数据集展现出了某些层次化的结构，AttH 在 FB15k-237 数据集上的性能提升就较小。更重要的是，在真实的复杂场景下，与现有的 32 维模型相比，仅仅 32 维的 AttH 就展现出了巨大的性能提升。此外，在 WN18RR 和 FB15k-237 数据集上，32 维 AttH 的得分仅仅比当前性能最优的 500 维嵌入模型低 0.02-0.03 个 MRR。模型简化实验的结果说明引入可学习的曲率是十分重要的，而与本文最接近的工作「Multi-relational Poincaré Graph Embeddings」，则使用了固定的曲率。在图表征学习领域，另一个日渐凸显的趋势是：不仅仅局限于简单的由三元组组成的知识图谱，进一步学习更复杂的超关系知识图谱，例如 Rosso 等人在论文「Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction」（https://exascale.info/assets/pdf/rosso2020www.pdf）中所做的工作。此时，每个三元组可能还包含一组「键-值」属性对，它们给出了三元组在各种上下文中正确性的细粒度细节信息。实际上，Wikidata 在「Wikidata Statement」模型中就采用了超关系模型，其中属性被称为「限定符」（qualifier）。需要注意是，不要将模型与生成冗余谓词的 n 元事实以及超图弄混。也就是说，如果你只在三元组层面上使用 Wikidata，那么你将损失很多的信息。转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-04-26 22:50:16 2021-04-26 22:50:16 最后回复 RabbitCloud 2021-04-27 14:07:30
782 1

知识图谱网络
[其他] 分享结构化数据上的问答系统（1）

在该任务中，研究者们面向 SPARQL 的知识图谱或 SQL 数据库这样的结构化数据源提出了问题。在今年的 ACL 大会上，我们可以看到越来越多考虑复杂（也被称为多跳）问题的工作。举例而言，Saxena 等人的论文「Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings」（https://www.aclweb.org/anthology/2020.acl-main.412.pdf）在研究复杂知识图谱问答任务时，将知识图谱嵌入与问题嵌入向量耦合在它们的 EmbedKGQA 系统中。首先，作者通过一些算法（本文作者选用了论文「Complex Embeddings for Simple Link Prediction 」中提出的算法）对底层知识图谱进行嵌入，从而使每个实体与关系与一个特定的向量相关联。在某些情况下，作者冻结这些向量，或者根据知识图谱的规模持续调优。其次，作者使用 RoBERTA 模型对输入进行编码，并经过 4 个全连接层处理，我们希望通过这种方式将问题投影到复杂的空间中。而关键的部分在于评分函数，其中作者采用知识图谱嵌入的框架，并且构建了一个（头实体，问题，候选实体）三元组。这里的评分函数与 ComplEx 算法使用的一样，头实体是问题的主实体，问题被当做三元组中的关系，候选实体要么是小型知识图谱中的全部实体，要么是头实体周围 2 跳以内的子图（当需要剪枝时）。这确实与典型的用于训练知识图谱嵌入的「1-N」评分机制相类似。通过计算并阈值化问题嵌入 h_q 和每个关系嵌入 h_r 之间的点积，可以进一步对候选空间进行剪枝。在 MetaQA 和 WebQuestionsSP 上进行的实验中，作者探索了一种特定的场景：随机删除 50% 的边构造一个不完整的知识图谱，从而使系统必须学会推理出这些缺失的链接。在知识图谱完整的场景下，EmbedKGQA 与 PullNet 性能相当（在 3 跳问题上性能稍优），在 Hits@1 的绝对得分上比不使用额外的文本增强知识图谱的基线高出 10-40%。即使如此，研究 EmbedKGQA 如何处理需要聚合或具有多个具体实体的问题，还是很有趣的。转自，MrBear，https://www.leiphone.com/category/academic/n3WcOtLYehqcrpXv.html

初学者7000 发表于2021-04-25 21:35:32 2021-04-25 21:35:32 最后回复 RabbitCloud 2021-04-26 20:05:17
1130 1

知识图谱
[获奖公告] 【华为云•微话题】知识图谱技术及其在自动驾驶网络中的应用。参与赢取大号鼠标垫&双肩包~~

知识图谱作为AI技术中的知识容器和孵化器，会对未来AI的发展起到关键性作用。过去，人机交互是人将就机器，人要学习机器的语言；未来，人直接提出需求就能获得结果，机器学习人的语言。知识图谱技术不是具体的技术，而是知识表示、抽取、存储、计算、应用等一系列技术的系统工程。随着知识图谱相关技术的发展，知识图谱会朝着自动化方向前进，将在越来越多的领域找到价值化应用场景，助力业务发展。——————————————【微话题活动】———————————————今天我们邀请到华为云内部专家Rico和大家讨论一下：【知识图谱技术及其在自动驾驶网络中的应用】活动时间2020年7月20日-2020年8月3日参与方式直接在本帖回复关于以下问题的理解或评论1、你认为知识图谱有哪些高价值应用场景？2、知识推理的技术形态有哪些？3、你认为知识库应该存储哪些内容？4、你认为哪些知识图谱自动化构建技术是关键？本期奖品A.回帖参与本次讨论，回复与话题相关的原创内容，即可获得精美鼠标垫1个（数量有限，先到先得)。B.华为云内部专家Rico评出3名优质评论奖，各送出华为云定制双肩包1个。（两样奖品不可同时获得，奖品于活动结束发放) 评奖标准回复话题数量和内容质量优质评论奖3名参与奖

云集而动 发表于2020-07-20 16:03:41 2020-07-20 16:03:41 最后回复建赟 2020-12-15 09:25:09
12224 41

知识图谱自动驾驶深度学习

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript