2017年论文 TACL2017 论文题目:Cross-sentence n-ary relation extraction with graph LSTMs 论文地址,论文源码 EACL2017 论文题目:Distant Supervision for Relation Extraction beyond the SentenceBoundary 论文地址,论文源码 2018年论文 NAACL2018 论文题目:Simultaneously Self-Attending to All Mentions for Full-Abstract Biological Relation Extraction 论文地址,论文源码 2019年论文 ACL2019(数据集) 论文题目:DocRED:A large-scale document-level relation extraction dataset 论文地址,论文源码 ACL2019 论文题目:Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network 论文地址,论文源码 EMNLP2019 论文题目:Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs 论文题目,论文源码 AAAI2019 论文题目:Neural relation extraction within and across sentence boundaries 论文地址,论文源码 2020年论文 ACL2020 Reasoning with Latent Structure Refinement for Document-Level Relation Extraction 论文地址,论文源码 EMNLP2020 论文题目:Double Graph Based Reasoning for Document-level Relation Extraction 论文地址,论文源码 EMNLP2020 论文题目:Global-to-Local Neural Networks for Document-Level Relation Extraction 论文地址,论文源码 COLING2020 论文题目:Document-level Relation Extraction with Dual-tier Heterogeneous Graph 论文地址,论文源码 COLING2020 论文题目:Graph Enhanced Dual Attention Network for Document-Level Relation Extraction 论文地址,论文源码 COLING2020 论文题目:Global Context-enhanced Graph Convolutional Networks for Document-level Relation Extraction 论文地址,论文源码 PAKDD2020 论文题目:HIN: Hierarchical Inference Network for Document-Level Relation Extraction 论文地址,论文源码 论文题目:Fine-tune Bert for Docred with two-step process 论文地址,论文源码 论文题目:Entity and Evidence Guided Relation Extraction for DocRED 论文地址,论文源码 2021年论文 AAAI2021 Document-Level Relation Extraction with Reconstruction code 论文地址,论文源码 AAAI2021 论文题目:Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling 论文地址,论文源码 AAAI2021 论文题目:Entity Structure Within and Throughout: Modeling Mention Dependencies for DocumentLevel Relation Extraction 论文地址 AAAI2021 论文题目:Multi-view Inference for Relation Extraction with Uncertain Knowledge
综述 深度学习以及机器学习中常用到的几种模型评价方法有以下的几种:混淆矩阵中几种方法(ACC,Recall等等)、MRR、Hit@K、NDC等几种方法 混淆矩阵 混淆矩阵是最为常见的一种模型评价的方法,它是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示.它是一种精度评价的可视化工具,特别是用于监督学习,在无监督学习中一般叫做匹配矩阵.在评价过程中主要用于比较分类结果和实际测得值,可以把分类结果的精度现实在一个混淆矩阵里面.具体以二分类表示如下图所示: 上述图中列举了几个测试的指标,有对应的公式,最常见的公式指的是精确率(ACC).关于混淆矩阵有关的参数如下所示: 准确率:准确率表示预测正确的样本数量占总样本数量的比例. \[Acc=\dfrac{TP+TN}{TP+TN+FP+FN}\] 精确率:精确率表示预测为正样本的样本中,正确预测为正样本的概率. \[Precision=\dfrac{TP}{TP+FP}\] 召回率:召回率表示正确预测出正样本占实际正样本的概率 \[Recall=\dfrac{TP}{TP+FP}\] $F\beta-$score值:这个值类似于召回率,一般情况取$\beta=1$,称为F1-Score值. \[F_{\beta}=(1+\beta^{2})\cdot\dfrac{Precision\cdot{Recall}}{(\beta^{2}\cdot{Precision})+Recall}\] ROC曲线与AUC ROC曲线的横轴为假正例率FPR(越小越好),纵轴TPR(越大越好). AUC值的定义:AUC值为ROC曲线所覆盖的区域面积,显然AUC越大表示分类器分类效果是越好的.评价如下所示: $AUC=1$,表示完美分类器,采用这个预测模型时候,不管设定什么阈值都能得出完美预测.绝大多数预测的场合不存在完美分类器. $0.5<AUC<1$,优于随机猜测,这个模型妥善设定阈值的话,能有预测价值. $AUC=0.5$,这个和随机猜想一样没有预测价值. $0<AUC<0.5$,比随机猜测还差;但只要总是反预测而行,就优于随机猜测. Hit Ratio(HR) HR是一种常用的衡量召回率的指标,计算公式如下所示 \[HR@K=\dfrac{Num@K}{GT}\] 其中分母GT是所有的测试集合,分子表示每个用户Top-K列表中属于测试集合的个数总和. Mean Average Precision(MAP) 平均准确率AP一般使用的以下的情形,举个例子,如果使用某一搜索引擎搜索一个特定关键词返回了10个结果,最好的情况是这10个结果都是想要的相关信息.但是假如只有部分是相关的,例如有5个,那么这5个结果被显示比较靠前的话也是不错的结果,如果是在第6个返回结果才开始出现的话,那么这种情况便是比较差一点的情况.这就是AP所反映的指标,也与召回率是类似的,但是是顺序敏感型的recall. 对于用户u,给他推荐一些物品,那么u的平均准确率为 \[AP_{u}=\dfrac{1}{\Omega_{u}}\sum\limits_{i\in{\Omega_{u}}}\dfrac{\sum\limits_{j\in{\Omega_{u}}}h(p_{uj}<p_{ui})+1}{p_{ui}}\] 其中,$\Omega_{u}$表示Ground-Truth的结果,$p_{uj}$表示$i$物品在推荐列表中的位置,$p_{uj}<p_{ui}$表示$j$物品在推荐列表中排在$i$物品之前. MAP表示所有用户$u$的AP再取均值,计算公式如下所示: \[MAP=\dfrac{\sum\limits_{u\in{U}}AP_{u}}{|U|}\] Normalized Discounted Cummulative Gain(NDCG) 积累增益CG,在推荐系统中CG表示将每个推荐结果相关性的分值累加之后作为整个推荐列表的得分: \[CG_{k}=\sum\limits_{i=1}^{k}rel_{i}\] 其中,$rel_{i}$表示位置$i$的推荐结果的相关性,$k$表示推荐列表的大小. CG没有考虑每个推荐结果处于不同率位置对整个推荐结果的影响,我们总希望相关性大的结果排在前面,相关性低的排在前面会影响用户体验. DCG在CG的基础上引入了位置影响因素,计算公式如下所示: \[DCG_{k}=\sum\limits_{i=1}^{k}\dfrac{2^{rel_{i}}-1}{\log_{2}(i+1)}\] 表达式中表明:推荐结果的相关性越大,DCG越大;相关性好的排在推荐列表前面的话,推荐效果越好,DCG越大. DCG针对不同的推荐列表之间很难进行横向评估,而我们评估一个推荐系统不可能仅仅使用一个用户的推荐列表及相应结果进行评估,而是对整个测试集中的用户以及其推荐列表结果进行评估.那么不同用户的推荐列表的评估分数就需要进行归一化,也就是NDCG. IDCG表示推荐系统某一用户返回的最好推荐结果列表,即假设返回结果按照相关性排序,最相关的结果放在最前面,此序列的DCG为IDCG.因此DCG的值介于$(0,IDCG]\in(0,1]$,那么用户u的NDCG@K定义参数为 \[NDCG_{u}@K=\dfrac{DCG_{u}@K}{IDCG_{u}}\] 平均NDCG的值为 \[NDCG@K=\dfrac{\sum\limits_{u\in{U}}NDCG_{u}@K}{IDCG_{u}}\] Mean Reciprocal Rank(MRR) 正确检索结果值在检索结果中的排名来评估检索系统的性能. \[MRR=\dfrac{1}{Q}\sum\limits_{i=1}^{|Q|}\dfrac{1}{rank_{i}}\] 其中,$ Q $是用户的个数,$rank_{i}$是对于第i个用户,推荐列表中第一个在Ground-Truth结果中的item所在的排列位置.
简介 机器阅读理解是指让计算机能够阅读文本,随后让计算机解答与文中信息相关系的问题.斯坦福大学自然语言计算组发布SQuAD数据集,微软亚研R-Net是首个在某些指标中接近人类的深度学习模型.本篇文章主要叙述的是机器阅读理解中的R-Net神经网络. 机器阅读理解问题描述 文中每个样例大致由一个三元组构成(包含有文章Passage,相应问题Query以及对应答案Answer),输入是一个文章和相应问题,输出是一个答案Answer,三元组均使用(P,Q,A)表示. R-Net 模型结构图 R-Net模型结构图如下所示 原理介绍 R-Net模型一共分为四个步骤,分别为 Question and Passage Encoder(问题和文章的编码器) Gated Attention-Based Recurrent Networks(门注意力基础循环神经网络) Self-Matching Attention (自匹配注意力网络) Output layer (输出层) 1. Question and Passage Encoder(问题和文章的编码器) 第一层表示学习过程,R-Net神经网络中输入是Glove+CharEmbedding.第一种是将文章P和问题Q中的单词替换为Glove词向量中的数据$P=\left{e_{t}^{P}\right}{t=1}^{n}$,$Q=\left{e{t}^{Q}\right}{t=1}^{m}$,第二种是charEmbedding:$P{c}=\left{e_{t}^{P}\right}{t=1}^{n}$,$Q{c}=\left{e_{t}^{Q}\right}_{t=1}^{m}$.最终将文章P以及问题Q通过BiRNN神经网络,这里使用的是BiGRU网络. \[u_{t}^{Q}=BiRNN_{Q}(u_{t-1}^{Q},[e_{t}^{Q},c_{t}^{Q}])\] \[u_{t}^{P}=BiRNN_{Q}(u_{t-1}^{P},[e_{t}^{P},c_{t}^{P}])\] 2. Gated Attention-Based Recurrent Networks(门注意力基础循环神经网络) 从上一层神经网络可以得到$u_{t}^{Q}$以及$u_{t}^{P}$,在这一层神经网路试图将$u_{t}^{Q}$进行attention加权融入到$u_{t}^{P}$中,得到问题Q的注意力下的文章语义理解向量 \[v_{t}^{P}=RNN(v_{t-1}^{P},c_{t})\] 其中$c_{t}=att(u^{Q},[u_{t}^{P},v_{t-1}^{P}])$是一个对问题Q的attention-pooling加权.具体的形式如下所示 \[s_{j}^{t}=v^{T}\tanh(W_{u}^{Q}u_{j}^{Q}+W_{u}^{P}u_{t}^{Q}+W_{v}^{P}v_{t-1}^{P})\] \[a_{i}^{t}=\exp(s_{i}^{t})/\sum\limits_{j=1}^{m}\exp(s_{j}^{t})\] \[c_{t}=\sum\limits_{i=1}^{m}a_{i}^{t}u_{i}^{Q}\] R-Net又基于Match-LSTM的基础上对以上方法提出一些以下的改进方法,第一点是将$c_{t}$和$u_{t}^{P}$并联为$[c_{t},u_{t}^{P}]$加入RNN中,即 \[v_{t}^{P}=RNN(v_{t-1}^{P},[c_{t},u_{t}^{P}])\] 第二点又在$[c_{t},u_{t}^{P}]$上面加入门控制方式,为了更好地抽取和文章有关问题的信息,即加入的以下的方法 \[g_{t}=\sigma(W_{g}[u_{t}^{P},c_{t}])\] \[[u_{t}^{P},c_{t}]^{*}=g_{t}\odot[u_{t}^{P},c_{t}]\] 3. Self-Matching Attention (自匹配注意力网络) 自匹配的方式充分借鉴了Attention is all you need中的自注意力思想,在模型效果提升中起了很大的作用,而且这个方法也易于实现. \[h_{t}^{P}=BiRNN(h_{t-1}^{P},[c_{t},v_{t}^{P}])\] 其中,$c_{t}=att(v^{P},v_{t}^{P})$是基于当前单词下的整篇文章的语义 \[s_{j}^{t}=v^{T}\tanh(W_{v}^{P}v_{j}^{P}+W_{v}^{\hat{P}}v_{t}^{P})\] \[a_{i}^{t}=\exp(s_{i}^{t})/\sum\limits_{j=1}^{n}\exp(s_{j}^{t})\] \[c_{t}=\sum\limits_{i=1}^{n}a_{i}^{t}v_{i}^{P}\] 4. Output layer (输出层) R-Net模型输出的是文章中的起始位置,在这一过程中借鉴了pointer-Network的思想,R-Net模型先计算得到开始位置在文章中的分布$p_{1}$,再利用这一分布对整篇文章进行加权作为输入得到终止位置在文章中的分布$p_{2}$.所以这其实是一个seq2seq的过程,只不过最终得到的seq中只有两项,即起始位置$p_{1}$和终止位置$p_{2}$.对于一个seq2seq过程,R-Net使用对问题$u_{t}^{Q}$进行attention-pooling得到的$r^{Q}$作为起始键. \[s_{j}=v^{T}\tanh(W_{u}^{Q}u_{j}^{Q}+W_{v}^{Q}v_{r}^{Q})\] \[a_{i}^{t}=\exp(s_{i}^{t})/\sum\limits_{j=1}^{n}\exp(s_{j}^{t})\] \[r^{Q}=\sum\limits_{i=1}^{n}a_{i}u_{i}^{Q}\] 其中这个seq2seq的循环结构为 \[h_{t}^{q}=RNN(h_{t-1}^{a},c_{t})\] $c_{t}$依然是对文章的attention-pooling得到的结果: \[s_{j}=v^{T}\tanh(W_{u}^{P}u_{j}^{P}+W_{h}^{a}h_{t-1}^{a})\] \[a_{i}^{t}=\exp(s_{i}^{t})/\sum\limits_{j=1}^{n}\exp(s_{j}^{t})\] \[c_{t}=\sum\limits_{i=1}^{n}a_{i}^{t}h_{i}^{P}\] 通过以上RNN循环单元两次可以得到两个权重分布,我们可以通过下面这种方式从中得到答案的其实位置 \[p^{t}=\arg\max\left\{a_{1}^{t},\dots,a_{n}^{t}\right\}\] 通过得到两个分布表示$p_{1},p_{2}$,这样就会得到一个联合分布,在计算中可以表示为一个矩阵,然而由于开始位置永远在终止位置之前,所以我们的选择区域始终在矩阵对角线的左上半部分。又因为答案长度有一定范围,我们可以设置答案的最大长度,所以最后的训责区域知识一个若当标准型矩阵的.
这里介绍一些常见的数据集,用作研究或者学习的一些东西. Kaggle竞赛 书籍推荐数据集(goodreads/上万图书/百万评价): Kaggle地址 带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016): Kaggle地址 HackerNews数据集(2006年以来约1/4文章): Kaggle地址 酒店评价数据集: Kaggle地址 1950年以来NBA球员状态&表现数据集: Kaggle地址 开普勒太空望远镜深空星球光强时序数据集: Kaggle地址 巴基斯坦无人机袭击数据集(2004-2016): Kaggle地址 墨尔本房屋市场数据集[Kaggle地址]: (https://www.kaggle.com/anthonypino/melbourne-housing-market) 1789-2016历任美国总统签署行政命令数据集: Kaggle地址 来自Stack Overflow平台的Python语言问答数据集: Kaggle地址 来自Stack Overflow品台的R语言问答数据集: Kaggle地址 每日海冰范围数据集: Kaggle地址 NIPS(1987-2016)论文数据集: Kaggle地址 赛马赔率数据集Kaggle地址 大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集: Stanford地址 人脸素描数据集: CUHK地址 自然语言推理(文本蕴含标记)数据集: NYU地址 Berkeley图像分割数据集BSDS500: Berkeley地址 宠物图片(分割)数据集: Oxford地址 发布ADE20K场景感知/解析/分割/多目标识别数据集: MIT地址 多模态二元行为数据集: GaTech地址 计算机视觉/图像/视频数据集: Fashion-MNIST风格服饰图像数据集: 肖涵地址 大型(50万)LOGO标志数据集: 地址 4D扫描(60fps移动非刚性物体3D扫描)数据集: D-FAUST地址 基于MNIST的视觉计数合成数据集: Counting MNIST地址 YouTube MV视频数据集: Keunwoo Choi地址 计算机视觉合成数据集/工具大列表: unrealcv地址 动物属性标记数据集: ChristophH. Lampert/Daniel Pucher/JohannesDostal地址 日本漫画数据集: Manga109 地址 俯拍舞蹈视频数据集: 地址 Pixiv(着色)图片数据集: Jerry Li地址 e-VDS视频数据集: 地址 Quick, Draw!简笔画涂鸦数据集: 地址 简笔画涂鸦数据集: hardmaru地址 服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler地址 COCO像素级标注数据集: 地址 大规模街道级图片(分割)数据集: Peter Kontschieder地址 大规模日语图片描述数据集: 地址 Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)地址 (街头)时尚服饰数据集(2000+标注图片)地址 PyTorch实现的VOC2012数据集Pixel-wise目标分割: BodoKaiser地址 Twenty Billion Neurons对象复杂运动与交互视频数据集: Nikita Johnson地址 文本/评价/问答/自然语言数据集 (20万)英文笑话数据集: TaivoPungas地址 机器学习保险行业问答开放数据集: HainWang地址 保险行业问答(QA)数据集: Minwei Feng 地址 Stanford NLP发布新的多轮、跨域、任务导向对话数据集: Mihail Eric地址 实体/名词语义关系标记数据集: David S. Batista地址 NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理): 地址 2.8万文章/10万问题大规模(英语考试)阅读理解数据集: 地址 错误拼写数据集: 地址 文本简化数据集: 地址 英语词/句/语义框架框架标注数据集FrameNet: FrameNet地址 (又一个)自然语言处理(NLP)数据集列表: Nicolas Iderhoff地址 跨语种/多样式/多粒度文本相似性检测数据集: 地址 Quora数据集:400000行潜在重复问题: 地址 文本分类数据集: 地址 Frames:Maluuba对话数据集: 地址 跨域(Amazon商品评论)情感数据集: 地址 语义网机器学习系统评价/基准数据集集合: 地址 其他数据集 数据科学/机器学习数据集汇总地址 CORe50:连续目标识别数据集VincenzoLomonaco&DavideMaltoni地址 (Matlab)数据集统计分布自动发现Isabel Valera地址 (建筑物)损害评估数据集tsunami地址 IndieWeb社交图谱数据集IndieWeb地址 DeepMind开源环境/数据集/代码集合DeepMind地址 鸟叫声数据集xeno-canto地址 Wolfram数据集仓库地址 大型音乐分析数据集FMA地址 (300万)Instacart在线杂货购物数据集Jeremy Stanley地址 用于欺诈检测的合成财务数据集TESTIMON地址 NSynth:大规模高质量音符标记音频数据集地址 LIBSVM格式分类/回归/多标签/字符串数据集地址 笔记本电脑用logistic回归拟合100G数据集DmitriySelivanov地址 StackExchange近似/重复问题数据集地址 2010-2017最全KDD CUP赛题回顾及数据集地址 食谱数据集:带有评级、营养及类别信息的超过2万种食谱HugoDarwood地址 奥斯卡数据集Academy of Motion Picture Arts and Sciences地址 计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模AkshayBhat地址 聚类数据集地址 官方开放气候数据集地址 全球恐怖袭击事件数据集START Consortium地址 七个机器学习时序数据集地址 新的YELP数据集:包含470万评论和15.6万商家地址 JMIR数据集专刊《JMIR Data》地址 用于评价监督机器学习算法的基准数据集地址 人口普查收入数据集分类地址 日文木版印刷文字识别数据集地址 多模态二元行为数据集地址 NLP数据集加载工具集: 地址 日语相似词数据集:地址 大规模人本完形填空(多选阅读理解)数据集: 地址 高质量免费数据集列表 《数据之美》自然语言数据集/代码地址 微软数据集MS MARCO,阅读理解领域的”ImageNet”: Microsoft 地址 AI2科学问答数据集(多选): Kaggle地址
ACL 2019 会议一些重要论文 《Cognitive Graph for Multi-Hop Reading Comprehension at Scale》(ACL 2019)论文地址,GitHub地址 《Variational Pretraining for Semi-supervised Text Classification》(ACL 2019)论文地址,GitHub地址 《Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model》(ACL 2019)论文地址,GitHub地址 《Data-to-text Generation with Entity Modeling》(ACL 2019)论文地址,GitHub地址 《Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems》(ACL 2019)论文地址,GitHub地址 《Compositional Questions Do Not Necessitate Multi-hop Reasoning》(ACL 2019)论文地址,GitHub地址 《Syntactically Supervised Transformers for Faster Neural Machine Translation》(ACL 2019)论文地址,GitHub地址 《Expressing Visual Relationships via Language》(ACL 2019)论文地址,GitHub地址 《Controllable Paraphrase Generation with a Syntactic Exemplar》 (ACL 2019)论文地址,GitHub地址 《Attention Guided Graph Convolutional Networks for Relation Extraction》(ACL 2019)论文地址,GitHub地址 《DocRED: A Large-Scale Document-Level Relation Extraction Dataset》(ACL 2019)论文地址,GitHub地址 《Constrained Decoding for Neural NLG from Compositional Representations in Task-Oriented Dialogue》(ACL 2019)论文地址,GitHub地址 《Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation》(ACL 2019)论文地址,GitHub地址 《Matching Article Pairs with Graphical Decomposition and Convolutions》(ACL 2019)论文地址,GitHub地址 《Generating Question-Answer Hierarchies》(ACL 2019)论文地址,GitHub地址 《Interconnected Question Generation with Coreference Alignment and Conversation Flow Modeling》(ACL 2019)论文地址,GitHub地址 《AMR Parsing as Sequence-to-Graph Transduction》(ACL 2019)论文地址,GitHub地址 《Matching the Blanks: Distributional Similarity for Relation Learning》论文地址,Github地址 《Interconnected Question Generation with Coreference Alignment and Conversation Flow Modeling》论文地址,Github地址 《RankQA: Neural Question Answering with Answer Re-Ranking》(ACL 2019)论文地址,GitHub地址 《Dynamically Fused Graph Network for Multi-hop Reasoning》(ACL 2019)论文地址,GitHub地址 《Learning Compressed Sentence Representations for On-Device Text Processing》(ACL 2019)论文地址,GitHub地址 《Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention》(ACL 2019)论文地址,GitHub地址 《Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems》(ACL 2019)论文地址,GitHub地址 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extractionn》(ACL 2019)论文地址,GitHub地址 《Learning Deep Transformer Models for Machine Translation》(ACL 2019)论文地址,GitHub地址
总结性论文 论文标题: Representation Learning: A Review and New Perspectives; 作者:Yoshua Bengio, Aaron Courville, and Pascal Vincent. TPAMI 2013. 论文地址. 论文标题:知识表示学习研究进展; 作者:刘志远,孙茂松,林衍凯,谢若冰.计算机研究与发展2016. 论文地址 论文标题: A Review of Relational Machine Learning for Knowledge Graphs; 作者:Maximilian Nickel, Kevin Murphy, Volker Tresp, Evgeniy Gabrilovich. Proceedings of the IEEE 2016. 论文地址 论文标题: Knowledge Graph Embedding: A Survey of Approaches and Applications. 作者:Quan Wang, Zhendong Mao, Bin Wang, Li Guo. TKDE 2017. 论文地址 期刊和会议论文 RESCAL模型 论文标题: A Three-Way Model for Collective Learning on Multi-Relational Data. 作者: Maximilian Nickel, Volker Tresp, Hans-Peter Kriegel. ICML 2011. 论文地址,论文代码 描述:RESCAL模型是一种用于指示表示的张量分解方法,它能够分解的潜在组成部分执行集体学习. SE模型 论文标题: Learning Structured Embeddings of Knowledge Bases. 论文作者: Antoine Bordes, Jason Weston, Ronan Collobert, Yoshua Bengio. AAAI 2011. 论文地址 描述:SE模型假设头实体和尾实体在依赖关系子控件中是相似的,其中每个关系是由两个不同的矩阵表示的. LFM模型 论文标题:A Latent Factor Model for Highly Multi-relational Data. 作者:Rodolphe Jenatton, Nicolas L. Roux, Antoine Bordes, Guillaume R. Obozinski. NIPS 2012. 论文地址 描述:LFM基于双线性结构,该结构捕获数据交互作用的变异顺序,并在不同关系之间共享稀疏的潜在因素. NTN模型 论文标题:Reasoning With Neural Tensor Networks for Knowledge Base Completion. 作者:Richard Socher, Danqi Chen, Christopher D. Manning, Andrew Ng. NIPS 2013. 论文地址 描述:NTN是一个神经网路,允许通过张量介导实体矢量的交互.NTN模型可能是迄今为止最具有表现力的模型,但是处理大型KG的方法还不够简单和有效 TransE模型 论文标题: Translating Embeddings for Modeling Multi-relational Data. 作者: Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, Oksana Yakhnenko. NIPS 2013. paper code 论文地址,论文代码 描述: TransE模型是第一个介绍基于翻译的嵌入,其中将关系解释作为实体上的翻译操作. TransH模型 论文标题: Knowledge Graph Embedding by Translating on Hyperplanes. 作者: Zhen Wang, Jianwen Zhang, Jianlin Feng, Zheng Chen. AAAI 2014. paper code 论文地址,论文源码 描述:为了保留1-N,N-1,N-N关系的映射属性,TransH将关系解释为超平面上的平移操作,另外,TransH提出”Bern”,这是一种构建负实例的策略. TransR & CTransR模型 论文标题: Learning Entity and Relation Embeddings for Knowledge Graph Completion. 作者: Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, Xuan Zhu. AAAI 2015. 论文地址,论文源码:KB2E,OpenKE 描述: 一个实体可能会有多个方面,各种关系可能几种在实体的不同方面,TransR首先将实体从实体空间投影到对应的关系空间,然后在投影的实体之间构建转换.CTransR通过将不同的首位实体聚类,并为每个组学习不同的关系向量来扩展TransR,这是对每种关系类型内部相关性进行建模的初步探索. TransD模型 论文标题:Knowledge Graph Embedding via Dynamic Mapping Matrix. 作者:Guoliang Ji, Shizhu He, Liheng Xu, Kang Liu, Jun Zhao. ACL 2015. 论文地址,论文源码KB2E,OpenKE 描述:TransD 模型通过同事考虑实体和关系的多样性为每个实体关系对构造一个动态映射矩阵.与TransR/CTransR相比,TransD具有较少的参数,并且没有矩阵向量乘法. TransA模型 论文标题:An Adaptive Approach for Knowledge Graph Embedding. 作者:Han Xiao, Minlie Huang, Hao Yu, Xiaoyan Zhu. arXiv 2015. 论文地址 描述:应用椭圆等势超曲面并为关系加权特定的特征尺寸,TransA模型可以对复杂的实体和关系建模. KG2E模型 论文标题: Learning to Represent Knowledge Graphs with Gaussian Embedding. 论文作者: Shizhu He, Kang Liu, Guoliang Ji and Jun Zhao. CIKM 2015. paper code 论文描述: 不同的实体和关系可能包含不同的确定性,这表示在给三元组评分的时候表示语义的置信度.KG2E通过高斯分布表示每个实体/关系,其中均值表示其位置,协方差表示其确定性. 论文地址,论文源码 DistMult模型 论文标题: Embedding Entities and Relations for Learning and Inference in Knowledge Bases. 论文作者: Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, Li Deng. ICLR 2015. 论文地址,论文源码 描述:DistMult模型基于双线性模型,其中每个关系由对角线而不是完整矩阵表示,DistMult模型享有与TransE模型相同的可伸缩性,与TransE模型相比,具有更加出色的性能. PTransE模型 论文标题:Modeling Relation Paths for Representation Learning of Knowledge Bases. 论文作者:Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, Song Liu. EMNLP 2015. 论文地址,论文源码 描述:多步关系路径在实体之间包含有丰富的推理模式.PtransE模型将关系路径视为实体之间的转换,并设计了一种出色的算法来测量关系路径的可靠性.实验表明,PTransE在KBC和RE任务方面取得了显著改进. RTransE 论文标题: Composing Relationships with Translations. 论文作者: Alberto García-Durán, Antoine Bordes, Nicolas Usunier. EMNLP 2015. 论文地址 描述:RTransE学习通过添加关系的相应翻译向量来显式地建模关系的构成.此外,实验还包括一个新的评估协议,其中该模型直接回答与关系构成有关的问题. ManifoldE模型 论文标题: From One Point to A Manifold: Knowledge Graph Embedding For Precise Link Prediction. 论文作者: Han Xiao, Minlie Huang and Xiaoyan Zhu. IJCAI 2016. 论文地址 描述:ManifoldE模型将基于评议原理的点式建模扩展为流形式建模,克服了几何形状过高的问题,并为精确链接预测实现了显著改进. TransG模型 论文标题: A Generative Mixture Model for Knowledge Graph Embedding. 论文作者: Han Xiao, Minlie Huang, Xiaoyan Zhu. ACL 2016. 论文地址,论文源码 描述:知识图中的关系可能具有关联的实体对所揭示的不同含义.TransG通过贝叶斯非参数无限混合模型为关系生成多个平移分量. ComplEx模型 论文标题: Complex Embeddings for Simple Link Prediction. 论文作者: Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier and Guillaume Bouchard. ICML 2016. paper code OpenKE 论文地址,论文源码,OpenKE 描述:ComplEx模型通过引入复数值Embedding来扩展DistMult模型,以便更好地对非对称关系进行建模.事实证明,ComplEx模型将HolE归为特例. ComplEx extension模型 论文标题: Knowledge Graph Completion via Complex Tensor Factorization. 论文作者: Théo Trouillon, Christopher R. Dance, Johannes Welbl, Sebastian Riedel, Éric Gaussier, Guillaume Bouchard. JMLR 2017. 论文地址,论文源码,OpenKE HolE模型 论文标题: Holographic Embeddings of Knowledge Graphs. 论文作者: Maximilian Nickel, Lorenzo Rosasco, Tomaso A. Poggio. AAAI 2016. 论文地址,论文源码,OpenKE 描述: HolE使用循环相关来创建成分表示.HolE可以捕捉丰富的交互,但同时仍然可以高效地进行计算. KR-EAR模型 论文标题: Knowledge Representation Learning with Entities, Attributes and Relations. 论文作者: Yankai Lin, Zhiyuan Liu, Maosong Sun. IJCAI 2016. 论文地址,论文源码 描述:现有的KG关系可以分为属性和关系,它们具有相当不同的特征,KG-EAR是具有实体,属性和关系的KR模型法,它对实体描述之间的相关性进行编码. TranSparse模型 论文标题: Knowledge Graph Completion with Adaptive Sparse Transfer Matrix. 论文作者:Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. AAAI 2016. 论文地址,论文源码 描述:知识图谱中的实体和关系是异构的并且是不平衡的.为了克服异质性,TransSparse模型使用稀疏矩阵为关系建模.为了解决关系不平衡的问题,每个关系对于头实体和尾实体具有两个单独的稀疏传递矩阵. TKRL模型 论文标题:Representation Learning of Knowledge Graphs with Hierarchical Types. 论文作者:Ruobing Xie, Zhiyuan Liu, Maosong Sun. IJCAI 2016. [论文地址]http://www.thunlp.org/~lzy/publications/ijcai2016_tkrl.pdf),论文源码 描述:实体应具有不同类型的多种表示形式,TKRL是捕获分层类型信息的首次尝试,这对于KRL具有重要意义. TEKE模型 论文标题:Text-Enhanced Representation Learning for Knowledge Graph. 论文作者:Zhigang Wang, Juan-Zi Li. IJCAI 2016. 论文地址 描述:TEKE合并了丰富的文本内容信息,以扩展知识图的语义结构.因此使得每个关系能够针对不同的头实体和尾实体拥有不同的表示,以便于更好地处理1-N,N-1,N-N关系.TEKE处理1-N,N-1,N-N关系的低性能和KG稀疏的问题. STransE模型 论文标题:A Novel Embedding Model of Entities and Relationships in Knowledge Bases. 论文作者:Dat Quoc Nguyen, Kairit Sirts, Lizhen Qu and Mark Johnson. NAACL-HLT 2016. 论文地址,论文源码 描述:STransE是SE和TransE模型的简单组合,使用两个投影矩阵和一个转换向量来表示每个关系.STransE在链接预测评估上产生具有竞争力的结果. GAKE模型 论文标题:Graph Aware Knowledge Embedding. 论文作者:Jun Feng, Minlie Huang, Yang Yang, Xiaoyan Zhu. COLING 2016. 论文地址,论文源码 描述:将知识库作为有向图而不是独立的三元组,GAKE利用图上下文(邻居/路径/边缘上下文)来学习知识表示.此外,GAKE设计了一种注意力机制来学习不同主题代表的能力. DKRL模型 论文标题:Representation Learning of Knowledge Graphs with Entity Descriptions. 论文作者:Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, Maosong Sun. AAAI 2016. 论文地址,论文源码 描述:DKRL利用实体描述的优势来学习知识表示,zero-shot设置下的出色表现表明DKRL能够根据其描述为新颖的实体构建表示形式. ProPPR模型 论文标题:Learning First-Order Logic Embeddings via Matrix Factorization. 论文作者:William Yang Wang, William W. Cohen. IJCAI 2016. 论文地址 描述:ProPPR模型是第一个研究从头开始学习低维一阶逻辑embeddings,同时将基于公式embeddings的概率逻辑推理扩展到大型知识图的问题的形式研究. SSP模型 论文标题: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions. 论文作者: Han Xiao, Minlie Huang, Lian Meng, Xiaoyan Zhu. AAAI 2017. 论文地址 描述:SSP模型通过针对最新技术水平的基线进行embedding改进来对三元组和文本相关性之间的强相关进行建模. ProjE模型 论文标题: Embedding Projection for Knowledge Graph Completion. 论文作者: Baoxu Shi, Tim Weninger. AAAI 2017. 论文地址,论文源码 描述: ProjE将KGC任务是为排名问题,并将候选实体投影到一个向量上,该向量表示输入三元组已知部分的组合嵌入.此外,ProjE可以优化候选实体列表的整体排名损失,可以将ProjE是为NTN的简化版本. ANALOGY模型 论文题目: Analogical Inference for Multi-relational Embeddings. Hanxiao Liu, Yuexin Wu, Yiming Yang. ICML 2017. 论文地址,论文源码 描述:类比推理对知识库的完成非常有用.ANALOGY模型对知识嵌入中的类比结构进行建模.另外,证明了Dismult,Hole和ComplEx是ANALOGY模型的特例. IKRL模型: 论文题目: Image-embodied Knowledge Representation Learning. 论文作者: Ruobing Xie, Zhiyuan Liu, Tat-Seng Chua, Huan-Bo Luan, Maosong Sun. IJCAI 2017. 论文地址,论文源码 描述:IKRL模型是将图像与知识图谱相结合以进行KRL的首次尝试,其鼓舞人心的结果表现表明视觉信息对于KRL的重要性. ITransF模型 论文题目: An Interpretable Knowledge Transfer Model for Knowledge Base Completion. 论文作者: Qizhe Xie, Xuezhe Ma, Zihang Dai, Eduard Hovy. ACL 2017. 论文地址 描述:配置了稀疏注意力机制的ITransF发现了隐藏的关系概念,并通过概念共享来传递统计强度.此外,可以轻松地解释由稀疏注意力向量表示的关系和概念之间的学习关联. RUGE模型 论文题目: Knowledge Graph Embedding with Iterative Guidance from Soft Rules. 论文作者: Shu Guo, Quan Wang, Lihong Wang, Bin Wang, Li Guo. AAAI 2018. 论文地址,论文源码 描述:RUGE模型是第一个在有原则的框架中对embeddings学习和逻辑推理之间的交互进行建模的工作.它使得embeddings模型能够以迭代的方式同时从标记的三元组,未标记的三元组和软规则中学习. ConMask模型 论文题目: Open-World Knowledge Graph Completion. 论文作者: Baoxu Shi, Tim Weninger. AAAI 2018. 论文地址 描述:ConMask模型是一种新颖的开放世界知识图谱补全模型,该模型使用依赖关系内容的mask,完全卷积神经网络和语义平均从KG中的实体和关系的文本特征中提取依赖关系的嵌入. TorusE模型 论文标题:Knowledge Graph Embedding on a Lie Group. 论文作者:Takuma Ebisu, Ryutaro Ichise. AAAI 2018. 论文地址 TorusE模型模型在李群上定义了TransE模型,可以将紧凑型李群之一的torus选择作为embeddings,以避免规则化.TorusE是第一个将对象嵌入到实数或者复数向量空间以外的对象的模型,并且是第一个正是讨论TransE模型的正则化问题的模型. 一种基于双向模型的多种链接预测模型 论文题目: On Multi-Relational Link Prediction with Bilinear Models. 论文作者: Yanjie Wang, Rainer Gemulla, Hui Li. AAAI 2018. 论文地址,论文源码 描述:主要目的是探索文献中提出的用于指示图谱嵌入的各种双线性模型的表达性和它们之间的联系.这篇论文中还提供了证据,表明多个双线性模型的关系级合奏可以实现最新的预测性能. 一种2D卷积神经网络的模型 论文题目: Convolutional 2D Knowledge Graph Embeddings. 论文作者: Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel. AAAI 2018. 论文地址,论文源码 描述:ConvE模型是用于KG链接预测的多层卷积网络模型,它展示了几个已经建立数据集的最新结果.与以前的工作不同,它侧重于可以缩放到大型知识图谱的浅层,ConvE模型使用2D卷积核多层非线性特征对KG进行建模. 一种精确文本增强型知识图谱表示学习 论文题目: Accurate Text-Enhanced Knowledge Graph Representation Learning. 论文作者: Bo An, Bo Chen, Xianpei Han, Le Sun. NAACL-HLT 2018. 论文地址 描述:这篇论文提出了一种精确的文本增强型知识图谱表示框架,该框架可以利用精确的文本信息来增强三元组的知识表示,并可以通过提及的关系和实体描述之间的相互关注模型有效地处理关系和实体之间的歧义. KBGAN模型 论文题目: Adversarial Learning for Knowledge Graph Embeddings. 论文作者: Liwei Cai, William Yang Wang. NAACL-HLT 2018. 论文地址,论文源码 描述:KBGAN利用对抗性学习来生成有用的负面训练实例,以改善知识图谱的embeddings,该框架可以应用各种KGE模型. ConvKB模型 论文题目: A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network. 论文作者:Dai Quoc Nguyen, Tu Dinh Nguyen, Dat Quoc Nguyen, Dinh Phung. NAACL-HLT 2018. 论文地址,论文源码 描述:ConvKB模型在实体的相同维度条目和关系embeddings之间应用全局关系,因此ConvKB在基于过渡的embeddings模型中归纳了过渡特征.另外在WN18RR和FB15K237上评估了ConvKB模型. 使用图卷积网络的模型 论文题目: Modeling Relational Data with Graph Convolutional Networks. 论文作者: Michael Schlichtkrull, Thomas N. Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling. ESWC 2018. 论文地址,论文源码1,论文源码2 描述:R-GCN 将图卷积网络应用于关系知识库,从而为链接谓词和实体分类任务撞见新的编码器. 使用简单约束增强图embeddings的方法 论文题目: Improving Knowledge Graph Embedding Using Simple Constraints. 论文作者: Boyang Ding, Quan Wang, Bin Wang, Li Guo. ACL 2018. 论文地址,论文源码 描述:本文研究了使用非常简单的约束来改善KG嵌入的潜力,它检查了实体表示形式的非负约束和关系表示形式的近似蕴含约束. 实例与概念区分下的知识图谱的embeddings 论文题目: Differentiating Concepts and Instances for Knowledge Graph Embedding. 论文作者: Xin Lv, Lei Hou, Juanzi Li, Zhiyuan Liu. EMNLP 2018. 论文地址,论文源码 概述:TransC模型通过区分概念和实例,提出了一种新颖的知识图谱embeddings模型,具体来说,TransC在相同的语义空间中将知识图谱中的每个概念编码为一个球体,并将每个实例编码为一个矢量. SimplE模型 论文标题: SimplE Embedding for Link Prediction in Knowledge Graphs. 论文作者: Seyed Mehran Kazemi, David Poole. NeurIPS 2018. 论文地址,论文源码 描述:SimplE模型模型是对CP(规范多联体)的简单增强,从而可以独立地学习每个实体的两个嵌入.SimplE模型的复杂度随着嵌入的大小线性增长.通过SimplE模型学习到的embeddings是可以解释的,并且可以通过权重绑定将某些类型的背景知识并入这些embeddings之中. RotatE模型 论文题目: Knowledge Graph Embedding by Relational Rotation in Complex Space. 论文作者: Zhiqing Sun, Zhi Hong Deng, Jian Yun Nie, Jian Tang. ICLR 2019. 论文地址,论文源码 描述:RotatE模型推断各种关系模式,包括有:对称/反对称,反演和组成.具体而言,RotatE模型将每个关系定义为在复矢量空间中从源实体到目标实体的旋转. TuckER模型 论文题目: Tensor Factorization for Knowledge Graph Completion. 论文作者: Ivana Balazˇevic ́, Carl Allen, Timothy M. Hospedales. arxiv 2019. 论文地址,论文源码 描述:TuckER模型是一个相对简单但是功能强大的线性模型,基于知识图谱三元组的二元张量表示的TuckER分解.TuckER模型是一个完全表达的模型,它推导了其实体和关系embeddings维度的界限,以实现完全表达,它比以前的ComplEx和SimplE模型的界限要小几个数量级.此外,TuckER模型达到了最先进的性能. CrossE模型 论文题目: Interaction Embeddings for Prediction and Explanation in Knowledge Graphs. 论文作者: Wen Zhang, Bibek Paudel, Wei Zhang. WSDM 2019. 论文地址 描述: CrossE模型是一种新颖的知识图谱embeddings,可明确模拟交叉交互.它不仅像大多数以前的方法一样为每个实体和关系学习一个通用embeddings,而且还为这两个实体和关系生成多个三重特定的embeddings,称之为交互embeddings. 基于注意力基础的embeddings 论文题目:Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs. 论文作者: Deepak Nathani, Jatin Chauhan, Charu Sharma, Manohar Kaul. ACL 2019. 论文地址,论文源码,博客 描述:这是一种新颖的基于注意力的特征embeddings模型,可以捕获任何给定实体邻域中的实体和关系特征.该体系结构是一个编码器-解码器模型,其中广义图注意力模型和ConvKB分别扮演编码器和解码器的角色. RSN模型 论文标题: Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs. 论文作者: Lingbing Guo, Zequn Sun, Wei Hu. ICML 2019. 论文地址,论文补充说明,论文源码 描述:RSN模型将递归神经网络与残差学习相结合,以有效地捕捉KG内部和KG之间的实体的长期关系依赖性.我们还设计了一个端到端框架,以在两个任务链接预测和实体对齐上支持RSN模型. DihEdral模型 论文标题: Relation Embedding with Dihedral Group in Knowledge Graph. 论文作者: Canran Xu, Ruijiang Li. ACL 2019. 论文地址 描述:DihEdral模型用二面体组的表示来建模知识图谱中的关系.它是一个双线性模型,由于二面体基团的特性,它支持关系对称,倾斜对称,反演,阿贝尔群和非阿贝尔群. CapsE模型 论文标题: A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization. 论文作者: Dai Quoc Nguyen, Thanh Vu, Tu Dinh Nguyen, Dat Quoc Nguyen, Dinh Q. Phung. NAACL-HIT 2019. 论文地址,论文源码 描述:CapsE模型使用胶囊网络在相同维度上对三元组中的条目进行建模.高级假设是每个胶囊都说明实体的关系特定属性的捕获变体.最终向量的长度用作三元组的合理性得分. CaRe模型 论文题目:CaRe:Open Knowledge Graph Embeddings 论文作者:Swapnil Gupta, Sreyash Kenkre, Partha Talukdar. EMNLP-IJCNLP 2019. 论文地址,论文源码 描述:CaRe模型专注于OpenKG的规范化,改模型结合规范化信息和邻域图结构来学习NP的丰富表示形式,并且它捕获了RP的语义相似性.
1. 简介 在上一次博文中重点讨论了一些用于生成Embedding预训练向量最为基本的模型,例如TransE、TransR、TransH等等很多模型,但是这些模型中存在有多种不确定的影响因素,所以直接以距离模型稍微有些欠缺.因此提出一种基于高斯分布的模型来对Embedding进行预训练. 2. 基于高斯分布模型 2.1 KG2E 模型 由于上述的几种翻译模型中的方法都是将实体和关系嵌入到点向量空间中,这些模型总是以同样的方式看待所有的实体和关系,由于实体库中的实体和关系本身就存在一定的不确定性,以前的方法模型忽略了这一不确定性因素.
1. 翻译模型简介 将实体向量表示(Embedding)在低维稠密向量空间中,然后进行计算和推理.应用的主要方向有三元组分类、链接预测等问题.具体的一些翻译模型主要有:基本翻译模型(TransE, TransH, TransR, etc)、双线性(RESCAL, DisMult, ComplEx, etc)、双曲几何(Poincare, MuRE, etc)、神经网络(ConvE, CapsE, etc)、旋转(RotatE, QuatE, DihEdral, etc)等等类别,近几年对于翻译模型有很多不同的变种,在接下来几篇博文中会详细梳理这些翻译模型. 给定训练集$S$,由包含头实体和尾实体以及他们之间关系的三元组(h,r,t)构成,通过模型学习实体和关系的嵌入向量.模型的基本思想是,由r边产生的函数关系,这个关系映射嵌入的转换,也就是说,在学习过程中希望$h+r$与尾实体$t$尽可能相似. 为了学习这种嵌入表示,对训练集构建基于边缘的”最小化评价指标函数”: \[\mathcal{L}=\sum\limits_{(h,r,t)\in{S}}\sum\limits_{(h^{\prime},r,t^{\prime})\in{S^{\prime}}}\left[\gamma+d(h+r,t)-d(h^{\prime}+r,t^{\prime})\right]_{+}\] 其中$[\cdot]_{+}$表示$\max(0,x)$,$d(\cdot)$表示一种衡量三元组能量的距离函数,可以是L1范数或者是L2范数,r表示的是三元组正实例和负实例的间隔,为超参数.从姆比爱函数中需要负实例$(h^{\prime},r,t^{\prime})$来进行函数的优化.知识图谱中存储的均为正实例,所以在这里需要人为地构建负实例.常常使用以下的方法构建负实例:从知识图谱中随机抽取其他头实体和尾实体来替换当前三元组中头实体或者是尾实体,但是为了防止替换之后的三元组也是正实例,这里算法的限制是替换过程不能同时进行. \[S_{(h,r,t)}^{\prime}=\left\{(h^{\prime},r,t)\left|h^{\prime}\in{E}\right.\right\}\cup\left\{(h,r,t^{\prime})\left|t^{\prime}\in{E}\right.\right\}\] 然后,在可能的$(h,r,t)$三元组基础上,使用随机梯度下降算法进行优化,并且添加附加的约束条件:\ 实体的嵌入L2范数为1 标签Embedding的没有正则化或范数约束,这是因为防止了训练过程认为增加实体Embedding规范来微不足道地最小化L. 有时候也会应用到cos距离模型等等来计算相对应的分数. 2. 基本翻译模型 2.1 TransE模型 最初在知识图谱中提出的一种模型是TransE1模型.TransE模型最初的目的是将实体间的关系表示为在实体的低维空间中的平移等转换操作.尽管是一种简单的空间转换操作,但是也是一种很强大的模型.Multi-relation data(多元关系数据)指的是在有向图中,节点对应的是entities(实体)和edges(关系),给定知识图谱(h,r,t),其中h为头实体集合,t为尾实体集合,r是关系集合.在很多领域,例如社会网络分析(分析用户实体的社交关系),推荐系统(用户实体和商品实体间的购买、评级、浏览和搜索的关系),知识图谱.现在提出的问题和任务是,使用多关系数据构建一个模型,能够提供一种有效的工具,自动添加新的事实而无需通过额外的知识. (1) 构建多元关系数据信息:通常关系数据包括有单一关系数据和多元关系数据.单一关系通常是结构化的,可以直接进行简单的推理;多元关系则依赖于多种类型的实体和关系,因此需要一种通用的方法能够同时考虑异构关系. (2) 关系可以作为embedding空间的翻译.TransE模型中关系则是表示为Embedding空间中的平移.即如果存在头实体和尾实体之间的关系实体对(h,r,t),那么尾实体t必须接近于头实体在地位嵌入空间中添加一个关系向量r的结果. 实际上TransE模型就是直接计算出$d(h+r,t)=\left|\left|(h+r)-t\right|\right|\approx{0}$来对实体和关系建模,将它们映射到相同的向量空间中,如图所示. 2.2 TransH模型 TransE是一种有效的方法,同时能够获得比较好的预测结果,虽然可以在大量数据的条件下可以快速有效进行训练,但是模型过于简单,并不能够很好的表征实体对之间的语义关系.另外对于处理负载关系数据(一对多、多对一和多对多)时候,过于简单的假设可能导致错误的表征,尤其是对于一对多的情形,即同一个头实体$h$和关系$r$可能对应多个尾实体,这样训练之后的结果可能是$h_{1}\approx{h_{2}}\approx{h_{3}}$,这明显是错误的,需要对此进一步进行改进.这样TransH模型就被提出来了.知识图谱是一种多元关系表示的图,其中包含有一些实体(节点)和关系(不同类型的边)组成.一个边的示例代表一个事实,包含头实体、关系和尾实体,通常表示为$(h,r,t)$.知识图谱依然存在以下的两个主要的挑战: (1) 知识图谱是一种由符号和逻辑组成的系统,基于此的一些应用涉及到连续空间内大规模的计算 (2) 很难把全局信息聚集在图中. TransE总而言之有以下的一些缺点 TransE模型中无法解决自反,1-N,N-N,N-1等等关系. TransE中构造负三元组样本的方式是随机替换三元组中的h或者是t,由于只是图谱不能包含所有的知识,可能会构造出正确的三元组,但是却将它当做负样本进行处理,这样就构造出了假阴性的标签. TransH由(Zhang J .)2等提出,传统的方法是基于形式化逻辑推理的方法,但是处理长范围的推理显得不那么容易处理,健壮性较低.TransH模型是将实体映射到关系所在的超平面上,每个关系包含两个向量$w_{r}$和$d_{r}$,分别表示超平面的法向量和在超平面内的翻译向量.关系对应的超平面确定,因此法向量$w_{r}$也是确定的,而三元组中头实体和尾实体分别投影到这个超平面上形成的向量之间存在一定的映射关系,$d_{r}$便是这个映射关系的翻译向量. 假设一个三元组(h,r,t)对应的向量分别是h,r,t,关系r的对应投影矩阵设为$w_{r}$,如图所示 总之,TransH中有以下的一些基本思想: (1) 提出一种基于翻译的模型TransH,将relation看作是在低维空间中由head到tail在某个超平面上的一种翻译; (2) 提出了一种构造负三元组样本的方法,为每种替换设置不同的概率,使得1-n关系中替换掉h和n-1关系中替换掉t有着更大的概率. TranH模型方法如下所示: \[h_{\perp}=h-w_{r}^{T}hw_{r}\] \[t_{\perp}=t-w_{r}^{T}tw_{r}\] 所以这样的三元组评判的方法为$d(h+r,t)=\left|\left|h_{\perp}+d_{r}-t_{\perp}\right|\right|$. 为保证约束条件: \[\forall{e\in{E}},||e||_{2}\leq{1}\] \[\forall{r\in{R}},\dfrac{|w_{r}^{T}d_{r}|}{||d_{r}||_{2}}\leq{\epsilon}\] \[\forall{r\in{R}},||w_{r}||_{2}=1\] 所以在margin loss函数中加入以下形式的正则化项 \[\mathcal{L}=\sum\limits_{(h,r,t)\in{S}}\sum\limits_{(h^{\prime},r,t^{\prime})\in{S^{\prime}}}\left[\gamma+d(h+r,t)-d(h^{\prime}+r,t^{\prime})\right]_{+}\] \[+C\left\{\sum\limits_{e\in{E}}\left[||e||_{2}^{2}-1\right]_{+}+\sum\limits_{r\in{R}}\left[\dfrac{(w_{r}^{T}d_{r})^{2}}{||d_{r}||_{2}^{2}}-\epsilon^{2}\right]_{+}\right\}\] $C$是一个衡量约束项的重要性的一个超参数.设每个tail对应的head数量的平均数为tph,每个head对应的tail数量的平均数为hpt,定义参数为$\dfrac{\text{tph}}{\text{tph}+\text{hpt}}$和$\dfrac{\text{hpt}}{\text{tph}+\text{hpt}}$的二项分布来进行抽样,即有以下的方法: (1) 以$\dfrac{\text{tph}}{\text{tph}+\text{hpt}}$的概率来替换头实体 (2) 以$\dfrac{\text{hpt}}{\text{tph}+\text{hpt}}$的概率来替换尾实体 2.3 TransR模型 TransH模型能够通过将关系视为一种从头实体到尾实体的翻译机制来获得实体和关系的表征,然而一个实体可能会有多个不同方面的特征,关系可能关注实体不同方面的特征,公共的实体特征不能够表征.所以提出TransR模型3,即构建实体和关系表征,将实体空间和关系空间相分离.训练的时候首先通过将实体映射到关系空间中,其次在两个投影实体之间构建翻译关系. TransR模型的主要思路如下所示,如图: 假设实体对(h,r,t),首先根据当前的关系r将头尾实体分别映射到关系空间中$h_{r},t_{r}$,然后在关系空间中建模$h_{r}+r\approx{t_{r}}$.另外在特定的关系情况下,实体对通常表现出不同的模式,因而不能单纯地将关系直接与实体对进行操作,通过将不同的头尾实体对聚类成组,并为每个组学习不同的关系向量来扩展TransR模型,这种模型在论文中称为CTransR模型. 对于TransR模型来说,假设三元组实体对为$(h,r,t)$的表征为$h,t\in{R^{k}},r\in{R^{d}}$,其中$k\neq{d}$,对于每个关系$r$给定映射矩阵$M\in{R^{k\times{d}}}$,所以这样的转换可以得到 \[h_{r}=hM_{r},t_{r}=tM_{r}\] 这样得分函数定义为$d(h+r,t)=\left|\left|h_{r}+r-t_{r}\right|\right|_{2}^{2}$,其中的约束条件为 \[\left|\left|h\right|\right|_{2}\leq{1},\left|\left|r\right|\right|_{2}\leq{1},\left|\left|t\right|\right|_{2}\leq{1},\left|\left|hM_{r}\right|\right|_{2}\leq{1},\left|\left|tM_{r}\right|\right|_{2}\leq{1}\] 对于CTransR模型来说,计算的方法如下所示 (聚类操作)首先将输入示例分为多个组,对于特定的关系$r$,所有实体对$(h,t)$可以被聚类到多个簇中,每个簇的实体对(h,r,t)可以被聚类到多个簇中,每个簇中的实体对可以被认为与关系$r$有关系. 为每个簇对应的关系向量$r_{c}$表征,并得到$M_{r}$,然后将每个簇中的头实体和尾实体映射到对应关系空间中 \[h_{r,c}=hM_{r},t_{t,c}=tM_{r}\] 最后得分函数如下所示: \[d(h+r,t)=\left|\left|h_{r,c}+r_{c}-t_{r,c}\right|\right|_{2}^{2}+\alpha\left|\left|r_{c}-r\right|\right|_{2}^{2}\] 2.4 TransD模型 TransD模型是由文章4所提出来的一个模型,对于TransE、TransH和TransR模型来说,认为头实体到尾实体可以被认为是一种翻译模型,TransD模型则更为细粒度的一个模型,相比之前的模型有所提高,TransD模型中使用两个embedding表征实体之间的关系,第一个向量表征实体关系,另一个是用来构建动态映射矩阵.TransR模型具有以下的一些缺点: (1) 对于特定的关系r,所有实体共享同一个语义空间$M_{r}$,因此实体需要映射待不同的语义空间中; (2) 实体和关系的投影操作是一个连续迭代的操作,仅仅依靠关系进行推理是不足的; (3) 矩阵向量带来大量的参数运算量. TransD模型如图所示 定义了两个向量,第一个向量表征实体或者关系的语义,另外一个向量(投影向量)表示如何将实体从实体空间映射到关系空间中,因此每个实体对有唯一的矩阵.矩阵$M_{rh},M_{rt}$分别是实体$h,t$的映射矩阵.这样就会得到 \[M_{rh}=r_{p}h_{p}^{T}+I^{m\times{n}},M_{rt}=r_{p}t_{p}^{T}+I^{m\times{n}}\] \[h_{\perp}=M_{rh}h,t_{\perp}=M_{rt}t\] 所以最后的评分函数表示为 \[d(h+r,t)=\left|\left|h_{\perp}+r-t_{\perp}\right|\right|_{2}^{2}\] 2.5 Transparse模型 TransE,TransH,TransR(CTransR)和TransD模型均一步步改进了知识表示的方法,完善知识补全工作上逐渐提高效果.这些模型中忽略了知识图谱中的两个重要特性 (1) 异质性:知识图谱中的异质性是指不同关系对应的实体对数量不一致 (2) 不平衡性:是指头尾实体的数量是不一致的 由于数量的不对等,所以这样数量较多的对应关系的实体对或者头尾实体它们包含的信息应该越多,而前面的几种模型忽略了这一点,使得针对每个实体对都用同样的方法训练,势必会导致数量多的部分出现欠拟合,数量少的部分出现过拟合现象,所以由此提出TranSparse模型来改进这一个问题. 解决这样一个问题的策略是引用系数矩阵,首先对于异质性,提出了TranSparse(Share),系数因子取决于关系链接对应的实体对数量,并且两个实体对应的关系投影矩阵是相同的.对于不平衡性,提出TranSparse(Separate),每个关系对应的实体对中,头尾实体使用不同的关系投影矩阵. 稀疏矩阵指的是一个矩阵中包含有大量的零元素,而零元素所占重元素个数的比值为稀疏因子$\theta$,稀疏因子$\theta$越大表示这个矩阵是越稀疏的,用$M(\theta)$表示系数因子为$\theta$的矩阵. 主要的思想:先前的模型中,不论关系对应的实体或者实体对数量多少,训练参数是相同的,因此可能导致数量少的实体或者实体对训练会过拟合,数量多的实体或者实体对训练欠拟合,故而这需要考虑到参数与实体对之间的数量关系.在TranSparse中,假设$N_{r}$表示关系$r$链接的实体对数量,$N_{r^{*}}$表示其中最大值,$r^{*}$表示对应的关系,再设$\theta_{\min}(0\leq{\theta_{\min}}\leq{1})$表示的是矩阵$M_{r^{*}}$的稀疏因子,则会有 \[\theta_{r}=1-(1-\theta_{\min})\dfrac{N_{r}}{N_{r*}}\] 通过此公式可知最大实体对数量为基数,其他实体对数量与之比值作为相对复杂度,该公式可计算对应关系投影矩阵的系数因子,其次可以将头尾实体分别映射到关系空间中 \[h_{p}=M_{r}(\theta_{r})h,t_{p}=M_{r}(\theta_{r})t\] TranSparse(Separate)与Share不同,头尾实体分别映射到不同的关系空间中.$N_{r}^{l}$表示”头实体-关系”映射矩阵$M_{r}^{h}(\theta_{r}^{h})$和”尾实体-关系”映射矩阵$M_{r}^{t}(\theta_{r}^{t})$.对于关系$r$,最大数量头尾实体$h^{*}$和$t^{*}$分别对应的数量为$N_{r^{*}},N_{t^{*}}$.因此”头实体-关系”映射矩阵的稀疏因子为 \[\theta_{r}^{h}=1-(1-\theta_{\min})\dfrac{N_{r}^{h}}{N_{r*}^{h^{*}}}\] 故而头尾实体分别映射到关系空间中: \[h_{p}=M_{r}^{h}(\theta_{r}^{h})h,t_{p}=M_{r}^{t}(\theta_{r}^{t})t\] 最后得分函数为 \[d(h,r,t)=\left|\left|h_{p}+r-t_{p}\right|\right|^{2}_{l1/2}\] 3.模型评价方法 翻译模型经常使用的到的算法评价指标有以下的几种: (1) 正确实体的平均排名.正确实体的平均排序得分简称为MeanRank,此值越小越好,这也是衡量链接预测的重要指标. (2) 正确实体排名在前10的概率,正确实体排在前10名的概率简称为Hits\@10,此值越大越好,这也是衡量链接预测的重要指标. (3) 准确率,三元组分类任务使用准确率作为评价指标,计算方法为 \[ACC=\dfrac{T_{p}+T_{n}}{N_{pos}+N_{neg}}\] 其中,$T_{p}$表示预测正确的正例三元组个数;$T_{n}$表示预测正确的负例三元组个数;$N_{pos}$和$N_{neg}$分别表示训练集中正例三元组和负例三元组个数.ACC越高,表示模型在三元组分类这一任务上的效果是越好的. 为了科学、一致地评价各类Embedding表示算法的性能,需要使用标准的实体关系数据集进行测试和对比.目前常用的实体关系数据集进行测试和对比.目前尝试用的实体关系数据集有以下的几种 (1) WN18,它是WordNet知识库的一个子集,有关系18个,实体40943个; (2) FB15K,FreeBase中一个相对稠密的子集,有关系1345个,实体14951个; (3) WN11,是WordNet知识库的一个子集,有关系11个,实体38696个; (4) FB13,是FreeBase中的一个相对稠密的子集,有关系13个,实体75043个; (5) FB40K,是FreeBase中一个相对稠密的子集,有关系11个1336个,实体39528个; (6) MPBC_20,有关系20个,实体175624个; (7) FB15K-237,是FreeBase中的一个子集,有关系237个,实体14541个. 参考文献 [1] TransE模型:Antoine Bordes,Nicolas Usunier,Alberto Garcia-Duran, Jason Weston, and OksanaYakhnenko.Translating embeddings for modelingmulti-relational data. InNIPS, pages 2787–2795, 2013. [2] TransH模型:Zhang J . Knowledge Graph Embedding by Translating on Hyperplanes[J]. AAAI - Association for the Advancement of Artificial Intelligence, 2015. [3] TransR模型:Lin Y, Liu Z, Zhu X, et al. Learning Entity and Relation Embeddings for Knowledge Graph Completion. AAAI. 2015. [4] TransD模型:Ji G , He S , Xu L , et al. Knowledge Graph Embedding via Dynamic Mapping Matrix[C]// Meeting of the Association for Computational Linguistics \& the International Joint Conference on Natural Language Processing. 2015. [5] Transparse模型Ji G, Liu K, He S, et al. Knowledge Graph Completion with Adaptive Sparse Transfer Matrix. AAAI. 2016.
1. 简介 模拟退火算法是一种通用的概率算法,用于在一个大的搜寻空间内寻找问题的最优解。这种思想来源于物理中固体退火的过程,即将固体加热到足够的温度的时候,再缓慢冷却。温度升高时候,固体内部粒子随着温度升高变为无序状态,内能增大,而缓慢冷却的时候粒子却又逐渐趋近于有序状态。实际上这一思想是在一个过程中寻求系统能量最小的一种算法方式,在任意温度下,系统的能量都可以达到热平衡状态,而冷却到最低温度的时候是系统能量最低的状态。在任意一个温度下都可以达到热平衡状态,这是一个重要的步骤,可以由Monte Carlo模拟,但是这需要大量采样处理,工作量非常大。Metropolis提出这样的一种采样的方法,即设从当前的状态$i$生成新的状态$j$,如果新状态的内能小于状态$i$,($E_{j}<E_{i}$)那么接受新状态$j$作为新的当前状态;否则,以概率$exp(-\frac{E_{j}-E_{i}}{kT})$接受状态$j$,其中$k$为Boltzmann常数,这一准则被称为Metropolis准则。 2. 算法基本原理 物理退火算法由以下三个过程组成: 加热过程,用于增强粒子的运动,使其偏离平衡位置,温度足够高的时候,系统原先的均匀平衡状态变为非均匀状态。 等温过程。对于与周围环境交换热量而温度不变的封闭系统,系统状态的自发变化总是朝着自由能减少的方向进行,当自由能达到最小的时候,系统达到平衡状态。这一过程对应于Metropolis抽样过程。 冷却过程。使得粒子热运动减弱,系统能量逐渐下降,得到能量最低的稳定状态。
1.背景 20世纪90年代,意大利学者M.Dorigo,V.Maniezzo,A.Colorni等从生物进化的机制中受到启发,通过穆尼自然界蚂蚁搜索路径的行为,提出来一种新型的模拟进化算法——蚁群算法,在1991年ECAL上发表“Distributed optimization by ant colonies”,在其提出之后近五年中并没有在国际学术界引起广泛的关注。1996年,Dorigo M等在《IEEE Transaction on Systems,Man,and Cybernetics-Part B》上发表了“Ant system:optimization by a colony of cooperating agents”一文,在这篇文章中,Dorigo M不仅更加系统地阐述了蚁群算法的基本原理和数学模型,还将其与遗传算法、禁忌搜索算法、模拟退火算法、爬山法等等进行了仿真实验比较,并把单纯地解决对称TSP拓展到解决非对称TSP、指派问题(Quadratic scheduling problem,QAP)以及车间作业调度问题(job-shop scheduling problem,JSP),并且对蚁群算法中初始化参数对其性能影响做了初步的探讨,这是蚁群算法发展史上的又一篇奠定性文章。虽然研究时间不长,但是现在的研究显示出,蚁群算法在求解复杂优化问题上,尤其是离散优化问题上有一定的优势,表明它是有一种发展前景的算法。这种方法能够被用作解决大多数优化问题或者能够转化为优化求解的问题。现在起应用领域已经扩展到多目标优化、数据分类、数据聚类、模式识别、电信管理、生物系统建模,流程规划、信号处理、机器人控制、决策支持以及仿真和系统辨识等方面,群智能理论和方法为解决这类应用问题提供了新的途径。