超碰人操,粗暴进入蹂躏视频在线观看,精品一区二区三区在线视频,久久国产精品影院,下载国产一级黄色片,中文字幕一区二区三区在线视频,a√天堂资源福利www

大數(shù)據(jù):大規(guī)模知識圖譜的構(gòu)建、推理及應(yīng)用

2018-04-24 14:58:29 數(shù)據(jù)科技視界  點擊量: 評論 (0)
隨著大數(shù)據(jù)的應(yīng)用越來越廣泛,人工智能也終于在幾番沉浮后再次煥發(fā)出了活力。除了理論基礎(chǔ)層面的發(fā)展以外,本輪發(fā)展最為矚目的是大數(shù)據(jù)基礎(chǔ)

隨著大數(shù)據(jù)的應(yīng)用越來越廣泛,人工智能也終于在幾番沉浮后再次煥發(fā)出了活力。除了理論基礎(chǔ)層面的發(fā)展以外,本輪發(fā)展最為矚目的是大數(shù)據(jù)基礎(chǔ)設(shè)施、存儲和計算能力增長所帶來的前所未有的數(shù)據(jù)紅利。

人工智能的進展突出體現(xiàn)在以知識圖譜為代表的知識工程以及以深度學習為代表的機器學習等相關(guān)領(lǐng)域。

未來伴隨著深度學習對于大數(shù)據(jù)的紅利消耗殆盡,如果基礎(chǔ)理論方面沒有新的突破,深度學習模型效果的天花板將日益迫近。而另一方面,大量知識圖譜不斷涌現(xiàn),這些蘊含人類大量先驗知識的寶庫卻尚未被深度學習有效利用。

融合知識圖譜與深度學習,已然成為進一步提升深度學習效果的重要思路之一。以知識圖譜為代表的符號主義,和以深度學習為代表的聯(lián)結(jié)主義,日益脫離原先各自獨立發(fā)展的軌道,走上協(xié)同并進的新道路。

大規(guī)模知識圖譜的構(gòu)建

知識圖譜自上世紀60年代從語義網(wǎng)絡(luò)發(fā)展起來以后,分別經(jīng)歷了1980年代的專家系統(tǒng)、1990年代的貝葉斯網(wǎng)絡(luò)、2000年代的OWL和語義WEB,以及2010年以后的谷歌的知識圖譜。谷歌目前的知識圖譜已經(jīng)包含了數(shù)億個條目,并廣泛應(yīng)用于搜索、推薦等領(lǐng)域。

知識圖譜的存儲和查詢語言也經(jīng)歷了歷史的洗滌,從RDF到OWL以及SPARQL查詢,都逐漸因為使用上的不便及高昂的成本,而被工業(yè)界主流所遺棄。圖數(shù)據(jù)庫逐步成為目前主要的知識圖譜存儲方式。

目前應(yīng)用比較廣泛的圖數(shù)據(jù)庫包括Neo4J、graphsql、sparkgraphx(包含圖計算引擎)、基于hbase的Titan、BlazeGraph等,各家的存儲語言和查詢語言也不盡相同。實際應(yīng)用場景下,OrientDB和postgresql也有很多的應(yīng)用,主要原因是其相對低廉的實現(xiàn)成本和性能優(yōu)勢。

由于大規(guī)模知識圖譜的構(gòu)建往往會有眾多的實體和關(guān)系需要從原始數(shù)據(jù)(可以是結(jié)構(gòu)化也可以是非結(jié)構(gòu)化)中被抽取出來,并以圖的方式進行結(jié)構(gòu)化存儲,而我們依賴的原始數(shù)據(jù)往往存在于多源異構(gòu)的環(huán)境中,所以進行海量知識抽取和融合,就成了首要的無法回避的嚴峻問題。

對于結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu)是比較容易和相對輕松的工程,所以建議這一步應(yīng)該首先被完成。

對于復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)階段進行知識圖譜構(gòu)建的主要方法有傳統(tǒng)NLP和基于深度學習模型兩類方法,而目前越來越多傾向于使用深度學習來抽取AVP(屬性-值對)。

有很多深度學習模型可以用來完成端到端的包括命名實體識別NER、關(guān)系抽取和關(guān)系補全等任務(wù),從而構(gòu)建和豐富知識圖譜。

命名實體識別(Named Entity Recognition, NER)是從一段非結(jié)構(gòu)化文本中找出相關(guān)實體(triplet中的主詞和賓詞),并標注出其位置以及類型,它是NLP領(lǐng)域中一些復(fù)雜任務(wù)(如關(guān)系抽取、信息檢索等)的基礎(chǔ)。

NER一直是NLP領(lǐng)域的熱點,從早期基于字典和規(guī)則的方法,到傳統(tǒng)機器學習的方法,再到近年來基于深度學習的方法,NER方法的大致演化如下所示。

在機器學習中,NER被定義為序列標注問題。不同于分類問題,序列標注問題中的預(yù)測標簽不僅與輸入特征有關(guān),還與之前的預(yù)測標簽有關(guān),也就是預(yù)測標簽之間存在相互依賴和影響。

條件隨機場(Conditional Random Field,CRF)是序列標注的主流模型。它的目標函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),還包含了標簽轉(zhuǎn)移特征函數(shù)。在訓(xùn)練的時候可以使用SGD學習參數(shù)。在預(yù)測時,可以使用Vertibi算法求解使目標函數(shù)最大化的最優(yōu)序列。

目前常見的基于深度學習的序列標注模型有BiLSTM-CNN-CRF。它主要由Embedding層(詞向量、字向量等)、BiLSTM、tanh隱藏層以及CRF層組成(對于中文可以不需要CNN)。我們的實驗表明BiLSTM-CRF可以獲得較好的效果。在特征方面,由于秉承了深度學習的優(yōu)點,所以無需特征工作的鋪墊,使用詞向量及字向量就可以得到不錯的效果。

近幾個月來,我們也在嘗試使用Attention機制,以及僅需少量標注樣本的半監(jiān)督來進行相應(yīng)的工作。

在BiLSTM-CRF的基礎(chǔ)上,使用Attention機制將原來的字向量和詞向量的拼接改進為按權(quán)重求和,使用兩個隱藏層來學習Attention的權(quán)值,這樣使得模型 可以動態(tài)地利用詞向量和字向量的信息。同時加入NE種類的特征,并在字向量上使用Attention來學習關(guān)注更有效的字符。實驗效果優(yōu)于BiLSTM-CRF的方法。

這里之所以用了大量篇幅來說NER的深度學習模型,是因為關(guān)系抽取模型也是采用同樣的模型實現(xiàn)的,其本質(zhì)也是一個序列標注問題。所以這里不再贅述。

知識圖譜構(gòu)建中的另外一個難點就是知識融合,即多源數(shù)據(jù)融合。融合包括了實體對齊、屬性對齊、沖突消解、規(guī)范化等。對于Open-domain這幾乎是一個舉步維艱的過程,但是對于我們特定旅游領(lǐng)域,可以通過別名舉證、領(lǐng)域知識等方法進行對齊和消解,從技術(shù)角度來看,這里會涉及較多的邏輯,所以偏傳統(tǒng)機器學習方法,甚至利用業(yè)務(wù)邏輯即可覆蓋大部分場景。

知識圖譜schema是知識的分類體系的表現(xiàn),還可以用于邏輯推理,也是用于沖突檢測的方法之一,從而提高知識圖譜的質(zhì)量。

總而言之,構(gòu)建知識圖譜沒有統(tǒng)一的方法,因為其構(gòu)建需要一整套知識工程的方法,需要用到NLP、ML、DL技術(shù),用到圖數(shù)據(jù)庫技術(shù),用到知識表示推理技術(shù)等。知識圖譜的構(gòu)建就是一個系統(tǒng)工程,而且知識的更新也是不可避免的,所以一定要重視快速迭代和快速產(chǎn)出檢驗。

知識圖譜的推理

在知識圖譜構(gòu)建過程中,還存在很多關(guān)系補全問題。雖然一個普通的知識圖譜可能存在數(shù)百萬的實體和數(shù)億的關(guān)系事實,但相距補全還差很遠。知識圖譜的補全是通過現(xiàn)有知識圖譜來預(yù)測實體之間的關(guān)系,是對關(guān)系抽取的重要補充。傳統(tǒng)方法TransE和TransH通過把關(guān)系作為從實體A到實體B的翻譯來建立實體和關(guān)系嵌入,但是這些模型僅僅簡單地假設(shè)實體和關(guān)系處于相同的語義空間。而事實上,一個實體是由多種屬性組成的綜合體,不同關(guān)系關(guān)注實體的不同屬性,所以僅僅在一個空間內(nèi)對他們進行建模是不夠的。

因此我們嘗試用TransR來分別將實體和關(guān)系投影到不同的空間中,在實體空間和關(guān)系空間構(gòu)建實體和關(guān)系嵌入。對于每個元組(h,r,t),首先將實體空間中的實體通過Mr向關(guān)系r投影得到hr和tr,然后是hr+r ≈tr。特定的關(guān)系投影能夠使得兩個實體在這個關(guān)系下真實地靠近彼此,使得不具有此關(guān)系的實體彼此遠離。

知識圖譜推理中還經(jīng)常將知識圖譜表示為張量tensor形式,通過張量分解(tensor factorization)來實現(xiàn)對未知事實的判定。常用于鏈接預(yù)測(判斷兩個實體之間是否存在某種特定關(guān)系)、實體分類(判斷實體所屬語義類別)、實體解析(識別并合并指代同一實體的不同名稱)。

常見的模型有RESCAL模型和TRESCAL模型。

RESCAL模型的核心思想,是將整個知識圖譜編碼為一個三維張量,由這個張量分解出一個核心張量和一個因子矩陣,核心張量中每個二維矩陣切片代表一種關(guān)系,因子矩陣中每一行代表一個實體。由核心張量和因子矩陣還原的結(jié)果被看作對應(yīng)三元組成立的概率,如果概率大于某個閾值,則對應(yīng)三元組正確;否則不正確。

而TRESCAL則是解決在輸入張量高度稀疏時所帶來的過擬合問題。

路徑排序算法也常用來判斷兩個實體之間可能存在的關(guān)系,比如PRA算法。本文不展開描述。

大規(guī)模知識圖譜的應(yīng)用

知識圖譜的應(yīng)用場景非常廣泛,比如搜索、問答、推薦系統(tǒng)、反欺詐、不一致性驗證、異常分析、客戶管理等。由于以上場景在應(yīng)用中出現(xiàn)越來越多的深度學習模型,因此本文主要討論知識圖譜在深度學習模型中的應(yīng)用。

目前將知識圖譜用于深度學習主要有兩種方式,一種是將知識圖譜的語義信息輸入到深度學習模型中,將離散化的知識表示為連續(xù)化的向量,從而使得知識圖譜的先驗知識能夠稱為深度學習的輸入;另外一種是利用知識作為優(yōu)化目標的約束,指導(dǎo)深度學習模型的學習過程,通常是將知識圖譜中的知識表示為優(yōu)化目標的后驗正則項。

知識圖譜的表示學習用于學習實體和關(guān)系的向量化表示,其關(guān)鍵是合理定義知識圖譜中關(guān)于事實(三元組h,r,t)的損失函數(shù)fr(h,t),其總和是三元組的兩個實體h和t的向量化表示。通常情況下,當事實h,r,t成立時,期望最小化fr(h,t)。

常見的有基于距離和翻譯的模型。

基于距離的模型,比如SE模型,其基本思想是當兩個實體屬于同一個三元組時,它們的向量表示在投影后的空間中也應(yīng)該彼此靠近。所以損失函數(shù)定義為向量投影后的距離。

其中矩陣Wr1和Wr2用于三元組中頭實體h和尾實體t的投影操作。

基于翻譯的模型可以參考前述的TransE, TransH和TransR模型。其通過向量空間的向量翻譯來描述實體與關(guān)系之間的相關(guān)性。

當前的知識圖譜表示學習方法都還存在各種問題,這個領(lǐng)域的發(fā)展也非常迅速,值得期待。

知識圖譜的表示轉(zhuǎn)換后,根據(jù)不同領(lǐng)域的應(yīng)用,就可以和各種深度學習模型相結(jié)合,比如在自動問答領(lǐng)域,可以和encoder-decoder相結(jié)合,將問題和三元組進行匹配,即計算其向量相似度,從而為某個特定問題找到來自知識圖譜的最佳三元組匹配。也有案例在推薦系統(tǒng)中,通過網(wǎng)絡(luò)嵌入(network embedding)獲取結(jié)構(gòu)化知識的向量化表示,然后分別用SDAE(Stacked Denoising Auto-Encoder)和層疊卷積自編碼器(StackedConvolutional Auto-Encoder)來抽取文本知識特征和圖片知識特征,并將三類特征融合進協(xié)同集成學習框架,利用三類知識特征的整合來實現(xiàn)個性化推薦。

隨著深度學習的廣泛應(yīng)用,如何有效利用大量先驗知識,來大大降低模型對大規(guī)模標注語料的依賴,也逐漸成為主要的研究方向之一。在深度學習模型中融合常識知識和領(lǐng)域知識,將是又一大機遇和挑戰(zhàn)。

來源:攜程技術(shù)中心

大云網(wǎng)官方微信售電那點事兒

責任編輯:售電衡衡

免責聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
?