知識圖譜又稱為科學知識圖譜,在圖書情報界稱為知識域可視化,或知識領域映射地圖,用來顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及載體,挖掘、分析、構建、繪制和顯示知識及他們互相之間的關系。 盡管人工智能依靠機器學習和深度學習取得了快速進展,但這些都是弱人工智能,對于機器的訓練,需要人類的監(jiān)督以及大量的數(shù)據(jù)來喂養(yǎng),更有甚者需要人手動對數(shù)據(jù)進行標記,對于強人工智能而言,這是不可取的。要實現(xiàn)真正的類人智能,機器需要掌握大量的常識性知識,以人的思維模式和知識結構來進行語言理解、視覺場景解析和決策分析。 百度百科定義:知識圖譜又稱為科學知識圖譜,在圖書情報界稱為知識域可視化,或知識領域映射地圖,用來顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及載體,挖掘、分析、構建、繪制和顯示知識及他們互相之間的關系。 知識圖譜把復雜的知識領域及知識體系通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,表示該領域的發(fā)展動態(tài)及規(guī)律,為該領域的研究提供全方位、整體性、關系鏈的參考。 知識圖譜是智能社會的重要生產資料,如果把人工智能比作一個“大腦”,那么深度學習是“大腦”的運轉方式,知識圖譜則是“大腦”的知識庫,而大數(shù)據(jù)、GPU并行計算和高性能計算等支撐技術就是“大腦”思維運轉的支撐。 知識圖譜是真實世界的語義表示,其中每一個節(jié)點代表實體連接節(jié)點的邊則對應實體之間的關系異構數(shù)據(jù)通過整合表達為知識,圖的表達映射了人類對世界的認知方式,知識圖譜非常適合整合非結構化數(shù)據(jù)從零散數(shù)據(jù)中發(fā)現(xiàn)知識,從而幫助組織機構實現(xiàn)業(yè)務智能化。 當你對陌生領域進行學習時,無法把握要點及整體框架,以至于檢索效率低、入門無道時,知識圖譜應運而生。 自2012年5月,Google將知識圖譜應用到其搜索引擎,以提升其搜索服務能力,將各種渠道收集而來的相關信息展示在搜索結果旁的信息框中,以結構化模塊形式提供給用戶。 知識圖譜以結構化數(shù)據(jù)處理,運用三元體,點、線、面的方式表示本體之間的關系,利用關系來組織所有的對象(實體),形成有向圖結構。所謂知識,指的是點或邊對應的信息。 知識圖譜以語義分析技術為基礎,以模型為核心,基于數(shù)據(jù),利用深度神經網絡、NLP框架語義理解等智能處理技術對輸入的字、詞、篇章進行多層次、度的信息分析,提供可遠程調用的實體抽取、關系抽取和屬性抽取等算法服務接口能力。達到構建多領域知識圖譜平臺,服務不同行業(yè)和應用場景。 從各種類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達; 在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如:某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等; 對于經過融合的新知識,需要經過質量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。 因此行業(yè)知識圖譜的構建顯得尤為重要,首先,構建行業(yè)知識圖譜系統(tǒng)應以海量數(shù)據(jù)匯聚融合、快速和認知、強大的分析和推理、自適應與自優(yōu)化和行業(yè)智能決策為導向。 通用知識圖譜以互聯(lián)網數(shù)據(jù)為基礎,如或社區(qū)眾包為主要來源,逐步擴大規(guī)模。以三元組事實型知識為主,較多的面向域的Web抽取,對知識抽取的質量有一定度,以知識融合提升數(shù)據(jù)質量,應用領域主要在搜索和問答方面,對推理要求較低。如:百度、谷歌、雅虎等等 行業(yè)知識圖譜以領域或企業(yè)內部的數(shù)據(jù)為主要來源,通常要求快速擴大規(guī)模,構建行業(yè)壁壘,知識結構更加復雜,通常包含本體工程和規(guī)則型知識。知識抽取的質量要求很高,較多的依靠從企業(yè)內部的結構化、非結構化以及半結構化數(shù)據(jù)進行聯(lián)合抽取需要依靠人工進行審核校驗,來質量。通常需要融合多來源的領域是數(shù)據(jù)擴大規(guī)模的有效手段。應用形式更加全面,除搜索問答外,還包括決策分析、業(yè)務管理等,并對推理的要求更高,并有較強的可解釋性要求。主要領域有電商、金融、農業(yè)、安全、醫(yī)療等等 大數(shù)據(jù)的采集分析和計算力已經不再是阻礙,難點在于算法背后的知識圖譜構建。實際中,企業(yè)數(shù)據(jù)和業(yè)務變化靈活,因此數(shù)據(jù)源、數(shù)據(jù)結構、數(shù)據(jù)內容隨時會發(fā)生變動,對業(yè)務的理解以及對數(shù)據(jù)的解讀也隨之發(fā)生變化。因此,建立實時敏捷、靈活可擴展、智能自適應的動態(tài)知識圖譜尤為重要。 由于IT時代的快速發(fā)展,形成了數(shù)據(jù)的聚集。促進了正在來臨DT時代,數(shù)據(jù)與算法作為基礎為知識圖譜的構建提供了新的可能性,而知識圖譜作為AI的支撐基礎,雖然發(fā)展緩慢,卻是人工智能的必經之。由于其在語義搜索、智能問答、數(shù)據(jù)分析、自然語言處理、視覺理解、物聯(lián)網設備已展現(xiàn)出越來越大的價值。 比如:上一篇文章中提到的基于語音對話系統(tǒng)構建的機器人,要想機器人好玩有趣,就需要建立通用知識圖譜,使機器人具有強大的邏輯,了解人與人關系,人與物的關系,人的屬性、物的屬性,理解人類世界的關系鏈,靈活應對用戶的各種聊天需求,使機器具有類人智能。而行業(yè)知識圖譜則幫助用戶解答關于行業(yè)的任務型需求,輔助用戶決策,反向幫助人類學習。 如今,人工智能屬于發(fā)展初期,主要以技術驅動行業(yè)發(fā)展,屬于拿著錘子找釘子的時期,企業(yè)在以行業(yè)+AI為核心的同時,也應重視行業(yè)+知識圖譜。因為未來技術肯定不是公司的核心競爭力,而多年積累的行業(yè)數(shù)據(jù)才是壁壘。數(shù)據(jù)養(yǎng)育AI,AI反哺數(shù)據(jù)。 例如:天眼查、企查查的企業(yè)知識圖譜,數(shù)據(jù)包括:企業(yè)基礎數(shù)據(jù)、投資關系、任職關系、企業(yè)專利數(shù)據(jù)、企業(yè)招標數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)、企業(yè)訴訟數(shù)據(jù)、企業(yè)失信數(shù)據(jù)、企業(yè)新聞數(shù)據(jù); 利用知識圖譜融合以上數(shù)據(jù),制作企業(yè)知識圖譜,并在企業(yè)知識圖譜之上利用圖譜特性,針對金融業(yè)務場景做一系列應用。 基于企業(yè)基礎信息、投資關系、訴訟、失信等度關聯(lián)數(shù)據(jù),利用圖計算等方法構建科學、嚴謹?shù)钠髽I(yè)風險評估體系,有效規(guī)避潛在的經營風險與資金風險。 基于投資、任職、專利、招標股、涉訴關系以目標企業(yè)為核心向外層擴散,形成一個網絡關系圖,直觀立體展現(xiàn)企業(yè)關聯(lián)。 基于股權、任職、專利、招標股、涉訴關系形成的網絡關系中、查詢企業(yè)之間的最短徑,衡量企業(yè)之間的關系密切度。 就寫這么多,希望能帶給各位一些思考。關于醫(yī)療知識圖譜、金融知識圖譜、農業(yè)知識圖譜的應用場景請自行查詢吧。 帶三點水的男孩名字本文由來源于財鼎國際(www.hengpunai.cn) |