知識(shí)圖譜工程,是計(jì)算機(jī)科學(xué)、信息科學(xué)、情報(bào)學(xué)當(dāng)中的一個(gè)新興領(lǐng)域,旨在研究用于構(gòu)建知識(shí)圖譜的方法和方法學(xué)。知識(shí)圖譜工程乃是一個(gè)新興的研究和應(yīng)用領(lǐng)域,關(guān)注的是知識(shí)圖譜開發(fā)過程、知識(shí)圖譜生命周期、用于構(gòu)建知識(shí)圖譜的方法和方法學(xué)以及那些用于支持這些方面的工具套裝和語言
在過去的四年時(shí)間里,人們對(duì)于各種知識(shí)圖譜的關(guān)注日益增強(qiáng)。如今,知識(shí)圖譜已廣泛應(yīng)用于知識(shí)工程、人工智能以及計(jì)算機(jī)科學(xué)領(lǐng)域;同時(shí),知識(shí)圖譜還廣泛應(yīng)用于知識(shí)管理、自然語言處理、電子商務(wù)、智能信息集成、生物信息學(xué)和教育等方面以及語義網(wǎng)之類的新興領(lǐng)域。知識(shí)圖譜旨在明確特定領(lǐng)域的那些隱含在軟件應(yīng)用程序以及企業(yè)機(jī)構(gòu)和業(yè)務(wù)過程當(dāng)中的知識(shí)可視化。知識(shí)圖譜工程為解決各種語義障礙所造成的互操作性問題提供了一個(gè)前進(jìn)的方向。其中,語義障礙指的也就是那些與業(yè)務(wù)術(shù)語和軟件類的定義相關(guān)的障礙和問題。知識(shí)圖譜工程是一套與特定領(lǐng)域之本體開發(fā)工作相關(guān)的任務(wù)。
知識(shí)圖譜 (Knowledge Graph) 是當(dāng)前的研究熱點(diǎn)。
自從2012年Google推出自己第一版知識(shí)圖譜以來,它在學(xué)術(shù)界和工業(yè)界掀起了一股熱潮。各大互聯(lián)網(wǎng)企業(yè)在之后的短短一年內(nèi)紛紛推出了自己的知識(shí)圖譜產(chǎn)品以作為回應(yīng)。
比如在國內(nèi),互聯(lián)網(wǎng)巨頭百度和搜狗分別推出”知心“和”知立方”來改進(jìn)其搜索質(zhì)量。那么與這些傳統(tǒng)的互聯(lián)網(wǎng)公司相比,對(duì)處于當(dāng)今風(fēng)口浪尖上的行業(yè) - 互聯(lián)網(wǎng)金融, 知識(shí)圖譜可以有哪方面的應(yīng)用呢? 目錄1. 什么是知識(shí)圖譜?2. 知識(shí)圖譜的表示3. 知識(shí)圖譜的存儲(chǔ)4. 應(yīng)用5. 挑戰(zhàn)6. 結(jié)語 1. 什么是知識(shí)圖譜? 知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。
在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜是關(guān)系的最有效的表示方式。
通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問題的能力。
知識(shí)圖譜這個(gè)概念最早由Google提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識(shí)圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。
比如在Google的搜索框里輸入Bill Gates的時(shí)候,搜索結(jié)果頁面的右側(cè)還會(huì)出現(xiàn)Bill Gates相關(guān)的信息比如出生年月,家庭情況等等。 另外,對(duì)于稍微復(fù)雜的搜索語句比如 ”Who is the wife of Bill Gates“,Google能準(zhǔn)確返回他的妻子Melinda Gates。
這就說明搜索引擎通過知識(shí)圖譜真正理解了用戶的意圖。 上面提到的知識(shí)圖譜都是屬于比較寬泛的范疇,在通用領(lǐng)域里解決搜索引擎優(yōu)化和問答系統(tǒng)(Question-Answering)等方面的問題。
接下來我們看一下特定領(lǐng)域里的 (Domain-Specific) 知識(shí)圖譜表示方式和應(yīng)用,這也是工業(yè)界比較關(guān)心的話題。 2. 知識(shí)圖譜的表示 假設(shè)我們用知識(shí)圖譜來描述一個(gè)事實(shí)(Fact) - “張三是李四的父親”。
這里的實(shí)體是張三和李四,關(guān)系是“父親”(is_father_of)。當(dāng)然,張三和李四也可能會(huì)跟其他人存在著某種類型的關(guān)系(暫時(shí)不考慮)。
當(dāng)我們把電話號(hào)碼也作為節(jié)點(diǎn)加入到知識(shí)圖譜以后(電話號(hào)碼也是實(shí)體),人和電話之間也可以定義一種關(guān)系叫 has_phone,就是說某個(gè)電話號(hào)碼是屬于某個(gè)人。下面的圖就展示了這兩種不同的關(guān)系。
另外,我們可以把時(shí)間作為屬性(Property)添加到 has_phone 關(guān)系里來表示開通電話號(hào)碼的時(shí)間。這種屬性不僅可以加到關(guān)系里,還可以加到實(shí)體當(dāng)中,當(dāng)我們把所有這些信息作為關(guān)系或者實(shí)體的屬性添加后,所得到的圖譜稱之為屬性圖 (Property Graph)。
屬性圖和傳統(tǒng)的RDF格式都可以作為知識(shí)圖譜的表示和存儲(chǔ)方式,但二者還是有區(qū)別的,這將在后面章節(jié)做簡單說明。 3. 知識(shí)圖譜的存儲(chǔ) 知識(shí)圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲(chǔ)方式主要有兩種形式:RDF存儲(chǔ)格式和圖數(shù)據(jù)庫(Graph Database)。
至于它們有哪些區(qū)別,請(qǐng)參考【1】。下面的曲線表示各種數(shù)據(jù)存儲(chǔ)類型在最近幾年的發(fā)展情況。
從這里我們可以明顯地看到基于圖的存儲(chǔ)方式在整個(gè)數(shù)據(jù)庫存儲(chǔ)領(lǐng)域的飛速發(fā)展。這幅曲線圖來源于 Graph DBMS increased their popularity by 500% within the last 2 years 下面的列表表示的是目前比較流行的基于圖存儲(chǔ)的數(shù)據(jù)庫排名。
從這個(gè)排名中可以看出neo4j在整個(gè)圖存儲(chǔ)領(lǐng)域里占據(jù)著NO.1的地位,而且在RDF領(lǐng)域里Jena還是目前為止最為流行的存儲(chǔ)框架。這部分?jǐn)?shù)據(jù)來源于 DB-Engines Ranking 當(dāng)然,如果需要設(shè)計(jì)的知識(shí)圖譜非常簡單,而且查詢也不會(huì)涉及到1度以上的關(guān)聯(lián)查詢,我們也可以選擇用關(guān)系型數(shù)據(jù)存儲(chǔ)格式來保存知識(shí)圖譜。
但對(duì)那些稍微復(fù)雜的關(guān)系網(wǎng)絡(luò)(現(xiàn)實(shí)生活中的實(shí)體和關(guān)系普遍都比較復(fù)雜),知識(shí)圖譜的優(yōu)點(diǎn)還是非常明顯的。首先,在關(guān)聯(lián)查詢的效率上會(huì)比傳統(tǒng)的存儲(chǔ)方式有顯著的提高。
當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識(shí)圖譜的查詢效率會(huì)高出幾千倍甚至幾百萬倍。其次,基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活,一般只需要局部的改動(dòng)即可。
比如我們有一個(gè)新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。于此相反,關(guān)系型存儲(chǔ)方式靈活性方面比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價(jià)是非常高的。
最后,把實(shí)體和關(guān)系存儲(chǔ)在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個(gè)故事邏輯的最好的方式。 4. 應(yīng)用 在本文中,我們主要討論知識(shí)圖譜在互聯(lián)網(wǎng)金融行業(yè)中的應(yīng)用。
當(dāng)然,很多應(yīng)用場(chǎng)景和想法都可以延伸到其他的各行各業(yè)。這里提到的應(yīng)用場(chǎng)景只是冰山一角, 在很多其他的應(yīng)用上,知識(shí)圖譜仍然可以發(fā)揮它潛在的價(jià)值, 我們?cè)诤罄m(xù)的文章中會(huì)繼續(xù)討論。
反欺詐 反欺詐是風(fēng)控中非常重要的一道環(huán)節(jié)?;诖髷?shù)據(jù)的反欺詐的難點(diǎn)在于如何把不同來源的數(shù)據(jù)(結(jié)構(gòu)化,非結(jié)構(gòu))整合在一起,并構(gòu)建反欺詐引擎,從而有效地識(shí)別出欺詐案件(比如身份造假,團(tuán)體欺詐,代辦包裝等)。
而且不少欺詐案件會(huì)涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò),這也給欺詐審核帶來了新的挑戰(zhàn)。 知識(shí)圖譜,作為關(guān)系的直接表示方式,可以很好地解決這兩個(gè)問題。
首。
僅供參考 知識(shí)圖種知識(shí)(既包括顯性、編碼知識(shí)包括隱性知識(shí))導(dǎo)航系統(tǒng)并顯示同知識(shí)存儲(chǔ)間重要態(tài)聯(lián)系知識(shí)管理系統(tǒng)輸模塊輸內(nèi)容包括知識(shí)源整合知識(shí)內(nèi)容知識(shí)流知識(shí)匯聚作用協(xié)助組織機(jī)構(gòu)發(fā)掘其智力資產(chǎn)價(jià)值所權(quán)位置使用;使組織機(jī)構(gòu)內(nèi)各種專家技能轉(zhuǎn)化顯性知識(shí)并進(jìn)內(nèi)化組織知識(shí)資源;鑒定并排除知識(shí)流限制素;發(fā)揮機(jī)構(gòu)現(xiàn)知識(shí)資產(chǎn)杠桿作用 知識(shí)圖譜稱科知識(shí)圖譜通應(yīng)用數(shù)、圖形、信息視化技術(shù)、信息科等科理論與與計(jì)量引文析、共現(xiàn)析等結(jié)合并利用視化圖譜形象展示科核結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域及整體知識(shí)架構(gòu)達(dá)科融合目現(xiàn)中國論科研究提供切實(shí)、價(jià)值參考 知識(shí)圖譜(Mapping Knowledge Domain)稱科知識(shí)圖譜圖書情報(bào)界稱知識(shí)域視化或知識(shí)領(lǐng)域映射圖顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系系列各種同圖形用視化技術(shù)描述知識(shí)資源及其載體挖掘、析、構(gòu)建、繪制顯示知識(shí)及間相互聯(lián)系 具體說知識(shí)圖譜通應(yīng)用數(shù)、圖形、信息視化技術(shù)、信息科等科理論與與計(jì)量引文析、共現(xiàn)析等結(jié)合并利用視化圖譜形象展示科核結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域及整體知識(shí)架構(gòu)達(dá)科融合目現(xiàn)中國論復(fù)雜知識(shí)領(lǐng)域通數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量圖形繪制顯示揭示知識(shí)領(lǐng)域態(tài)發(fā)展規(guī)律科研究提供切實(shí)、價(jià)值參考迄今止其實(shí)際應(yīng)用發(fā)達(dá)家已經(jīng)逐步拓展并取較效我仍屬研究起步階段。
1、用戶搜索次數(shù)越多,范圍越廣,Google 就能獲取越多信息和內(nèi)容。
2、賦予字串新的意義,而不只是單純的字串。
3、融合了所有的學(xué)科,以便于用戶搜索時(shí)的連貫性。
4、為用戶找出更加準(zhǔn)確的信息,作出更全面的總結(jié)并提供更有深度相關(guān)的信息。
5、把與關(guān)鍵詞相關(guān)的知識(shí)體系系統(tǒng)化地展示給用戶。
6、用戶只需登錄Google旗下60多種在線服務(wù)中的一種就能獲取在其他服務(wù)上保留的信息和數(shù)據(jù)。
7、Google從整個(gè)互聯(lián)網(wǎng)汲取有用的信息讓用戶能夠獲得更多相關(guān)的公共資源。
知識(shí)圖譜,也稱為科學(xué)知識(shí)圖譜,它通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。為學(xué)科研究提供切實(shí)的、有價(jià)值的參考。
知識(shí)圖譜(Mapping Knowledge Domain)也被稱為科學(xué)知識(shí)圖譜,在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。
具體來說,知識(shí)圖譜是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制而顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實(shí)的、有價(jià)值的參考。迄今為止,其實(shí)際應(yīng)用在發(fā)達(dá)國家已經(jīng)逐步拓展并取得了較好的效果,但它在我國仍屬研究的起步階段。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:2.622秒