KK教程資訊:帶你了解最前沿的技術(shù)、資訊,海納百川,學(xué)無止境!
KK教程資訊:帶你了解最前沿的技術(shù)、資訊,海納百川,學(xué)無止境!
語義檢索比傳統(tǒng)的布爾檢索多做了一步,也就是對檢索結(jié)果按照與給定目標(biāo)的語義相關(guān)度進(jìn)行重新排序。
如上圖,在圈定小人后,我們對小人按照從大到小的順序排序,那么在靠前位置就可以得到我們想要的大小人。專利檢索時也是類似,在圈定出專利集之后(例如通過領(lǐng)域關(guān)鍵詞或IPC分類號圈定),我們給定一個語義排序標(biāo)準(zhǔn),可以是一個專利(號碼)、一段話或是一個關(guān)鍵詞,然后按照與這個標(biāo)準(zhǔn)的語義相關(guān)度的大小,對圈定的專利集重新排序,最相似的專利就會被排在最靠前的位置,我們就可以高效地獲取想要的專利文獻(xiàn)。
Patentics中語義檢索命令為R/,其中R即是Rerank的縮寫,也就是重排序的意思。R/命令后可以輸入文字內(nèi)容或者專利號碼,輸入專利號碼時,系統(tǒng)會自動提取該篇專利的全文文本進(jìn)行語義檢索。
為了滿足審查員日常新穎性檢索需要,Patentics還提供RDI/命令,后可跟專利號碼,含義是檢索該專利申請日前公開的最接近專利文獻(xiàn)。
在單獨使用R/命令或RDI/命令時,系統(tǒng)會對全庫進(jìn)行語義重排序,但只會給出最相關(guān)的400篇專利文獻(xiàn),因為系統(tǒng)在給出檢索結(jié)果時,已將更相關(guān)的放在了最前面,排名400以后的相關(guān)度會越來越低,因此會有默認(rèn)的截斷。但如果大家想查看更多,可以使用CTOP/命令限定要查看的專利數(shù)量,例如CTOP/1000,查看最相關(guān)的1000篇。
上圖可以簡要說明R/命令的執(zhí)行過程,大概可分為三步。第一步是系統(tǒng)對整個專利數(shù)據(jù)庫中每篇專利全文抽取關(guān)鍵詞,將每篇專利都轉(zhuǎn)變成一個有多個詞構(gòu)成的文檔向量,然后使用這些大量的文檔向量訓(xùn)練語義模型,其實就是前文所說的將這些本在不同空間使用不同標(biāo)尺衡量的向量都轉(zhuǎn)換到相同的語義向量空間中,以便在同一個坐標(biāo)系中去測量它們,使得他們之間具有可比性。
第二步就是我們輸入一個專利申請?zhí)柣蛭谋緝?nèi)容進(jìn)行檢索,系統(tǒng)同樣會對其抽取關(guān)鍵詞,轉(zhuǎn)換為一個文檔向量。然后使用訓(xùn)練好的語義模型對其進(jìn)行向量合成,將我們輸入的內(nèi)容也放到語義向量空間模型中。
第三步就是將我們輸入內(nèi)容的文本向量和數(shù)據(jù)庫中的專利的文本向量進(jìn)行向量運算,計算它與每篇專利的相關(guān)度,最后按照相關(guān)度從高到低,對數(shù)據(jù)庫中的專利文獻(xiàn)進(jìn)行重新排序,我們就可以在靠前位置獲得相關(guān)的專利文獻(xiàn)了。
經(jīng)過訓(xùn)練語義模型的專利數(shù)據(jù)庫會有什么奇妙的變化呢?如上圖所示,它實際上是學(xué)習(xí)了全球申請人的自然表達(dá),建立了詞與詞之間、詞與文檔之間、文檔與文檔之間的大數(shù)據(jù)關(guān)聯(lián)。
例如,我們在R/命令后輸入“機(jī)器學(xué)習(xí)”這個詞,點擊搜索框右下方的概念擴(kuò)充小按鈕,系統(tǒng)就會找出與其相關(guān)的概念詞,并按詞與詞之間的相關(guān)性,聚類為4個主題,例如主題一下有“文本分類”、“基于語義”、“挖掘方法”等機(jī)器學(xué)習(xí)應(yīng)用場景方面的詞匯,主題二下有“無監(jiān)督”、“樸素貝葉斯”、“SVM”、“半監(jiān)督”等機(jī)器學(xué)習(xí)算法方面的詞匯,主題三下有最近很火的“人工神經(jīng)網(wǎng)絡(luò)”、“深度神經(jīng)網(wǎng)絡(luò)”等機(jī)器學(xué)習(xí)新算法詞匯,主題四下有“高維空間幾何學(xué)”等機(jī)器學(xué)習(xí)原理方面的詞匯。
大家可以發(fā)現(xiàn),這些詞匯并非全是“機(jī)器學(xué)習(xí)”的同義詞,而是相關(guān)性較高的詞。無論是加工的同義詞詞表還是本領(lǐng)域技術(shù)人員能擴(kuò)展出的詞匯,都無法與這樣海量大數(shù)據(jù)運算和機(jī)器學(xué)習(xí)后得來的全庫詞匯之間相關(guān)關(guān)系相比。
同樣,在R/命令后輸入一個專利號碼,點擊搜索框右下方的概念擴(kuò)充小按鈕,系統(tǒng)同樣可以找出與這篇專利最相關(guān)的詞匯,通過查看這些詞匯和聚類的主題,就可以大概知道這篇專利適合印刷電路相關(guān)的專利。這相當(dāng)于系統(tǒng)替我們對這篇專利進(jìn)行了自動解讀。
如果想更炫一點,可以點擊左側(cè)“相關(guān)概念”框中的小書按鈕,展示相關(guān)詞詞云。
那么語義檢索的實際效果如何呢?我們通過一個案例給大家演示一下。
這件案例是握奇訴被告專利侵權(quán),法院判賠5000萬的專利,被告第一時間對握奇這件專利提起了無效請求,此專利被復(fù)審委判決部分無效,復(fù)審委認(rèn)定公開其關(guān)鍵技術(shù)特征的關(guān)鍵證據(jù)是一篇中國專利CN1482550A。
傳統(tǒng)布爾檢索在檢索這篇專利時需要進(jìn)行關(guān)鍵詞、分類號擴(kuò)展等利用各種檢索經(jīng)驗和技巧。而在Patentics中,僅需輸入RDI/CN200510105502.1,也就是輸入要無效專利的專利號碼,檢索其申請日前公開的相關(guān)專利文獻(xiàn)。
在中國申請庫中進(jìn)行檢索,輸入RDI/CN200510105502.1,可以看到最右側(cè)是相關(guān)度百分比,第一位相關(guān)度100%,是CN200510105502.1專利本身,第二位相關(guān)度94%的即是復(fù)審委認(rèn)定的關(guān)鍵證據(jù)。語義檢索無需任何檢索策略就可在僅看一篇專利文獻(xiàn)的情況下獲得關(guān)鍵無效證據(jù)。
而傳統(tǒng)的布爾檢索中,檢索員一方面為了避免漏檢,會擴(kuò)展關(guān)鍵詞分類號等檢索要素,而另一方面為了減少瀏覽量,會限定文獻(xiàn)在一個合適范圍進(jìn)行瀏覽,越窄的檢索范圍雖然瀏覽時間少了,但漏檢風(fēng)險又會大大增加。這就是傳統(tǒng)布爾檢索面臨的檢全與檢準(zhǔn)的矛盾所在。
而語義排序正好克服了傳統(tǒng)檢索方式檢全和檢準(zhǔn)的矛盾。我們在限定瀏覽范圍的時候可以限定得更加寬泛,不用擔(dān)心文獻(xiàn)瀏覽問題,因為語義排序會將更相關(guān)的文獻(xiàn)排在靠前位置供我們?yōu)g覽。也就是說,即不漏檢,又能在靠前的位置找到想要的文獻(xiàn),解決查全和查準(zhǔn)這一對矛盾。
以上便是KK下載給大家分享介紹的Patentics專利的檢索方法!
沙盒與副本吃雞模式
返回頂部
Copyright © 2009-2022 KKX.Net. All Rights Reserved .
KK下載站是專業(yè)的免費軟件下載站點,提供綠色軟件、免費軟件,手機(jī)軟件,系統(tǒng)軟件,單機(jī)游戲等熱門資源安全下載!