女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于從文本簡(jiǎn)歷中挖掘相關(guān)信息的框架

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-17 09:07 ? 次閱讀

編者按:如果你曾負(fù)責(zé)過(guò)招聘,篩查簡(jiǎn)歷一定讓你又愛(ài)又恨,能看到一份層次鮮明重點(diǎn)突出的簡(jiǎn)歷簡(jiǎn)直是一股清流。面對(duì)格式多樣的簡(jiǎn)歷,如何能一眼看到重點(diǎn)呢?作者Yogesh H. Kulkarni就設(shè)計(jì)了一款能挖掘簡(jiǎn)歷中重要信息文本的框架RegEx。以下是論智的編譯。

摘要

本文展示了一種用于從文本簡(jiǎn)歷中挖掘相關(guān)信息的框架。雖然這里只有一份簡(jiǎn)歷作為案例,但是今后,框架不僅可以進(jìn)一步擴(kuò)展到不同簡(jiǎn)歷格式上,還可以用到例如決策、合同、藥物說(shuō)明書(shū)等文本上。

介紹

世界上大多數(shù)非結(jié)構(gòu)化的數(shù)據(jù)都在文本形式中。為了理解這一點(diǎn),我們要么花費(fèi)大量精力處理它,要么你運(yùn)用一些自動(dòng)手段提取出有用信息。面對(duì)大量、風(fēng)格各異的文本數(shù)據(jù),還是需要用文本挖掘技術(shù)提取相關(guān)信息,將結(jié)構(gòu)混亂的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)清晰的形式,之后才能進(jìn)一步進(jìn)行處理、分析、可視化。

這篇文章的關(guān)注重點(diǎn)比較特殊,是候選人的個(gè)人檔案或簡(jiǎn)歷。我們都知道,HR收到的簡(jiǎn)歷通常有各種格式的(txt、doc、pdf等等),而且內(nèi)容和版面設(shè)計(jì)也是五花八門(mén),想從這些文件中篩選出自己認(rèn)為有用的信息是一項(xiàng)非常有挑戰(zhàn)性的工作。即使如此,我們可能還不能完全提取出有用的信息,因?yàn)楦袷綄?shí)在是多種多樣,所以我們可以先從簡(jiǎn)單的步驟開(kāi)始,至少?gòu)奈覀円阎男问街刑崛〕鲇行畔ⅰ?/p>

簡(jiǎn)單地說(shuō),這里有兩種方法:基于語(yǔ)言學(xué)的方法和基于機(jī)器學(xué)習(xí)的方法。在語(yǔ)言學(xué)的方法中,為了尋找關(guān)鍵信息用的是模式搜索的方法,而在機(jī)器學(xué)習(xí)中,提取信息時(shí)用到的是監(jiān)督或非監(jiān)督的方法。在這篇文章中用到的RegEx術(shù)語(yǔ)基于語(yǔ)言學(xué)的模式匹配方法。

框架

想從簡(jiǎn)歷中提取目標(biāo)對(duì)象的一種簡(jiǎn)單方法就是在編碼程序中,為每個(gè)對(duì)象寫(xiě)一個(gè)模式匹配的邏輯。如果模式有任何改變,或者如果有新的對(duì)象或模式出現(xiàn),你需要改變編碼程序。這使得框架的維護(hù)變得非常麻煩,復(fù)雜程度不斷提高。為了解決這個(gè)問(wèn)題,我們的框架提出了分離邏輯分析和目標(biāo)種類(lèi)的方法,下面會(huì)詳細(xì)進(jìn)行講解。目標(biāo)對(duì)象和它們的RegEx模式在配置文件中都有詳細(xì)的記錄,文件同時(shí)還記錄了為每種對(duì)象提取方法的類(lèi)別。這種分離方法的優(yōu)點(diǎn)是,它不僅可以重復(fù)使用,保持穩(wěn)定,而且還可以用到其他領(lǐng)域,例如合同文件、法律文件或者醫(yī)療報(bào)告等等。

元素查找

配置文件指定了需要被提取的對(duì)象以及它們的模式和提取方法。它同樣指定了需要尋找目標(biāo)所在的區(qū)域。具體代碼如下:

上述代碼表述了例如姓名、電話、電子郵件等要素的元數(shù)據(jù),用來(lái)提取它們的方法是“univalue_extractor”。這些要素所在的區(qū)域用“”表示,這是一個(gè)未經(jīng)標(biāo)記的區(qū)域,可以指簡(jiǎn)歷最開(kāi)頭的那幾行。類(lèi)似電子郵件或電話號(hào)碼的要素可能會(huì)有多種表達(dá)方式,如果第一種方法識(shí)別失敗,會(huì)自動(dòng)啟動(dòng)第二種方法。

姓名:通常簡(jiǎn)歷的第一行會(huì)寫(xiě)姓名,有可能會(huì)帶有“姓名”兩個(gè)字作為開(kāi)頭。

電子郵件:通常是一個(gè)單詞(其中可能會(huì)夾雜一個(gè)點(diǎn)),然后出現(xiàn)“@”,之后又是英文字母、標(biāo)點(diǎn)、字母。

電話:國(guó)際區(qū)號(hào)省略,之后是3-3-4的數(shù)字模式,前三個(gè)數(shù)字也有可能省略(固定電話)。

Python的’etree’ ElementTree庫(kù)用來(lái)在內(nèi)部詞典中分析config xml。

分析器讀取技術(shù)參數(shù)的詞典,并用它來(lái)尋找文本簡(jiǎn)歷中的元素。

一旦找到匹配的元素,它就會(huì)以節(jié)點(diǎn)標(biāo)示的形式存儲(chǔ)起來(lái),例如電子郵件、電話等等。

像上述元數(shù)據(jù)一樣,教育資質(zhì)可以按以下步驟搜索:

利用分析器的“section_value_extractor”,在“EducationSection”區(qū)域中進(jìn)行分析,通過(guò)匹配文字找到區(qū)域內(nèi)的價(jià)值。

san如果分析器找到任何含有“10th”、“X”、“SSC”的文字,它就會(huì)提取出描述中學(xué)的相關(guān)信息。

如果分析器找到任何含有“12th”、“XII”、“HSC”字樣的文本,它會(huì)提取出代表高中學(xué)歷的關(guān)鍵信息。

分割

上面的代碼表示標(biāo)有“總體部分”或“教育部分”的文本。這些通常都在配置文件的頂部。

“section_extractor”方法一行一行地分析文件,并尋找文本的小標(biāo)題。

通過(guò)標(biāo)題的關(guān)鍵詞可以了解每一段的主要內(nèi)容。例如“總結(jié)部分”可能會(huì)含有“總結(jié)”、“目標(biāo)”等詞語(yǔ)。

一旦匹配,“總結(jié)部分”就確定了下來(lái),之后會(huì)進(jìn)行下一部分的分析。

新的標(biāo)題匹配后,系統(tǒng)會(huì)自動(dòng)開(kāi)始下一部分的匹配。

結(jié)果

分析出的一份簡(jiǎn)歷如下:

具體的操作步驟可見(jiàn)GitHub:github.com/yogeshhk/MiningResume

結(jié)語(yǔ)

這篇文章展示了從非結(jié)構(gòu)化數(shù)據(jù)(如簡(jiǎn)歷)中挖掘結(jié)構(gòu)化信息的過(guò)程,由于只有一個(gè)案例展示,因此它可能不適用于其他格式。今后我們會(huì)對(duì)此改進(jìn),使其適合其他簡(jiǎn)歷類(lèi)型,甚至其他領(lǐng)域的文檔。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    967

    瀏覽量

    55487
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8490

    瀏覽量

    134080

原文標(biāo)題:文本挖掘教程:如何從一份簡(jiǎn)歷中快速找到有用信息

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于Trie的一種關(guān)聯(lián)規(guī)則挖掘方法

    集。本文提出了一種基于Trie的在可信度構(gòu)架下進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法,用于解決支持度為零的類(lèi)特殊問(wèn)題,在不生成候選集的基礎(chǔ)上,直接計(jì)算出所有的子集,節(jié)省了生成頻繁項(xiàng)集的時(shí)空開(kāi)銷(xiāo)。【關(guān)
    發(fā)表于 04-24 09:55

    靈玖軟件:NLPIR智能挖掘系統(tǒng)專(zhuān)注中文處理

    態(tài)生成,資源價(jià)格變化,隨著時(shí)間的推移,從不同的不同地理位置的移動(dòng)數(shù)據(jù),數(shù)據(jù)中心而供應(yīng)充足的計(jì)算資源來(lái)處理它們,是實(shí)現(xiàn)成本效益的項(xiàng)重要任務(wù)。  文本挖掘或者文檔挖掘
    發(fā)表于 01-21 11:39

    文本信息抽取的分階段詳細(xì)介紹

    模型是上述文本信息抽取的具體實(shí)現(xiàn)。 NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)在文本信息提取介紹方面,能夠?qū)崿F(xiàn)新詞提取和關(guān)鍵詞提取。 新詞發(fā)現(xiàn)能
    發(fā)表于 09-16 15:03

    NLPIR平臺(tái)實(shí)現(xiàn)文本挖掘站式應(yīng)用

    的工具。語(yǔ)義智能分析的全鏈條指的是語(yǔ)料數(shù)據(jù)的采集預(yù)處理,經(jīng)過(guò)自然語(yǔ)言處理 到文本挖掘信息檢索再到可視化呈現(xiàn)和導(dǎo)出以便適合于不同人員的使用需求的 全部處理過(guò)程。數(shù)據(jù)收集和預(yù)處理部分?jǐn)?shù)
    發(fā)表于 11-07 16:43

    一種專(zhuān)門(mén)用于檢測(cè)小目標(biāo)的框架Dilated Module

    1. 介紹本文提出一種專(zhuān)門(mén)用于檢測(cè)小目標(biāo)的框架框架結(jié)構(gòu)如下圖:我們探索了可以提高小目標(biāo)檢測(cè)能力的3個(gè)方面:Dilated模塊,特征融合以及passthrough模塊。Dilated
    發(fā)表于 11-04 11:14

    基于文章標(biāo)題信息的漢語(yǔ)自動(dòng)文本分類(lèi)

    文本分類(lèi)是文本挖掘個(gè)重要組成部分,是信息搜索領(lǐng)域的項(xiàng)重要研究課題。該文提出
    發(fā)表于 04-13 08:31 ?10次下載

    針對(duì)主題挖掘的通用設(shè)計(jì)與性能評(píng)估框架的研究

    本文不是設(shè)計(jì)一種新的主題挖掘機(jī),而是借助分層思想,為每層賦予特定的任務(wù),采用容器管理機(jī)制,提出了一種針對(duì)主題挖掘的通用設(shè)計(jì)框架,該設(shè)計(jì)
    發(fā)表于 09-03 09:49 ?8次下載

    一種適應(yīng)短文本相關(guān)測(cè)度及其應(yīng)用

    一種適應(yīng)短文本相關(guān)測(cè)度及其應(yīng)用:針對(duì)博客社區(qū)和BBS 論壇充斥Web 垃圾信息的問(wèn)題,提出相關(guān)度向量空間模型cVSM,并以此作為評(píng)論的特征
    發(fā)表于 10-17 23:07 ?18次下載

    一種用于相關(guān)檢測(cè)系統(tǒng)的波門(mén)產(chǎn)生電路

    一種用于相關(guān)檢測(cè)系統(tǒng)的波門(mén)產(chǎn)生電路
    發(fā)表于 02-07 16:14 ?2次下載

    一種基于Spark框架的并行FP-Growth挖掘算法

    一種基于事務(wù)項(xiàng)間聯(lián)通權(quán)重矩陣的負(fù)載平衡并行頻繁模式增長(zhǎng)算法CWBPFP。算法在Spark框架上實(shí)現(xiàn)并行計(jì)算,數(shù)據(jù)分組時(shí)利用負(fù)載均衡策略,存入分組的數(shù)據(jù)是相應(yīng)頻繁項(xiàng)的編碼。每個(gè)工作節(jié)點(diǎn)將分組數(shù)據(jù)
    發(fā)表于 11-17 17:50 ?0次下載

    電網(wǎng)缺陷文本挖掘技術(shù)及其應(yīng)用

    電網(wǎng)企業(yè)擁有大量蘊(yùn)含著重要可靠性信息的設(shè)備缺陷文本,依靠人工進(jìn)行挖掘不僅效率低而且準(zhǔn)確性因人而異。以變壓器缺陷文本為研究對(duì)象,通過(guò)分析文本
    發(fā)表于 01-12 13:55 ?5次下載
    電網(wǎng)缺陷<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>技術(shù)及其應(yīng)用

    一種捕獲主題單詞信息的主題模型JEA-LDA

    信息融入到LDA框架,構(gòu)建一種主題模型JA-LDA。該模型通過(guò)單詞與主題間的注意力機(jī)制將單詞信息和主題
    發(fā)表于 03-17 14:14 ?19次下載
    <b class='flag-5'>一種</b>捕獲主題單詞<b class='flag-5'>信息</b>的主題模型JEA-LDA

    基于數(shù)據(jù)挖掘的核醫(yī)學(xué)文本關(guān)聯(lián)規(guī)則挖掘方法

    信息。為準(zhǔn)確提取SPECT核醫(yī)學(xué)骨顯像診斷文本疾病與其表征之間的關(guān)聯(lián)關(guān)系,硏究并提岀基于數(shù)據(jù)挖掘的核醫(yī)學(xué)文本關(guān)聯(lián)規(guī)則
    發(fā)表于 04-28 15:39 ?4次下載
    基于數(shù)據(jù)<b class='flag-5'>挖掘</b>的核醫(yī)學(xué)<b class='flag-5'>文本</b>關(guān)聯(lián)規(guī)則<b class='flag-5'>挖掘</b>方法

    基于協(xié)同訓(xùn)練的電商領(lǐng)域文本短語(yǔ)挖掘方法

    電商領(lǐng)域的文本通常不遵循通用領(lǐng)域文本的表達(dá)方式,導(dǎo)致傳統(tǒng)短語(yǔ)挖掘方法在電商領(lǐng)域文本挖掘精度較
    發(fā)表于 05-13 15:01 ?0次下載

    基于新型文本塊分割法的簡(jiǎn)歷解析器

    近些年,基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)器和詞嵌入在自然語(yǔ)言處理中被廣泛應(yīng)用。然而,傳統(tǒng)的簡(jiǎn)歷解析器采用基于關(guān)鍵字的模糊匹配或正則表達(dá)式來(lái)進(jìn)行文本塊分割。文中提岀了一種基于神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 06-16 11:47 ?17次下載