女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何構建檢測信用卡詐騙的機器學習模型?

jmiy_worldofai ? 來源:未知 ? 作者:胡薇 ? 2018-10-04 09:44 ? 次閱讀

通過這篇文章我們想讓你了解:對信用卡交易數據建立檢測模型,使用Python庫進行預處理與機器學習建模工作,代碼通俗易懂。包括數據預處理與清洗,模型調參與評估等詳細數據分析與建模流程。

故事背景與Python環境

故事背景:原始數據為個人交易記錄,但是考慮數據本身的隱私性,已經對原始數據進行了類似PCA的處理,現在已經把特征數據提取好了,接下來的目的就是如何建立模型使得檢測的效果達到最好,這里我們雖然不需要對數據做特征提取的操作,但是面對的挑戰還是蠻大的。

數據分析與建模可不是體力活,時間就是金錢我的朋友(魔獸玩家都懂的!)如果你用Python來把玩數據,那么這些就是你的核武器啦。簡單介紹一下這幾位朋友!

Numpy-科學計算庫主要用來做矩陣運算,什么?你不知道哪里會用到矩陣,那么這樣想吧,咱們的數據就是行(樣本)和列(特征)組成的,那么數據本身不就是一個矩陣嘛。

Pandas-數據分析處理庫很多小伙伴都在說用Python處理數據很容易,那么容易在哪呢?其實有了pandas很復雜的操作我們也可以一行代碼去解決掉!

Matplotlib-可視化庫無論是分析還是建模,光靠好記性可不行,很有必要把結果和過程可視化的展示出來。

Scikit-Learn-機器學習庫非常實用的機器學習算法庫,這里面包含了基本你覺得你能用上所有機器學習算法啦。但還遠不止如此,還有很多預處理和評估的模塊等你來挖掘的!

首先我們用pandas將數據讀進來并顯示最開始的5行,看見木有!用pandas讀取數據就是這么簡單!這里的數據為了考慮用戶隱私等,已經通過PCA處理過了,現在大家只需要把數據當成是處理好的特征就好啦!(數據和代碼下載見文末)

數據分析

接下來我們核心的目的就是去檢測在數據樣本中哪些是具有欺詐行為的!

千萬不要著急去用機器學習算法建模做這個分類問題。首先我們來觀察一下數據的分布情況,在數據樣本中有明確的label列指定了class為0代表正常情況,class為1代表發生了欺詐行為的樣本。從上圖中可以看出來。。。等等,你不是說有兩種情況嗎,為啥圖上只有class為0的樣本啊?再仔細看看,納尼。。。class為1的并不是木有,而是太少了,少到基本看不出來了,那么此時我們面對一個新的挑戰,樣本極度不均衡,接下來我們首先要解決這個問題,這個很常見也是很頭疼的問題。

這里我們提出兩種解決方案也是數據分析中最常用的兩種方法,下采樣和過采樣!

先挑個軟柿子捏,下采樣比較簡單實現,咱們就先搞定第一種方案!下采樣的意思就是說,不是兩類數據不均衡嗎,那我讓你們同樣少(也就是1有多少個 0就消減成多少個),這樣不就均衡了嗎。

很簡單的實現方法,在屬于0的數據中,進行隨機的選擇,就選跟class為1的那類樣本一樣多就好了,那么現在我們已經得到了兩組都是非常少的數據,接下來就可以建模啦!不過在建立任何一個機器學習模型之前不要忘了一個常規的操作,就是要把數據集切分成訓練集和測試集,這樣會使得后續驗證的結果更為靠譜。

在訓練邏輯回歸的模型中做了一件非常常規的事情,就是對于一個模型,咱們再選擇一個算法的時候伴隨著很多的參數要調節,那么如何找到最合適的參數可不是一件簡單的事,依靠經驗值并不是十分靠譜,通常情況下我們需要大量的實驗也就是不斷去嘗試最終得出這些合適的參數。(代碼有些長就不貼了,建議直接看源碼)

邏輯回歸模型

萬能的邏輯回歸,解決分類問題的最佳算法

在使用機器學習算法的時候,很重要的一部就是參數的調節,在這里我們選擇使用最經典的分類算法,邏輯回歸!千萬別把邏輯回歸當成是回歸算法,它就是最實用的二分類算法!這里我們需要考慮的c參數就是正則化懲罰項的力度,那么如何選擇到最好的參數呢?這里我們就需要交叉驗證啦,然后用不同的C參數去跑相同的數據,目的就是去看看啥樣的C參數能夠使得最終模型的效果最好!可以到不同的參數對最終的結果產生的影響還是蠻大的,這里最好的方法就是用驗證集去尋找了!

模型已經造出來了,那么怎么評判哪個模型好,哪個模型不好呢?我們這里需要好好想一想!

一般都是用精度來衡量,也就是常說的準確率,但是我們來想一想,我們的目的是什么呢?是不是要檢測出來那些異常的樣本呀!換個例子來說,假如現在醫院給了我們一個任務要檢測出來1000個病人中,有癌癥的那些人。那么假設數據集中1000個人中有990個無癌癥,只有10個有癌癥,我們需要把這10個人檢測出來。假設我們用精度來衡量,那么即便這10個人沒檢測出來,也是有 990/1000 也就是99%的精度,但是這個模型卻沒任何價值!這點是非常重要的,因為不同的評估方法會得出不同的答案,一定要根據問題的本質,去選擇最合適的評估方法。

同樣的道理,這里我們采用recall來計算模型的好壞,也就是說那些異常的樣本我們的檢測到了多少,這也是咱們最初的目的!這里通常用混淆矩陣來展示。

這個圖就非常漂亮了!(并不是說畫的好而是展示的很直接)從圖中可以清晰的看到原始數據中樣本的分布以及我們的模型的預測結果,那么recall是怎么算出來的呢?就是用我們的檢測到的個數(137)去除以總共異常樣本的個數(10+137),用這個數值來去評估我們的模型。利用混淆矩陣我們可以很直觀的考察模型的精度以及recall,也是非常推薦大家在評估模型的時候不妨把這個圖亮出來可以幫助咱們很直觀的看清楚現在模型的效果以及存在的問題。

這可還木有完事,我們剛才只是在下采樣的數據集中去進行測試的,那么這份測試還不能完全可信,因為它并不是原始的測試集,我們需要在原始的,大量的測試集中再次去衡量當前模型的效果。可以看到效果其實還不錯,但是哪塊有些問題呢,是不是我們誤殺了很多呀,有些樣本并不是異常的,但是并我們錯誤的當成了異常的,這個現象其實就是下采樣策略本身的一個缺陷。

對于邏輯回歸算法來說,我們還可以指定這樣一個閾值,也就是說最終結果的概率是大于多少我們把它當成是正或者負樣本。不用的閾值會對結果產生很大的影響。

上圖中我們可以看到不用的閾值產生的影響還是蠻大的,閾值較小,意味著我們的模型非常嚴格寧肯錯殺也不肯放過,這樣會使得絕大多數樣本都被當成了異常的樣本,recall很高,精度稍低當閾值較大的時候我們的模型就稍微寬松些啦,這個時候會導致recall很低,精度稍高,綜上當我們使用邏輯回歸算法的時候,還需要根據實際的應用場景來選擇一個最恰當的閾值!

過采樣數據生成策略

SMOTE算法生成大量異常數據

說完了下采樣策略,我們繼續嘮一下過采樣策略,跟下采樣相反,現在咱們的策略是要讓class為0和1的樣本一樣多,也就是我們需要去進行數據的生成啦。

SMOTE算法是用的非常廣泛的數據生成策略,流程可以參考上圖,還是非常簡單的,下面我們使用現成的庫來幫助我們完成過采樣數據生成策略。

算法流程如下:

(1)對于少數類中每一個樣本x,以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離,得到其k近鄰。

(2)根據樣本不平衡比例設置一個采樣比例以確定采樣倍率N,對于每一個少數類樣本x,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為xn。

(3)對于每一個隨機選出的近鄰xn,分別與原樣本按照如下的公式構建新的樣本。

很簡單的幾步操作我們就完成過采樣策略,那么現在正負樣本就是一樣多的啦,都有那么20多W個,現在我們再通過混淆矩陣來看一下,邏輯回歸應用于過采樣樣本的效果。數據增強的應用面已經非常廣了,對于很多機器學習或者深度學習問題,這已經成為了一個常規套路啦!

我們對比一下下采樣和過采樣的效果,可以說recall的效果都不錯,都可以檢測到異常樣本,但是下采樣是不是誤殺的比較少呀,所以如果我們可以進行數據生成,那么在處理樣本數據不均衡的情況下,過采樣是一個可以嘗試的方案!

總結:對于一個機器學習案例來說,一份數據肯定伴隨著很多的挑戰和問題,那么最為重要的就是我們該怎么解決這一系列的問題,大牛們不見得代碼寫的比咱們強但是他們卻很清楚如何去解決問題。今天咱們講述了一個以檢測任務為背景的案例,其中涉及到如何處理樣本不均衡問題,以及模型評估選擇的方法,最后給出了邏輯回歸在不用閾值下的結果。這里也是希望同學們可以通過案例多多積攢經驗,早日成為大牛。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8490

    瀏覽量

    134080
  • python
    +關注

    關注

    56

    文章

    4825

    瀏覽量

    86172

原文標題:干貨 | 手把手教你構建用于檢測信用卡詐騙的機器學習模型

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    信用卡欺詐行為多層動態檢測模型

    針對信用卡使用過程中存在的欺詐消費行為,相關信用卡欺詐檢測的技術得到廣泛的應用。在現有的檢測技術基礎上,本文提出了信用卡欺詐行為多層動態
    發表于 12-25 15:57 ?15次下載

    基于支持向量機的信用卡欺詐檢測

    針對信用卡使用過程中存在的欺詐消費行為,運用支持向量機(Support Vector Machine , SVM)建立信用卡欺詐檢查模型, 以期取得較好的預測分類能力。本文從模型建立、
    發表于 02-26 15:21 ?17次下載

    機器學習算法用于檢測盜刷信用卡,讓我們的錢包和包會越來越安全

    盜刷信用卡風險已經成為困擾全球銀行信用卡部門的難題之一。僅以美國為例,美聯儲的支付調查報道顯示,2012年全美信用卡支付總金額達到260億美元,這其中未經授權的信用卡支付,也就是盜刷
    發表于 05-18 09:39 ?3218次閱讀

    信用卡額度負數?這是什么情況

      信用卡的額度竟然為負數,這是怎么回事?這是什么情況?今天就讓微辰金服為大家介紹下吧。  臨時額度到期:當人們信用卡額度不夠時,有時會去申請臨時額度來進行使用。而當你使用了臨時額度之后,或者臨時
    發表于 11-09 13:28 ?395次閱讀

    聊聊那些信用卡常見小陷阱

      信用卡有一定時長的免息期。但是和現金支付比起來,信用卡支付還是有一定的風險的。下面微辰金服就來聊聊那些信用卡常見小陷阱。  信用卡不激活也可能產生年費:很多人可能會因為一時興起或其
    發表于 11-14 14:10 ?266次閱讀

    額度低的信用卡要注銷嗎

      信用卡額度過低,你會注銷嗎?信用卡額度的高低是銀行綜合審核的結果,若下額度低,也不要輕易銷,以免影響今后申。  低額度
    發表于 11-14 14:15 ?579次閱讀

    逾期的信用卡影響申請貸款嗎?

    兩次催收后超過3個月仍不歸還的,則構成信用卡詐騙罪,要承擔刑事責任,同時仍要承擔民事還款責任。如不符合上述情形的,則欠款人負有償還欠款的民事責任。  使用偽造的信用卡,或者使用以虛假的身份證明騙領
    發表于 11-20 13:15 ?610次閱讀

    可以注銷重新申請初始額度太低的信用卡

      信用卡審批下來的額度非常雞肋,可能只有2000或者3000元,那么可以注銷重新申請初始額度太低的信用卡嗎?微辰金服告訴你。  友們都知道銀行審批信用卡的套路,就是要求申請人
    發表于 12-04 13:30 ?403次閱讀

    信用卡到期了怎么更換新的信用卡

      信用卡都有有效期限,從卡面上就能夠直接看到,如果信用卡即將過期,那就需要及時更換新。下面微辰金服就介紹一下信用卡到期了怎么更換新的信用卡
    發表于 12-06 13:11 ?631次閱讀

    微辰金服教你信用卡被凍結怎么解決

      信用卡被凍結有什么解決辦法呢?今天微辰金服帶來信用卡被銀行凍結的解決方法。  信用卡被凍結的三種情況  1、信用卡有嚴重逾期,金額高、逾期時間超過2個月,經銀行催收仍未還款。  2
    發表于 12-11 13:36 ?452次閱讀

    微辰金服:注銷信用卡就可以保證資金和信用卡安全了?

      現在很多朋友以為注銷信用卡就萬事大吉了,但是沒過多久收到了對賬單。這就說明你沒有正確注銷信用卡,下面微辰金服就來說說注銷信用卡的正確姿勢。  銷和銷戶:注銷
    發表于 12-12 13:36 ?364次閱讀

    微辰金服|信用卡還款還錯信用卡的損失

      信用卡還款日當天,打錢進信用卡賬戶里,卻發現自己還錯了賬戶。這可怎么辦?今天微辰金服為大家介紹一下信用卡還款還錯信用卡的損失,大家一定要注意。  打錢進
    發表于 01-25 15:01 ?412次閱讀

    微辰金服教你如何解決信用卡過期

      信用卡過期怎么辦?微辰金服來告訴你吧。  其實在領用信用卡的時候,上面都會有一個選項,就是信用卡到期后是不是會自動續,如果這個選項上你勾選了自動續
    發表于 01-31 16:04 ?302次閱讀

    微辰金服教你怎么操作普通信用卡升級白金信用卡

      白金信用卡的門檻很高?其實學會一些技巧,普通信用卡也能升級為白金信用卡,下面微辰金服就來說說普升白金的技巧。  1、曲線升白金信用卡 
    發表于 03-14 15:42 ?477次閱讀

    在過期信用卡構建ATtiny85游戲機

    電子發燒友網站提供《在過期信用卡構建ATtiny85游戲機.zip》資料免費下載
    發表于 07-12 11:09 ?1次下載
    在過期<b class='flag-5'>信用卡</b>上<b class='flag-5'>構建</b>ATtiny85游戲機