女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

互聯網在進化,互聯網的語言也在進化

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-07-03 11:35 ? 次閱讀

流言止于智者,聊天止于呵呵。

在 2013 年之前,“呵呵”還只是呵呵,然而風云突變,這個一直被用作表達禮貌、微笑的詞匯,卻在 2013 年被網友評選為年度最傷人聊天詞匯。如果以前的“呵呵”是尷尬而不失禮貌的微笑,現在則是充滿嘲諷和攻擊性的一個詞。

時間來到 2018 年,互聯網上最讓討厭的已經不再只有噴子,各種陰陽怪氣的言論,比如“呵呵”,比如“你開心就好”,簡直讓人渾身難受,這種喜歡抬杠的人我們稱之為“杠精”。

互聯網在進化,互聯網的語言也在進化,互聯網的監管技術也在進化。在這場很難設定邊界的對抗中,知乎已經率先向杠精開戰。

▌什么是陰陽怪氣?

想要對抗陰陽怪氣,首先就要給它下一個準確的定義,然而這十分困難。

YC 聯合創始人保羅·格雷厄姆將人跟人之間的意見不統一、反對、沖突分成了七個層級,叫 Disagreement Hierarchy(以下簡稱 DH 值),如下圖所示:

陰陽怪氣可用“杠精”這個詞來指代,通常以“不針對發言內容,而是批評對方的語氣”以及“提出反對意見,但不給或給出極少數論據支持”這兩類常見言論為代表,此類評論極大了傷害創作者和交流者的體驗,但難以解決。

——以上是知乎給出的定義。

當然,也有一些具體的例子,比如:呵呵,你厲害,你咋不上天呢,自以為是的人等等。而根據知乎 6 月的最新統計數據,被知友們踩過次數最多的 Top 10 評論有下面幾種:

那你可真是夠棒的!

你還是省省吧!

你開心就好。

相信大部分讀者都對這些言論都非常熟悉,而且記憶猶深,畢竟被抬杠并不是一種好的體驗。知乎給出的解決方案是:「陰陽怪氣」等嚴重影響大家討論體驗的評論,作者可以「一鍵折疊」,其他知友也可以點「踩」,當被踩評論的分值達到一定閾值后,評論會被自動折疊。

除了依靠用戶的自發行為之外,知乎也在嘗試利用算法來識別陰陽怪氣的言論。

▌如何對抗陰陽怪氣?

作為知乎的“當家機器人”,瓦力算法除了作用于社區內的不友善、答非所問以及低質提問等內容外,最近也正在優化識別陰陽怪氣類內容的模型。

根據知乎內容質量團隊技術負責人劉兆來的說法,“瓦力已經產品化很久了,過去通過關鍵詞和不友善文本識別模型,可以處理辱罵類的文本;目前,我們希望通過對陰陽怪氣類的杠精性質評論進行處理,提升用戶體驗。”

劉兆來詳細介紹了“瓦力”最新的陰陽怪氣技術方案:首先通過知乎社區里的舉報、反對等負向用戶行為收集訓練數據。然后通過各種同義詞替換、規則模版方式對訓練數據進行擴展,以緩解訓練數據不足的問題。同時,“瓦力”提取文本、句法、表情符等特征,并利用一個帶 attention 的 CNN 和 LSTM 的融合模型進行分類,最終判斷出內容是否為陰陽怪氣。

具體來說,可以分為以下幾個步驟:

首先,進行數據增強,以提升模型的泛化能力;

數據增強是為了提升模型在大量數據上的泛化能力。在這方面,知乎進行了兩種嘗試:提取陰陽怪氣關鍵詞做替換,比如同音異字變換,洗地黨→洗滌黨,真的很惡心 → 震得很惡心;此外,知乎也利用提取出的陰陽怪氣關鍵樣本,隨機構造評論上文與評論。

其次,提取相關數據特征,利用卷積網絡以及人工特征等來獲得更多更詳細的特征;

特征構建層方面,知乎從文本特征、數值特征、陰陽怪氣詞以及表情詞著手。文本特征即文本加入陰陽怪氣關鍵詞進行分詞后,保留標點,表情等;數值特征即句子長度,句號數量,感嘆號數據等;陰陽怪氣詞即提取社區內被踩過很多次的表示陰陽怪氣關鍵詞;表情特征:劃分正負樣本表情。

最后,將提取出的特征輸入分類器。

特征學習層方面,主要考慮了評論和上文的文本特征,包括字,詞,標點,表情符號等,并利用知乎全量數據訓練 word2vec 模型。知乎將評論上文與評論經過 embedding 層后分成兩個金字塔型 CNN 網絡,目的是訓練各自獨立的參數,知乎采取 CNN 網絡是因為 CNN 卷積可以捕獲字詞的位置關系也可以比較有效的提取特征。

除上述文本特征外,知乎也充分考慮了其它特征,比如評論長度,評論中句號,問號等標點的個數,評論中是否包含陰陽怪氣關鍵詞等;這些特征離散化后,與評論的卷積提取特征進行拼接,最后與評論上文的卷積輸出進行 dot-attention 目的是獲取評論上文與評論不同的權重。最后,知乎將特征數據全連接層以 softmax 方式進行了分類。

至于這個模型對陰陽怪氣的效果如何,知乎運營總監孫達云表示,其準確率比大部分人工判斷還要準。

▌難點在哪里?

然而,機器并不是總能解決所有問題,很多時候人工智能會表現的像人工智障。這一點,知乎自己也承認,特別是在理解人類語言這一領域。

上圖是劉兆來列舉的一些算法漏識別和誤識別的情況:

通過分析這些 bad case,現代模型主要受限于訓練數據。一方面是訓練數據的覆蓋范圍不夠廣,所以一些不是很常見的詞語,模型就會識別不出來。比如算法漏識別里的第二條,這些詞在訓練里面比較少,甚至在模型里面沒有這些詞,所以模型會識別錯誤。

第二個類型的錯誤,模型過渡彌合了一些數據,比如前面兩條比較明顯。第一條就是因為我們加入了一些標點符號數據特征,可能在訓練數據里面有連續兩個問號這種屬于陰陽怪氣的概率比較高。第二個,“哈哈哈”可能在陰陽怪氣的樣本里面比較多,所以模型會把這兩個特征作為是不是陰陽怪氣比較重要的根據,就會導致誤判。

反諷本身是情感分析領域的一個傳統難題,在孫達云看來,“解決陰陽怪氣類評論的難點核心主要在于網絡語言的復雜性,情感分析不同于普通文本分析,例如經典的‘呵呵’,由于雙方不同關系、說話的不同場景和時間都會帶來迥然不同的表意。即便是人工判定都存在標準化難度,算法模型的訓練挑戰就更為艱辛。”

總的來說,這項艱巨的任務的難點主要在于以下幾點:

需要基于上下文理解深層語義

需要了解某些背景知識

訓練樣本難獲取

……

面對這些問題,劉兆來介紹未來的工作重點:

訓練數據獲取。因為訓練數據標注特別困難,后邊會通過主動學習(ActiveLearning)來減少樣本標注的時間和工作量。

語義分析。首先會嘗試加入詞語的褒貶樣本,就是一些諧音語句;第二個就是在詞表征方面,會嘗試 ELMO 的算法,最近 ELMO 詞向量在多個 NLP 任務能取得提升,ELMO 詞向量利用雙向 LSTM 訓練獲得,可以捕獲上下文信息以及更深層的語義;還有就是嘗試比較復雜的模型。

背景知識。不同領域會有一些用詞的區別,未來會對于體育、明星等領域分別建立模型。

AI 的邊界?

人工智能是建立在人類標準之上的,它代表的也是人類的價值觀。然而,人們對“陰陽怪氣”的定義仍然模糊,不同的人針對同一個評論也會有很大的分歧。知乎在做的,就是找到社區的最大公約數。

不同的人對于同一個內容會有不同的判斷,這個沒有問題,但是如果絕大多數人都認為這條評論內容是不禮貌的,它是冒犯性的,我們就需要對這條內容進行標記、進行干預,我們通過算法訓練已經無限接近了最大公約數的概念。

人類可以接受人類犯錯,但是很難接受機器犯錯,特別是在機器做的還沒有人類好的情況下。此外,用人工智能去管理人類,其實是很大冒險。有知友表示,“把社區越多的控制權交給社區,其實越會導致社區畸形,這是人性問題,不能通過人工智能解決。”

戴維·溫伯格在《知識的邊界》一書里寫道:知識的網絡化正在對知識的本質以及長形式思考在其中發揮的作用,帶來一些根本性的變化。如果書籍告訴我們,知識是從 A 到 Z 的漫長旅程,那么網絡化的知識可能會告訴我們,世界并非是一個邏輯嚴密的論證,而更像是一個無定形的、相互交織的、不可掌控的大網。

人類掌控不了的就寄希望于人工智能,于是我們努力去拓展 AI 的邊界。至于它最終會不會讓我們失望?這就需要留給時間去驗證了。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 互聯網
    +關注

    關注

    54

    文章

    11237

    瀏覽量

    105842
  • 人工智能
    +關注

    關注

    1804

    文章

    48807

    瀏覽量

    247172

原文標題:呵呵,你開心就好!——AI向杠精宣戰

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    聯想將進軍互聯網

    豐富的移動互聯網終端,包括個人電腦、互聯網手機、平板電腦等。  “互聯網電視上,我們已經做了很長時間的研究和開發,相信用戶不會等太久。希望通過與百視通的合作,在用戶所經常接觸信息的四
    發表于 03-18 10:48

    互聯網電視迅速崛起

    互聯網電視功能得到進一步完善,并在彩電市場大行其道。2010年互聯網電視終于成為家庭娛樂電視的標準配備。2010年則有19個品牌銷售互聯網功能的電視。 2008年
    發表于 03-22 11:31

    互聯網知識分享交流

    互聯網交流,你了解互一起討論一下吧聯網+嗎,查看世界工廠網網頁,你會了解更hulianwang多的hulian互聯網知識哦
    發表于 12-29 15:25

    能源互聯網是什么?通俗的解釋能源互聯網

      發現很多人對某些詞匯給的定義概念不是理解的很透徹,果然很多東西還是需要通俗的去解釋,運用生活上的例子,大家才會理解的比較透徹,所以今天通俗的給大家解釋一下什么是能源互聯網。 試想下未來,人們
    發表于 01-14 11:47

    工業互聯網

    工業互聯網是全球工業系統與高級計算、分析、感應技術以及互聯網連接融合的結果。它通過智能機器 間的連接并最終將人機連接,結合軟件和大數據分析,重構全球工業、激發生產力,讓世界更美好、更快速、更安全、更
    發表于 01-25 09:29

    工業互聯網

    工業互聯網是全球工業系統與高級計算、分析、感應技術以及互聯網連接融合的結果。它通過智能機器 間的連接并最終將人機連接,結合軟件和大數據分析,重構全球工業、激發生產力,讓世界更美好、更快速、更安全、更
    發表于 04-17 15:56

    讀什么,互聯網時代找到真實

    如今互聯網時刻影響著人們的生活,說影響著世界格局不為過。甚至兩會的答記者問上,也有記者問******,“最近是否網購過”。現在的人,沒有網,或許就像突然斷電。不僅是成人世界
    發表于 05-23 13:48

    技術與互聯網+

    急急急!!!!!!!!!!!請問,如果用單片機做出了一個作品,互聯網+可以怎么用的上我的作品?除了用互聯網賣出去,還可以怎么辦呢
    發表于 07-03 22:53

    互聯網與工業物聯網之間的區別與聯系

    聯網不能完全替代互聯網,而互聯網不能滿足工業物聯網的發展需求,只能說未來很長一段時間內,兩者
    發表于 06-14 10:18

    CRM互聯網行業的應用

    銷售覆蓋”的市場搶占策略上,力爭最快、最精準的對接目標客戶,從而成為垂直領域的龍頭,因此,CRM互聯網行業的應用日趨普遍。 互聯網行業的業務挑戰1.地推團隊龐大,能力參差不齊。 如
    發表于 08-28 14:30

    空間互聯網天線設計

    如鳥兒展翅,如飛機翱翔,未來的數據共享方式是如此的快捷、自由。環繞地球運行的衛星有可能徹底地改變人類收集與共享信息的方式。相比于有線或無線數據網絡,以衛星系統為基礎的空間互聯網(Internet of Space,簡稱 IoS)技術能夠向全球各地,甚至是最偏遠的地區提供網絡接入服務。什么是空間
    發表于 07-16 07:31

    什么是產業互聯網

    2018年10月,騰訊宣傳進軍產業互聯網;2019年9月,騰訊完成了史上最大的組織架構調整,新成立云與智慧產業事業群,正式發力產業互聯網;2020年1月,騰訊發布《2020產業安全報告:產業互聯網
    發表于 01-18 11:40

    為什么說產業互聯網互聯網的下半場?

    消費互聯網改變的是商品銷售方式,產業互聯網改變的是生產和供給方式,而終極目標是產消協同的數字化社會!因此,產業互聯網要求企業通過“智能化、數字化、網絡化”手段全方位賦能產業鏈的上下游、生產體系、組織結構、運作方式等各個環節,推動
    發表于 01-18 11:42

    互聯網公司為什么要學C語言?精選資料分享

    互聯網作為當下最有“錢景”的行業之一,那么今天我們就聊聊,C語言這個做互聯網行業影響究竟有多大呢?這里推薦一下我建的C/C++語言學習交流秋秋裙,前三位是:110,中間三位是:355,
    發表于 07-22 07:16

    區塊鏈技術正在讓信息互聯網向價值互聯網進化

    會上,肖風表示:“區塊鏈技術宣告了互聯網從傳遞信息的信息互聯網向轉移價值的價值互聯網進化。”肖風還代表萬向承諾,未來三年里,每年向萬向區塊
    發表于 08-18 10:26 ?1035次閱讀