女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能數據:物聯網的下一個前沿

劉勇 ? 來源:阿兵888824 ? 作者:阿兵888824 ? 2022-07-21 08:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

收集數據從未像現在這樣容易。只需單擊幾下,您就可以啟動并運行,配備云必須提供的所有最佳數據技術,準備好囤積所有可能的數據。很難相信就在十年前,情況發生了巨大的不同。事實上,大規模收集數據只是最大的公司的一種選擇,這些組織既能負擔得起昂貴的服務器(這是存儲所有數據的唯一可行選擇),又能負擔得起少數能夠做到最好的工程師其中,在數據科學只是一個新興領域的時代。

如今,幸運的是,生成數據不再只是一項企業運動。事實上,多虧了物聯網 (IoT),無論好壞,我們現在都變成了小型大數據工廠。到 2020 年,一個人將負責每秒生成 1.7 MB 的數據。即使是現在,僅一輛自動駕駛汽車每天就會產生 11TB 的數據。而且這種趨勢沒有減弱的跡象。相反:它只會增長。

對于所有數據愛好者來說,這顯然是個好消息。不久前,收集高質量的數據集是一項繁重而艱巨的任務。盡管如此,我們總是想要更多。如果您的全新深度學習模型似乎“僅”達到 92% 的準確率,那么最簡單、最容易找到的借口就是指責數據?!拔业臄祿粔虼蟆保覀兟唤浶牡馗嬖V我們的老板?!暗绻覀冊俚葞讉€星期,這個模型將是你見過的最好的模型!”

這似乎提出了一個重要問題:實際上有多少數據才足夠?但它實際上提出了一個更重要的問題:多少數據太多了?

有趣的是,我們在機器學習圈中并不經常聽到這個問題,即使我們真的應該聽到。雖然大數據是一個巨大的機會,但它也是一個巨大的 40 zettabyte 責任。如果數據確實是新的石油,我們需要把類比推到極限:數據是一種極其有利可圖的資源,但也像石油一樣,需要提煉。未能克制自己不受控制的使用使我們處于危險之中。簡而言之,我們今天使用和考慮數據的方式是非常不可持續的,這一事實仍然幾乎沒有達到集體意識。

也許,只是也許,這是錯誤的對話。也許大數據畢竟不是人工智能的真正答案。

讓我們退后一步,想想我們真正收集的是什么?;氐綌底只脑缙?,數據收集確實成本更高,所以我們選擇了我們的位置。我們更負責任,更認真。隨著生成和收集數據變得越來越容易,對質量的關注越來越少,而數量成為云存儲、云計算GPU 機器、大規模數據管理和傳輸系統等新技術的自然副產品。很快,數據變成了一種商品,但隨著數據和數據存儲的不斷升級,沒有人提出一個簡單的問題:我們為什么要收集這些?它甚至有意義嗎?

隨著模型構建的商品化,數據護城河似乎是人工智能差異化的明顯答案,但我們都錯過了大局嗎?數據時代。它變得陳舊。最終,即使我們被誘使相信數據和信息是兩個截然不同的事物,但并非所有數據都是 平等的。畢竟,一個十幾歲的少年在發到 Instagram 之前自拍了 20 張自己的照片,這肯定與可搜索的醫學文獻目錄不同。

只要我們堅信硬件的進步將使我們免受數據災難的影響,這一切似乎都不是問題。數據存儲越來越便宜,計算能力也越來越容易獲得。只有當數據的生成被工程師跟上摩爾定律的能力所抵消時,這才是真的。即使他們可以無限期地做到這一點,請考慮以下問題:如果并非所有數據都具有同等的信息性,那么處理子數據或冗余數據有什么意義?

我可以通過我的電腦屏幕聽到數百名數據科學家的聲音,他們抗議說,更大的訓練集是他們痛苦的答案。畢竟,難道幾代專家沒有一次又一次地告訴我們,數據越多越好嗎?

事實并非如此簡單。顯然,獲得高質量、足夠大的數據集是機器學習取得進展的關鍵。然而,如果醫生告訴你生病了,急需大量攝入維生素C,你難道不想認真地確定哪些食物確實含有上述維生素,而不是沖到你的廚房,吃掉你能在那里找到的每一種食物嗎?毫無疑問,吃下冰箱或食品儲藏室里的所有食物最終會讓你獲得一些急需的維生素C,但在這個過程中,你也會消耗很多空熱量。不幸的是,今天我們處理機器學習的方式似乎需要相當于營養師的干預。

這似乎是一個愚蠢的類比,但這里有一些分量。例如,認為功能更強大的GPU機器最終會讓我們擺脫困境的觀點是有嚴重缺陷的,就像認為暴飲暴食會幫助我們攝入維生素一樣。實際上,我們收集的很多數據不僅與我們試圖使用它訓練的模型冗余或無關,而且往往對這些模型有害。例如,過度增長的訓練集通常是不平衡的,可能會導致過度擬合。一些極端的異常值實際上可能會導致模型“忘卻”數據可能被錯誤標記、錯誤收集或錯誤。

這就提出了一個重要的問題:如果數據科學家最適合就哪些數據可能對模型學習更有用提供反饋,那么為什么他們仍然幾乎不參與旨在收集數據的硬件設備的設計,而且很少有機會提供數據收集過程本身的反饋?

答案實際上比最初看起來更簡單:正如營養學家根據不同客戶的獨特營養需求向他們提供不同的建議一樣,數據科學家也只能建議針對特定用例收集哪些數據。簡而言之,在訓練給定模型的背景下,信息量最大的數據實際上可能與另一個模型完全無關,這使得在源位置對數據進行不可知分類具有挑戰性。

硬件顯然無法解決所有這些問題。它無法確定哪些數據行正在降低模型的準確性。它無法弄清楚哪些是多余的。它不能重新標記錯誤的數據點。換句話說,存儲太多數據并不能解決存儲太多數據帶來的問題。我們需要專注于創建一個額外的智能層,能夠從渣滓中分類有意義的數據。我們需要開始關注那些從較小的、經過整理的數據集構建出色模型的數據科學家。我們需要明白,是的,您可以過度喂食您的模型。

數據的未來并不存在于容納每個數據點的巨大服務器場中,而不管哪些數據點實際上是有用的。它存在于小型智能數據中。它是基于數據質量及其與用例相關性的深思熟慮的方法,而不是主要基于數量的草率方法。對于我們這些沒有無休止的標簽和服務器預算的人來說,它更容易獲得。換句話說,它既更智能,也更民主。

這是我們都可以落后的。

pYYBAGLXVWCAGvibAAAc7H8Ypd8467.jpg

Jennifer Prendki是 Alectio 的創始人兼首席執行官。這家公司是她相信好的模型只能用好的數據建立的直接產物,而盲目地使用越來越大的訓練集的蠻力方法是進入人工智能的障礙如此之高的原因。在創立 Alectio 之前,Jennifer 是 Figure 8 的機器學習副總裁、數據標簽的先驅、Atlassian 的首席數據科學家和沃爾瑪實驗室搜索團隊的數據科學高級經理。她擁有索邦大學粒子物理學博士學位。她最喜歡的口號是:“并非所有數據生來都是平等的”、“數據是新塑料”和“智能數據 > 大數據”。


審核編輯 黃昊宇


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7254

    瀏覽量

    91785
  • 物聯網
    +關注

    關注

    2930

    文章

    46201

    瀏覽量

    391810
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    聯網藍牙模塊有哪些優勢?

    更加廣泛地覆蓋范圍,從而提高了設備的可用性。安全性高:藍牙模塊采用了加密技術,可以有效地保障通信數據的安全性,防止數據被非法獲取。這對于些對安全性要求較高的
    發表于 06-28 21:49

    聯網的應用范圍有哪些?

    在生活中的小小體現。 從技術層面看,聯網融合了多種技術,包括傳感器技術、網絡通信技術、大數據與云計算技術等。傳感器負責采集各種物理量、
    發表于 06-16 16:01

    聯網未來發展趨勢如何?

    ,人們才會更加信任和接受聯網技術。 綜上所述,聯網行業的未來發展趨勢非常廣闊。智能家居、工業互聯網
    發表于 06-09 15:25

    聯網工程師為什么要學Linux?

    聯網工程師需要掌握Linux的主要原因可以從技術生態、開發需求、行業應用及就業競爭力四角度來分析: 、技術生態與行業適配性 1)嵌入式開發的主流平臺
    發表于 05-26 10:32

    ad7616 burst模式讀取數據時,是否可以在下一個convst啟動轉換?

    ad7616 burst模式讀取數據時,是否可以在下一個convst啟動轉換,但busy還沒有拉低的情況下繼續讀取上次轉換的數據嗎?主要是串行讀取時,有可能出現convst臨界的情
    發表于 04-15 07:50

    為什么選擇蜂窩聯網

    、Wi-SUN 或其他 LPWAN 相比,蜂窩聯網(包括 NB-IoT 和 LTE-M)更適合您的聯網項目,以下是其中些關鍵原因。 許
    發表于 03-17 11:42

    宇樹科技在聯網方面

    應用,再到智能決策與數據分析,以及產業生態合作,宇樹科技正以其卓越的技術實力和前瞻性的戰略眼光,引領著機器人技術在聯網時代的創新與發展。未來,隨著
    發表于 02-04 06:48

    聯網就業有哪些高薪崗位?

    進行分析和挖掘,提供有價值的信息和見解,以支持決策和業務發展。對于數據科學和人工智能有深入了解的數據分析專家,將迎來更多的高薪崗位機會。 聯網
    發表于 01-10 16:47

    Chiplet,半導體的下一個前沿?

    的服務器等切設備提供動力?,F代設備的明顯趨勢是可用于專門任務的空間越來越小,要求這些設備在有限的物理限制內有效處理多個工作負載。半導體行業正在經歷重大轉型。隨著
    的頭像 發表于 12-30 10:53 ?659次閱讀
    Chiplet,半導體的<b class='flag-5'>下一個</b><b class='flag-5'>前沿</b>?

    聯網學習路線來啦!

    按下面的步驟,獨立完成到兩實戰項目,鞏固學習效果,同時,也是積累自己的項目經驗。 1)選擇實踐項目 根據自己的興趣和目標,選擇適合的聯網
    發表于 11-11 16:03

    聯網和大數據的關系

    的進步。 聯網的定義和特點 聯網是指通過各種信息傳感設備,如射頻識別(RFID)、紅外感應器、全球定位系統(GPS)和網絡傳感器等,
    的頭像 發表于 10-29 10:20 ?1817次閱讀

    智能系統與聯網的結合

    在數字化轉型的浪潮中,智能系統與聯網的結合成為了推動社會進步的關鍵力量。聯網通過連接各種設備,收集和傳輸
    的頭像 發表于 10-29 09:46 ?889次閱讀

    使用tSPI協議減少下一個多電機BLDC設計的布線

    電子發燒友網站提供《使用tSPI協議減少下一個多電機BLDC設計的布線.pdf》資料免費下載
    發表于 09-26 10:40 ?0次下載
    使用tSPI協議減少<b class='flag-5'>下一個</b>多電機BLDC設計的布線

    什么是聯網技術?

    什么是聯網技術? 聯網技術(Internet of Things, IoT)是種通過信息傳感設備,按約定的協議,將任何物體與網絡相連
    發表于 08-19 14:08

    能否在ESP結束之前通過串行端口停止傳入的UDP數據包的傳輸以解析下一個UDP數據包?

    丟棄在ESP完成之前不需要的數據包,以便通過串行端口發送它以接收下一個數據包, 如果沒有,我必須按順序讀取所有傳入的數據包,需要的和不需要的, 而且波特率不足,主機處理器開銷大, 我能否在 ESP 結束之前通過串行端口停止傳入
    發表于 07-16 06:18