在講課程《數據結構和算法》的過程中,我給了學生們一個參考例程,希望他們能夠從程序中學到詞頻統計的方法。由于同學們底子比較薄弱,所以給出程序后,我希望同學們能夠認真的查閱程序中用到的每個函數,了解其用法,這樣才能真正的搞懂程序,遺憾的是我的學生只是完成了實驗報告,而程序中很多函數的用法和含義根本就沒搞清楚。這種學法是應付式的學法,我極不贊成這樣的學習方式。所以才會有了此系列文章。也許是底子弱,也許是不愛學。
面對學生不愛學或者說學習不刻苦的狀況,我也只能把這些好的代碼傳播到網上,讓更多人能夠借力學習。這也是我現在會更加專注網絡傳播文章的原因吧。有了詞頻統計程序,我們就可以在這個基礎之上進行擴展,寫出更復雜的程序。我就用這樣的事例來寫出了一個完整的系列文章,告訴大家如何從基礎學起,然后再逐步的完善和深入,寫出功能更強大的程序,這樣的過程走一遍,才算是真正的掌握知識,才能把別人的知識轉化為屬于自己的知識。寫這個系列耗時一個多月,大家看文章花了多長時間呢?有了階梯,希望大家能好好利用和珍惜。
文本分析對于通信工程專業的學生而言,只是牛刀小試,等到完成詞頻統計的算法后大家還可以沿這條路繼續深入,比如進行語音信號的識別。先進行信號中數字的識別,再進行語義識別。這些可比字符的識別難多了。當下,文本信息已經退居次席,人們更多在意的是語音和視頻。因此,語音信號和視頻信號處理是當下的技術熱點,讓我們一起由淺入深的學習吧。本課題可以作為畢業設計的題目,可以根據個人能力適當增加難度。
詞頻統計主要分為英文詞頻統計和中文詞頻統計。英文詞頻統計很簡單,可以借助MATLAB自帶函數進行斷句,然后再進行統計即可。中文詞頻統計相對復雜一些。關鍵在于如何使用合適的語料庫和如何精準匹配詞語。比如句中出現了“人工智能”四字詞,我們應該這四個字視為一個詞,而不能分析成為兩個詞。再者出現生僻詞語怎么辦?慢慢來,我們先從簡單的學起。依舊是老規矩,先看代碼!代碼中的注釋非常清晰,當看完程序后也就明了了。
原文標題:大學畢業設計一席談之四十八 詞頻統計(1)
文章出處:【微信公眾號:通信工程師專輯】歡迎添加關注!文章轉載請注明出處。
-
通信網絡
+關注
關注
21文章
2074瀏覽量
52776
原文標題:大學畢業設計一席談之四十八 詞頻統計(1)
文章出處:【微信號:gh_30373fc74387,微信公眾號:通信工程師專輯】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
從清華大學到鎵未來科技,張大江先生在半導體功率器件十八年的堅守!
全國大學生電子設計大賽加畢業設計項目合集
畢業設計實物章節補充!有償!
《DNESP32S3使用指南-IDF版_V1.6》第四十八章 掃描WiFi實驗
stm32單片機畢業設計——物聯網智能家居源代碼原理圖

【畢設項目參考】物聯網10+項目推薦,附項目文檔/源碼/視頻

NVIDIA CEO黃仁勛對話香港科技大學畢業生
《DNK210使用指南 -CanMV版 V1.0》第四十八章 自學習分類實驗
【畢設項目參考】嵌入式Linux 10+項目推薦,附項目文檔/源碼/視頻

福祿克公司助力北京交通大學畢業實習活動
光纖的芯數是指什么
思看科技助力浙江大學機械工程學院2024年“思看杯”本科畢業設計展圓滿舉辦!

評論