介紹從開始從事數據可視化工作的那一天起,我就愛上它了,我總是喜歡從數據中獲得有用的見解。在此之前,我只了解基本圖表,例如條形圖,散點圖,直方圖等,這些基本圖表內置在tableau中,而Power BI則用于數據可視化。通過每天完成此任務,我遇到了許多新圖表,例如徑向儀表盤,華夫圖等。
因此,出于好奇,最近我正在搜索數據可視化中使用的所有圖表類型,這些詞云引起了我的注意,我發現它非常有趣。之后,我嘗試使用Tableau和Power BI中的少量數據來制作詞云,在成功嘗試之后,我想通過使用條形圖,餅圖和其他圖表的代碼來嘗試使用它。詞云是什么?定義:詞云是一個簡單但功能強大的可視化表示對象,用于文本處理,它以更大,更粗的字母和不同的顏色顯示最常用的詞,單詞的大小越小,重要性就越小。
詞云的用途
1.社交媒體上的熱門標簽(Instagram,Twitter):全世界的社交媒體都在尋找最新的趨勢,因此,我們可以獲取人們在其帖子中使用最多的標簽來探索最新的趨勢。
2.媒體中的熱門話題:分析新聞報道,我們可以在頭條新聞中找到關鍵字,并提取出前n個需求較高的主題,來獲得所需的結果,即前n個熱門媒體主題。
3.電子商務中的搜索詞:在電子商務購物網站中,網站所有者可以制作被搜索次數最多的購物商品的詞云,這樣,他就可以了解在特定時期內哪些商品需求量最大。讓我們開始使用Python來實現詞云首先,我們需要在jupyter notebook中安裝所有庫。在python中,我們將安裝一個內置庫wordcloud。在Anaconda命令提示符下,輸入以下代碼:pip install wordcloud
如果你的anaconda環境支持conda,請輸入:conda install wordcloud
這可以直接在notebook中實現,只需在代碼的開頭添加“!”即可。像這樣:!pip install wordcloud
但現在我想生成擁有任何主題的維基百科文本的詞云,因此,我將需要一個Wikipedia庫來訪問Wikipedia API,可以通過在anaconda命令提示符下安裝Wikipedia來完成,如下所示:pip install wikipedia
現在我們還需要其他一些庫,它們是numpy,matplotlib和pandas。截至目前,我們需要的庫就安裝好了import wikipedia
result= wikipedia.page("MachineLearning")
final_result = result.content
print(final_result)
機器學習維基百科頁面的輸出:
上圖是我們通過檢索Wikipedia的機器學習頁面獲得的輸出圖像,我們還可以看到它可以向下滾動,這表示將檢索整個頁面。在這里,我們還可以通過摘要方法得到頁面的摘要,如:result= wikipedia.summary("MachineLearning", sentences=5)
print(result)
這里我們有句子的參數,因此我們可以用它來檢索特定的行數。
輸出5個句子讓我們一起創建wordcloudfrom wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)
plot_cloud(wordcloud)
停用詞是沒有任何含義的單詞,例如‘is’, ‘are’, ‘an’, ‘I’ 等。Wordcloud帶有內置停用詞庫,該庫將自動從文本中刪除停用詞。同時我們也可以通過stopwords.add()函數在python中添加停用詞的選擇。Wordcloud方法可以設置詞云的寬度和高度,我將它們都設置為500,背景色設置為粉紅色。如果不添加隨機狀態,則每次運行代碼時,詞云都會看起來不同,我們可以將其設置為任何int值。從上面的代碼中,我們將獲得這樣的詞云:
通過查看上圖,我們可以看到機器學習是最常用的詞,還有一些其他經常使用的詞是模型,任務,訓練和數據,因此,我們可以得出結論,機器學習是訓練數據模型的任務。我們還可以在這里通過背景顏色方法更改背景顏色,并通過colormap方法更改字體顏色,還可以在背景顏色中添加顏色的哈希碼,但是mapcolor帶有內置的特定顏色。讓我們通過使用哈希碼將背景色更改為藍綠色,將字體顏色更改為藍色:from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean", random_state=10).generate(final_result)
plot_cloud(wordcloud)
在這里,我指定了ocean,如果我添加了一些錯誤的顏色圖,jupyter將拋出一個值錯誤,并向我顯示顏色圖的可用選項,如下所示:
我們還可以使用PIL庫在任何圖像中實現詞云。尾注在本文中,我們討論了詞云,詞云的定義,應用領域以及使用python實現詞云。參考鏈接:https://www.analyticsvidhya.com/blog/2020/10/word-cloud-or-tag-cloud-in-python/
責任編輯:xj
-
數據
+關注
關注
8文章
7239瀏覽量
90990 -
python
+關注
關注
56文章
4825瀏覽量
86170 -
數據可視化
+關注
關注
0文章
475瀏覽量
10707
發布評論請先 登錄
HarmonyOS5云服務技術分享--云函數創建配置指南
使用Python API在OpenVINO?中創建了用于異步推理的自定義代碼,輸出張量的打印結果會重復,為什么?
創建了用于OpenVINO?推理的自定義C++和Python代碼,從C++代碼中獲得的結果與Python代碼不同是為什么?
創建OpenVINO? Python腳本,運行可執行文件時遇到的報錯怎么解決?
運行OVModelForCausalLM Python模塊時出錯了,怎么解決?
操作指南:pytorch云服務器怎么設置?
搭建云電腦,怎樣搭建云電腦方便

hyper-v 備份,hyper-v怎樣進行虛擬機的創建

私有云電腦,怎樣成功搭建私有云電腦

Flexus 云服務器 X:Python 安裝的極致便捷之旅

如何在Python中使用socket
中國信通院發布“2024云計算十大關鍵詞”

評論