最新美国十次啊,开心激情网页,午夜乱理片在现观看

想象一下，如果我們必須向外星人解釋地球上發生的所有行為。我們可以為他們提供非小說類書籍或BBC紀錄片。我們可以嘗試口頭解釋什么是電臀舞。但是，實際上，沒有什么能比三秒鐘的視頻短片更好地傳達出這一行為的含義。

Falling Asleep（入睡，來自GIPHY網站）

感謝麻省理工學院和IBM的研究人員，我們現在有了一個做了清晰的標簽標記的數據集，其中包含有100多萬個視頻短片。這個數據集名為“Moments in Time”，已經收集了地球上發生的數百種常見行為，有鮮花綻放的美麗時刻，也有令人尷尬的被絆倒和嘴啃泥場景。

Tripping（絆倒，來自GIPHY網站）

然而，Moments in Time的創建并不是為了提供一系列GIF動畫，而是為人工智能系統識別和理解視頻中的行為和事件打下基礎。迄今為止，大量標記過的圖像數據集，如用于物體識別的ImageNet和用于場景識別的Places，在開發更準確的圖像分類和理解模型中發揮了重要作用。

“視頻理解尤其是視頻中的行為識別，與圖像理解的情況是不同的。”MIT-IBM沃森人工智能實驗室的首席研究員、創建Moments in Time的主管研究員Dan Gutfreund說。“雖然用標簽標記了行為的視頻數據集在Moments in Time之前就已經存在，但它們比圖像數據集要小好幾個數量級。此外，它們是以人為中心的，有時還是針對特定領域的（比如體育）。”

因此，Gutfreund及其同事們力圖開發一個分類系統，該系統可以涵蓋最常見的行為（不管這些行為是由人類、動物還是物體完成的，也不管它們是在什么環境下完成的）。他們首先列出了來自VerbNet的4500個最常用的動詞（VerbNet是由語言學家開發和使用的一個動詞知識庫）。

他們將動詞解析成語義相關的詞簇，然后從每個詞簇中選擇最常見的動詞。結果顯示英語是很冗余的一種語言。例如，洗浴、淋浴、沐浴、皂洗、洗發、修指甲、保濕和用牙線——這些都可以簡單地歸入“梳洗打扮”的范疇。在對動詞進行了細致的整合之后，研究團隊確定了339個用做Moments in Time基礎的關鍵動詞。

Grooming（梳洗打扮，來自GIPHY網站）

但是，當對視頻本身進行分類時，會遇到一系列獨特的挑戰。例如，描述某個東西正在“打開”（opening），那可能是一個人正在打開一扇門，也可能是一朵花正在綻放，甚至可能是一只卡通狗正在張開嘴。更重要的是，相同幀反向播放，實際上可以描述不同的行為（“關閉”，closing），這意味著捕捉視頻的時間線對于理解視頻和將其正確分類是至關重要的。

Opening（打開，來自GIPHY網站）

研究人員從網上挑選了與這339個動詞相關的視頻，將每個視頻的時長縮短到3秒。這些視頻短片被發送到眾包平臺Amazon Mechanical Turk上，該平臺上的用戶幫助對100多萬個視頻短片進行分類（他們只需點擊“是”或“否”來確認每個視頻短片中是否發生了指定的行為即可）。

每個標簽都經過幾個用戶的驗證。關于該數據集如何創建的詳細信息，發表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上，文章標題為“Moments in Time Dataset: one million videos for event understanding”。

麻省理工學院計算機科學與人工智能實驗室（CSAIL）的Mathew Monfort是該項目的首席研究員，他指出，一些分類，比如“Walking”（步行）或“Cooking”（烹飪），是很簡單的，而另一些則不然。“Playing Music”（演奏/播放音樂）可以是一個樂隊在舞臺上演奏，也可以是一個人在用收音機聽音樂。Monfort說：“具有這種視覺和聽覺多義性的類目的識別，對于當前的機器學習模型來說是非常具有挑戰性的。”

Playing Music（演奏/播放音樂，來自GIPHY網站）

在該數據集的下一版本中，該團隊計劃使用相同的視頻集合，并標記出每個視頻中發生的多個行為。“當我們考慮視頻的本質時，很明顯需要更多的信息來恰當地描述一個事件，而用一個行為標簽來訓練和評估模型是不完整的。”Monfort說。“將多個標簽納入數據集應該可以顯著改善模型訓練，同時也為不同行為之間的關系問題以及如何對它們進行推理打開了大門。”

很快，更復雜的視頻可以通過機器學習算法分類，輕松自如。

不久之后，機器學習算法可能可以毫不費力地對更復雜的視頻加以分類。

機器學習（Machine Learning，來自GIPHY網站）