近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型訓練領域取得了新的突破。
據專利摘要顯示,該方法通過在大語言模型的訓練過程中引入第一摘要文本和第二摘要文本,為模型提供了更為豐富的學習信息。這兩個摘要文本在信息量上存在差異,且第一摘要文本中既包含正確語句也包含錯誤語句。這一設計使得模型在訓練過程中,能夠通過對比學習兩個不同摘要文本的內容,同時區分并學習第一摘要文本中的正確語句和錯誤語句。
這一創新性的訓練方法,有效避免了由于摘要文本單一而導致的模型過擬合和生成不準確等問題。通過引入更多樣化的學習信息,模型能夠更好地泛化到新的數據上,從而提高其泛化性能。同時,對正確語句和錯誤語句的區分學習,也進一步提升了模型的準確性。
騰訊此次公布的新專利,不僅展示了其在人工智能領域的深厚技術積累,也為大語言模型的訓練提供了新的思路和方法。
-
人工智能
+關注
關注
1804文章
48700瀏覽量
246439 -
騰訊
+關注
關注
7文章
1678瀏覽量
50136 -
語言模型
+關注
關注
0文章
558瀏覽量
10669
發布評論請先 登錄
小白學大模型:訓練大語言模型的深度指南

評論