本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
眾所周知,中文NLP領域缺乏高質量的中文語料。作者徐亮(實在智能算法專家) 創建了一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料。
大規模中文自然語言處理語料 Large Scale Chinese Corpus for NLP
https://github.com/brightmart/nlp_chinese_corpus
為中文自然語言處理領域發展貢獻語料
貢獻中文語料,請聯系:[email protected]
語料庫將會不斷擴充。。。
一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)
二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)
為什么需要這個項目
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,
普通的從業者、研究人員或學生,并沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,
在百度和github上上搜索了好久,收獲卻很少:要么語料的量級太小,要么數據過于成舊,或需要的處理太復雜。
不知道你是否也遇到了這樣的問題?
我們這個項目,就是為了解決這一問題貢獻微薄之力。
維基百科(wiki2019zh) ---- 新聞語料(news2016zh) ---- 百科問答(baike2018qa)
1. 維基百科json版(wiki2019zh)
104萬個詞條(1,043,224條; 原始文件大小1.6G,壓縮文件519M;數據更新時間:2019.2.7)
點此下載:https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA
可能的用途:
可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用于構建知識問答。
結構:
{"id":
例子:
{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "經濟學", "text": "經濟學 經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。 經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。..."}
效果:
經濟學 經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。 經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。 其他的對照還包括了實證經濟學(研究「是什么」)以及規范經濟學(研究「應該是什么」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。 經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。 在現代對于經濟學的定義有數種說法,其中有許多說法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他說: 讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策里獨立出來,并定義其為對于財富之生產、分配、和消費的學問。另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂郁的科學」(Dismal science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度: .....
2. 新聞語料json版(news2016zh)
250萬篇新聞( 原始數據9G,壓縮文件3.6G;新聞內容跨度:2014-2016年)
點此下載:https://pan.baidu.com/share/init?surl=LJeq1dkA0wmYd9ZGZw72Xg 密碼: film
數據描述
包含了250萬篇新聞。新聞來源涵蓋了6.3萬個媒體,含標題、關鍵詞、描述、正文。
數據集劃分:數據去重并分成三個部分。訓練集:243萬;驗證集:7.7萬;測試集,數萬,不提供下載。
可能的用途:
可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料; 也可以用于訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同于標題的數據); 亦可以通過新聞渠道區分出新聞的類型。
結構:
{'news_id':
例子:
{"news_id": "610130831", "keywords": "導游,門票","title": "故宮淡季門票40元 “黑導游”賣外地客140元", "desc": "近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。窗口出售", "source": "新華網", "time": "03-22 12:00", "content": "近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。窗口出售40元的門票,被“黑導游”加價出售,最高加到140元。故宮方面表示,請游客務必通過正規渠道購買門票,避免上當受騙遭受損失。目前單筆門票購買流程不過幾秒鐘,耐心排隊購票也不會等待太長時間。....再反彈”的態勢,打擊黑導游需要游客配合,通過正規渠道購買門票。"}
3.百科類問答json版(baike2018qa)
150萬個問答( 原始數據1G多,壓縮文件663M;數據更新時間:2018年)
點此下載:https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA 密碼:fu45
數據描述
含有150萬個問題和答案,每個問題屬于一個類別。總共有492個類別,其中頻率達到或超過10次的類別有434個。
數據集劃分:數據去重并分成三個部分。訓練集:142.5萬;驗證集:4.5萬;測試集,數萬,不提供下載。
可能的用途:
可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用于構建百科類問答;其中類別信息比較有用,可以用于做監督訓練,從而構建 更好句子表示的模型、句子相似性任務等。
結構:
{"qid":
例子:
{"qid": "qid_2540946131115409959", "category": "生活知識", "title": "冬天進補好一些呢,還是夏天進步好啊? ", "desc": "", "answer": "你好! 當然是冬天進補好的了,夏天人體的胃處于收縮狀態,不適宜大量的進補,所以我們有時候說:“夏天就要吃些清淡的,就是這個道理的。” 不過,秋季進補要注意“四忌” 一忌多多益善。任何補藥服用過量都有害。認為“多吃補藥,有病治病,無病強身”是不的。過量進補會加重脾胃、肝臟負擔。在夏季里,人們由于喝冷飲,常食凍品,多有脾胃功能減弱的現象,這時候如果突然大量進補,會驟然加重脾胃及肝臟的負擔,使長期處于疲弱的消化器官難于承受,導致消化器官功能紊亂。 二忌以藥代食。重藥物輕食物的做法是不科學的,許多食物也是好的滋補品。如多吃薺菜可治療高血壓;多吃蘿卜可健胃消食,順氣寬胸;多吃山藥能補脾胃。日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。 三忌越貴越好。每個人的身體狀況不同,因此與之相適應的補品也是不同的。價格昂貴的補品如燕窩、人參之類并非對每個人都適合。每種進補品都有一定的對象和適應癥,應以實用有效為滋補原則,缺啥補啥。 四忌只補肉類。秋季適當食用牛羊肉進補效果好。但經過夏季后,由于脾胃尚未完全恢復到正常功能,因此過于油膩的食品不易消化吸收。另外,體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。"}
公開評測:
歡迎報告模型在驗證集上的準確率。任務1: 類別預測。
報告包括:#1)驗證集上準確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基于#2和#3,我們會在測試集上做測試,并報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。
貢獻語料/Contribution
貢獻中文語料,請發送郵件至nlp_chinese_corpus@163.com
為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料并被采納到該項目中,
除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前20個同學,結合您的意愿,寄出鍵盤、鼠標、
顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻者的感謝。
add your chinese corpus here by sending us an email
if there is any issue regarding the data, you can also contact with us, we will process it. thank you for your understanding.
Reference
利用Python構建Wiki中文語料詞向量模型試驗
A tool for extracting plain text from Wikipedia dumps
Open Chinese convert (OpenCC) in pure Python:開放中文轉換
dumps of wiki, latest in chinese
-
自然語言處理
+關注
關注
1文章
628瀏覽量
14004 -
nlp
+關注
關注
1文章
490瀏覽量
22477
原文標題:中文NLP福利!大規模中文自然語言處理語料
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
中文版《CMOS超大規模集成電路設計》第4版
簡單有效的多標準中文分詞詳解
pyhanlp文本分類與情感分析
大規模MIMO的性能
NLPIR平臺提供快捷簡便的語義分析工具
中醫漢英雙語語料庫平臺
雙語協同中文關系抽取方法

漢語口語互動分級語料庫的構建

嬰幼兒語料庫人工智能技術的詳細中文資料概述

評論