Skip to content

中文分词 数据集信息

memeda edited this page Aug 30, 2016 · 1 revision

数据

使用人民日报语料。

数据集 实例数(行数) Token数(词数) 字节数(B)
pku-train 292,541 6,902,429 39M
pku-holdout 5,000 118,852 685K
pku-test 7,500 177,058 1017K
weibo-train 49,057 895,100 4.7M
weibo-holdout 3,000 59,940 318K
weibo-test 5,000 98,382 524K
pku-weibo-train 337,638 7,797,529 44M
pku-weibo-holdout 8,000 178,792 1002K
pku-weibo-test 12,500 275,440 1.6M