[go: up one dir, main page]

Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
wainshine committed Oct 21, 2019
1 parent 6de30c8 commit 6d441f9
Showing 1 changed file with 14 additions and 0 deletions.
14 changes: 14 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -14,7 +14,9 @@
<strong>中文常见人名(Chinese_Names_Corpus)</strong>

数据大小:120万。

语料来源:从亿级人名语料中提取。

数据清洗:已清洗,但仍存有少量badcase。

新增性别标注。
Expand All @@ -24,23 +26,29 @@
<strong>中文古代人名(Ancient_Names_Corpus)</strong>

数据大小:25万。

语料来源:多个人名词典汇总。

数据清洗:已清洗。

---

<strong>中文姓氏(Chinese_Family_Name)</strong>

数据大小:1千。

语料来源:从亿级人名语料中提取。

数据清洗:已清洗。

---

<strong>中文称呼(Chinese_Relationship)</strong>

数据大小:5千,称呼词根;18万,中文称呼。

语料来源:多个人名词典汇总。

数据清洗:已清洗,但存有大量badcase。

---
Expand All @@ -49,7 +57,9 @@
<strong>翻译人名(English_Cn_Name_Corpus)</strong>

数据大小:48万。

语料来源:多个人名词典汇总。

数据清洗:已清洗,但仍存有少量badcase,以地名居多。

本语料的人名识别由网友 “[ltccss](https://github.com/ltccss)” 友情提供。
Expand All @@ -60,7 +70,9 @@
<strong>日文人名(Japanese_Names_Corpus)</strong>

数据大小:18万。

数据来源:从维基百科中提取。

数据清洗:已清洗,但仍存有少量badcase。

数据清洗过程详见:“[日本人名数据清洗分享](https://github.com/wainshine/Chinese-Names-Corpus/issues/4)”。
Expand All @@ -71,7 +83,9 @@
<strong>成语词典(ChengYu_Corpus)</strong>

数据大小:5万。

语料来源:多个成语词典汇总。

数据清洗:已清洗。

---
Expand Down

0 comments on commit 6d441f9

Please sign in to comment.