Skip to content

Commit

Permalink
ThaiNER 0.4
Browse files Browse the repository at this point in the history
  • Loading branch information
wannaphong committed Dec 5, 2018
1 parent 37e80b4 commit 152813d
Show file tree
Hide file tree
Showing 9 changed files with 483,071 additions and 0 deletions.
83 changes: 83 additions & 0 deletions model/0.4/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,83 @@
# Thai NER 0.4

ใช้ข้อมูล Train ทั้งหมด 5696 ประโยค โดย CRF + POS TAG ในการ train

แท็กที่รองรับ

- DATA วันเดือนปี
- TIME เวลา/ช่วงเวลา
- EMAIL อีเมล
- LEN ความยาว
- LOCATION สถานที่/ที่ตั้ง
- ORGANIZATION บริษัท/องค์กร
- PERSON ชื่อบุคคล
- PHONE เบอร์มือถือ
- URL ลิงค์
- ZIP รหัสไปรษณีย์
- MONEY เงิน



f1 ที่ได้จากการแบ่ง test 20%

```
0.8762022811097209
precision recall f1-score support
B-DATE 0.919 0.871 0.894 326
I-DATE 0.957 0.954 0.955 670
B-EMAIL 1.000 1.000 1.000 3
I-EMAIL 1.000 1.000 1.000 18
B-LEN 0.920 0.852 0.885 27
I-LEN 0.929 0.867 0.897 60
B-LOCATION 0.884 0.784 0.831 825
I-LOCATION 0.860 0.686 0.763 910
B-MONEY 0.978 0.926 0.951 94
I-MONEY 0.970 0.918 0.943 245
B-ORGANIZATION 0.902 0.786 0.840 1018
I-ORGANIZATION 0.794 0.784 0.789 1271
B-PERCENT 1.000 1.000 1.000 44
I-PERCENT 1.000 1.000 1.000 64
B-PERSON 0.963 0.871 0.915 591
I-PERSON 0.934 0.924 0.929 2170
B-PHONE 1.000 0.750 0.857 24
I-PHONE 0.954 0.969 0.961 64
B-TIME 0.854 0.750 0.799 164
I-TIME 0.907 0.878 0.893 312
B-URL 1.000 0.958 0.979 24
I-URL 1.000 1.000 1.000 406
B-ZIP 1.000 1.000 1.000 6
micro avg 0.907 0.850 0.878 9336
macro avg 0.944 0.893 0.917 9336
weighted avg 0.906 0.850 0.876 9336
```

และนอกจากหา f1 เราได้ทำการ cross validate เพื่อยืนยันประสิทธิภาพอีก 5 ครั้ง

```
{'fit_time': array([343.57482839, 376.14989018, 422.1069963 , 316.03775072,
288.96899247]), 'score_time': array([0.7713604 , 0.81223083, 0.67048645, 0.80244899, 0.74230552]), 'test_score': array([0.89528493, 0.8781437 , 0.88171106, 0.88214538, 0.90732054]), 'train_score': array([0.98422042, 0.98401564, 0.98632953, 0.98526398, 0.98323662])}
```

ไฟล์

- data.model เป็นไฟล์โมเดลที่เรา train ด้วยข้อมูลทั้งหมด
- data-pos.model0 เป็นไฟล์โมเดลที่เรา train 80 % และแบ่ง val 20 % ตามรายละเอียดข้างบน
- data.txt เป็นไฟล์ข้อมูลใช้ train
- train2.py เป็นไฟล์สำหรับ train data-pos.model0
- train2_all.py เป็นไฟล์สำหรับ train ข้อมูลทั้งหมด
- datatrain.data เป็นไฟล์ข้อมูลที่ได้จาก data.txt สำหรับนำไป train
- using2.py เป็นไฟล์สำหรับรันทดสอบ NER



พัฒนาโดย นาย วรรณพงษ์ ภัททิยไพบูลย์

นักศึกษาชั้นปีที่ 2 สาขาวิทยาการคอมพิวเตอร์และสารสนเทศ

คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์

มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย

<[email protected]>
Loading

0 comments on commit 152813d

Please sign in to comment.