-
-
Notifications
You must be signed in to change notification settings - Fork 21
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
37e80b4
commit 152813d
Showing
9 changed files
with
483,071 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,83 @@ | ||
# Thai NER 0.4 | ||
|
||
ใช้ข้อมูล Train ทั้งหมด 5696 ประโยค โดย CRF + POS TAG ในการ train | ||
|
||
แท็กที่รองรับ | ||
|
||
- DATA วันเดือนปี | ||
- TIME เวลา/ช่วงเวลา | ||
- EMAIL อีเมล | ||
- LEN ความยาว | ||
- LOCATION สถานที่/ที่ตั้ง | ||
- ORGANIZATION บริษัท/องค์กร | ||
- PERSON ชื่อบุคคล | ||
- PHONE เบอร์มือถือ | ||
- URL ลิงค์ | ||
- ZIP รหัสไปรษณีย์ | ||
- MONEY เงิน | ||
|
||
|
||
|
||
f1 ที่ได้จากการแบ่ง test 20% | ||
|
||
``` | ||
0.8762022811097209 | ||
precision recall f1-score support | ||
B-DATE 0.919 0.871 0.894 326 | ||
I-DATE 0.957 0.954 0.955 670 | ||
B-EMAIL 1.000 1.000 1.000 3 | ||
I-EMAIL 1.000 1.000 1.000 18 | ||
B-LEN 0.920 0.852 0.885 27 | ||
I-LEN 0.929 0.867 0.897 60 | ||
B-LOCATION 0.884 0.784 0.831 825 | ||
I-LOCATION 0.860 0.686 0.763 910 | ||
B-MONEY 0.978 0.926 0.951 94 | ||
I-MONEY 0.970 0.918 0.943 245 | ||
B-ORGANIZATION 0.902 0.786 0.840 1018 | ||
I-ORGANIZATION 0.794 0.784 0.789 1271 | ||
B-PERCENT 1.000 1.000 1.000 44 | ||
I-PERCENT 1.000 1.000 1.000 64 | ||
B-PERSON 0.963 0.871 0.915 591 | ||
I-PERSON 0.934 0.924 0.929 2170 | ||
B-PHONE 1.000 0.750 0.857 24 | ||
I-PHONE 0.954 0.969 0.961 64 | ||
B-TIME 0.854 0.750 0.799 164 | ||
I-TIME 0.907 0.878 0.893 312 | ||
B-URL 1.000 0.958 0.979 24 | ||
I-URL 1.000 1.000 1.000 406 | ||
B-ZIP 1.000 1.000 1.000 6 | ||
micro avg 0.907 0.850 0.878 9336 | ||
macro avg 0.944 0.893 0.917 9336 | ||
weighted avg 0.906 0.850 0.876 9336 | ||
``` | ||
|
||
และนอกจากหา f1 เราได้ทำการ cross validate เพื่อยืนยันประสิทธิภาพอีก 5 ครั้ง | ||
|
||
``` | ||
{'fit_time': array([343.57482839, 376.14989018, 422.1069963 , 316.03775072, | ||
288.96899247]), 'score_time': array([0.7713604 , 0.81223083, 0.67048645, 0.80244899, 0.74230552]), 'test_score': array([0.89528493, 0.8781437 , 0.88171106, 0.88214538, 0.90732054]), 'train_score': array([0.98422042, 0.98401564, 0.98632953, 0.98526398, 0.98323662])} | ||
``` | ||
|
||
ไฟล์ | ||
|
||
- data.model เป็นไฟล์โมเดลที่เรา train ด้วยข้อมูลทั้งหมด | ||
- data-pos.model0 เป็นไฟล์โมเดลที่เรา train 80 % และแบ่ง val 20 % ตามรายละเอียดข้างบน | ||
- data.txt เป็นไฟล์ข้อมูลใช้ train | ||
- train2.py เป็นไฟล์สำหรับ train data-pos.model0 | ||
- train2_all.py เป็นไฟล์สำหรับ train ข้อมูลทั้งหมด | ||
- datatrain.data เป็นไฟล์ข้อมูลที่ได้จาก data.txt สำหรับนำไป train | ||
- using2.py เป็นไฟล์สำหรับรันทดสอบ NER | ||
|
||
|
||
|
||
พัฒนาโดย นาย วรรณพงษ์ ภัททิยไพบูลย์ | ||
|
||
นักศึกษาชั้นปีที่ 2 สาขาวิทยาการคอมพิวเตอร์และสารสนเทศ | ||
|
||
คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์ | ||
|
||
มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย | ||
|
||
<[email protected]> |
Oops, something went wrong.