-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
20fdd16
commit ebfe161
Showing
82 changed files
with
11,297 additions
and
11,243 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1 +1,41 @@ | ||
# RuSERRC dataset | ||
# Nested entities and Entity linking | ||
|
||
We annotated [RuSERRC](/russerc_el/data/) with 2 more kinds of information: | ||
|
||
## 1. Nested entities | ||
|
||
There is information about nested entities for the terms at different levels. | ||
We used BIO tagging as well. | ||
|
||
Here an example of nested entities: | ||
|
||
| token | tag | nested_1 | nested_2 | | ||
|--------------------|-------|----------|----------| | ||
| автоматизированное | B-TAG | | | | ||
| извлечение | I-TAG | B-TAG | | | ||
| речевых | I-TAG | I-TAG | B-TAG | | ||
| действий | I-TAG | I-TAG | I-TAG | | ||
|
||
## 2. Entity linking | ||
|
||
We linked the terms with the entities from [Wikidata](https://www.wikidata.org/). | ||
|
||
In column "wiki_id" you can find an id to the Wikidata entity and ids of the term (including nested ones) | ||
which is linked. | ||
|
||
For example, | ||
|
||
| id | token | tag | nested_1 | nested_2 | wiki_id | | ||
|----|--------------------|-------|----------|----------|---------------| | ||
| 0 | автоматизированное | B-TAG | | | | | ||
| 1 | извлечение | I-TAG | B-TAG | | | | ||
| 2 | речевых | I-TAG | I-TAG | B-TAG | Q25481968:2,3 | | ||
| 3 | действий | I-TAG | I-TAG | I-TAG | | | ||
|
||
means that the tokens with ids 2 and 3 ("_речевых действий_") are linked with an entity | ||
[Q25481968](https://www.wikidata.org/wiki/Q25481968). | ||
|
||
Also we extracted information about entities from Wikidata (version from 27.01.2021) such as name, | ||
description and aliases in Russian (removing claims and sitelinks) and made it publicly available. | ||
You can download it from | ||
[here](https://drive.google.com/file/d/1KOJY92ektuAnmnXvDA9VJCnh9NeFplHQ/view?usp=sharing). |
172 changes: 86 additions & 86 deletions
172
russerc_el/2018-16-1-1.csv → russerc_el/data/2018-16-1-1.csv
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,86 +1,86 @@ | ||
id,token,tag,nested_1,nested_2,wiki_id | ||
0,Математическое,O,,, | ||
1,обоснование,O,,, | ||
2,нового,O,,, | ||
3,электромагнитного,B-TERM,,, | ||
4,зонда,I-TERM,,, | ||
5,с,O,,, | ||
6,тороидальными,B-TERM,,, | ||
7,катушками,I-TERM,,, | ||
8,для,O,,, | ||
9,высокоразрешающего,B-TERM,,, | ||
10,каротажа,I-TERM,B-TERM,B-TERM,Q2383566:10 | ||
11,нефтегазовых,I-TERM,I-TERM,, | ||
12,скважин,I-TERM,I-TERM,, | ||
13,Представленная,O,,, | ||
14,работа,O,,, | ||
15,посвящена,O,,, | ||
16,обоснованию,O,,, | ||
17,нового,O,,, | ||
18,электромагнитного,B-TERM,,, | ||
19,зонда,I-TERM,,, | ||
20,для,O,,, | ||
21,каротажа,B-TERM,B-TERM,,Q2383566:21 | ||
22,нефтегазовых,I-TERM,,, | ||
23,скважин,I-TERM,,, | ||
24,на,O,,, | ||
25,основе,O,,, | ||
26,компьютерного,B-TERM,,,"Q925667:26,27" | ||
27,моделирования,I-TERM,,, | ||
28,.,O,,, | ||
29,Получено,O,,, | ||
30,решение,O,,, | ||
31,прямой,B-TERM,,,Q26922245:32 | ||
32,задачи,I-TERM,,, | ||
33,электромагнитного,B-TERM,,, | ||
34,каротажа,I-TERM,,, | ||
35,для,O,,, | ||
36,тороидального,B-TERM,,, | ||
37,источника,I-TERM,B-TERM,,Q31464082:37 | ||
38,в,O,,, | ||
39,цилиндрически,B-TERM,,, | ||
40,-,I-TERM,,, | ||
41,слоистой,I-TERM,,, | ||
42,геоэлектрической,I-TERM,,, | ||
43,модели,I-TERM,,, | ||
44,.,O,,, | ||
45,Разработаны,O,,, | ||
46,комплексы,O,,, | ||
47,алгоритмов,B-TERM,,,Q31464082:47 | ||
48,и,O,,, | ||
49,компьютерных,B-TERM,,, | ||
50,программ,I-TERM,,, | ||
51,для,O,,, | ||
52,анализа,B-TERM,B-TERM,,"Q208163:52,53" | ||
53,сигналов,I-TERM,I-TERM,, | ||
54,электромагнитного,I-TERM,B-TERM,, | ||
55,зонда,I-TERM,I-TERM,, | ||
56,с,O,,, | ||
57,тороидальными,B-TERM,,, | ||
58,катушками,I-TERM,,, | ||
59,в,O,,, | ||
60,пространственно,B-TERM,,, | ||
61,неоднородных,I-TERM,,, | ||
62,анизотропных,I-TERM,,, | ||
63,средах,I-TERM,,, | ||
64,.,O,,, | ||
65,Путем,O,,, | ||
66,масштабного,O,,, | ||
67,компьютерного,B-TERM,,,"Q925667:67,68" | ||
68,моделирования,I-TERM,,, | ||
69,выполнено,O,,, | ||
70,обоснование,O,,, | ||
71,оптимальной,B-TERM,B-TERM,, | ||
72,конфигурации,I-TERM,I-TERM,, | ||
73,зондовой,I-TERM,B-TERM,, | ||
74,системы,I-TERM,I-TERM,, | ||
75,и,O,,, | ||
76,исследованы,O,,, | ||
77,ее,O,,, | ||
78,возможности,O,,, | ||
79,изучения,O,,, | ||
80,макроанизотропных,B-TERM,,, | ||
81,свойств,I-TERM,,, | ||
82,геологических,I-TERM,B-TERM,,"Q3936418:82, 83" | ||
83,сред,I-TERM,I-TERM,, | ||
84,.,O,,, | ||
id,token,tag,nested_1,nested_2,wiki_id | ||
0,Математическое,O,,, | ||
1,обоснование,O,,, | ||
2,нового,O,,, | ||
3,электромагнитного,B-TERM,,, | ||
4,зонда,I-TERM,,, | ||
5,с,O,,, | ||
6,тороидальными,B-TERM,,, | ||
7,катушками,I-TERM,,, | ||
8,для,O,,, | ||
9,высокоразрешающего,B-TERM,,, | ||
10,каротажа,I-TERM,B-TERM,B-TERM,Q2383566:10 | ||
11,нефтегазовых,I-TERM,I-TERM,, | ||
12,скважин,I-TERM,I-TERM,, | ||
13,Представленная,O,,, | ||
14,работа,O,,, | ||
15,посвящена,O,,, | ||
16,обоснованию,O,,, | ||
17,нового,O,,, | ||
18,электромагнитного,B-TERM,,, | ||
19,зонда,I-TERM,,, | ||
20,для,O,,, | ||
21,каротажа,B-TERM,B-TERM,,Q2383566:21 | ||
22,нефтегазовых,I-TERM,,, | ||
23,скважин,I-TERM,,, | ||
24,на,O,,, | ||
25,основе,O,,, | ||
26,компьютерного,B-TERM,,,"Q925667:26,27" | ||
27,моделирования,I-TERM,,, | ||
28,.,O,,, | ||
29,Получено,O,,, | ||
30,решение,O,,, | ||
31,прямой,B-TERM,,,Q26922245:32 | ||
32,задачи,I-TERM,,, | ||
33,электромагнитного,B-TERM,,, | ||
34,каротажа,I-TERM,,, | ||
35,для,O,,, | ||
36,тороидального,B-TERM,,, | ||
37,источника,I-TERM,B-TERM,,Q31464082:37 | ||
38,в,O,,, | ||
39,цилиндрически,B-TERM,,, | ||
40,-,I-TERM,,, | ||
41,слоистой,I-TERM,,, | ||
42,геоэлектрической,I-TERM,,, | ||
43,модели,I-TERM,,, | ||
44,.,O,,, | ||
45,Разработаны,O,,, | ||
46,комплексы,O,,, | ||
47,алгоритмов,B-TERM,,,Q31464082:47 | ||
48,и,O,,, | ||
49,компьютерных,B-TERM,,, | ||
50,программ,I-TERM,,, | ||
51,для,O,,, | ||
52,анализа,B-TERM,B-TERM,,"Q208163:52,53" | ||
53,сигналов,I-TERM,I-TERM,, | ||
54,электромагнитного,I-TERM,B-TERM,, | ||
55,зонда,I-TERM,I-TERM,, | ||
56,с,O,,, | ||
57,тороидальными,B-TERM,,, | ||
58,катушками,I-TERM,,, | ||
59,в,O,,, | ||
60,пространственно,B-TERM,,, | ||
61,неоднородных,I-TERM,,, | ||
62,анизотропных,I-TERM,,, | ||
63,средах,I-TERM,,, | ||
64,.,O,,, | ||
65,Путем,O,,, | ||
66,масштабного,O,,, | ||
67,компьютерного,B-TERM,,,"Q925667:67,68" | ||
68,моделирования,I-TERM,,, | ||
69,выполнено,O,,, | ||
70,обоснование,O,,, | ||
71,оптимальной,B-TERM,B-TERM,, | ||
72,конфигурации,I-TERM,I-TERM,, | ||
73,зондовой,I-TERM,B-TERM,, | ||
74,системы,I-TERM,I-TERM,, | ||
75,и,O,,, | ||
76,исследованы,O,,, | ||
77,ее,O,,, | ||
78,возможности,O,,, | ||
79,изучения,O,,, | ||
80,макроанизотропных,B-TERM,,, | ||
81,свойств,I-TERM,,, | ||
82,геологических,I-TERM,B-TERM,,"Q3936418:82, 83" | ||
83,сред,I-TERM,I-TERM,, | ||
84,.,O,,, |
134 changes: 67 additions & 67 deletions
134
russerc_el/2018-16-1-10.csv → russerc_el/data/2018-16-1-10.csv
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,67 +1,67 @@ | ||
id,token,tag,nested_1,wiki_id | ||
0,Анализ,B-TERM,, | ||
1,управления,I-TERM,, | ||
2,региональной,I-TERM,, | ||
3,защитой,I-TERM,, | ||
4,в,O,, | ||
5,чрезвычайных,B-TERM,,"Q5070802:5,6" | ||
6,ситуациях,I-TERM,, | ||
7,Исследуются,O,, | ||
8,процессы,B-TERM,, | ||
9,развития,I-TERM,, | ||
10,чрезвычайных,I-TERM,B-TERM,"Q5070802:10,11" | ||
11,ситуаций,I-TERM,I-TERM, | ||
12,(,O,, | ||
13,ЧС,B-TERM,,Q5070802:13 | ||
14,),O,, | ||
15,и,O,, | ||
16,формулируются,O,, | ||
17,задачи,O,, | ||
18,управления,O,, | ||
19,защитными,B-TERM,, | ||
20,мероприятиями,I-TERM,, | ||
21,.,O,, | ||
22,Уточняются,O,, | ||
23,исходные,B-TERM,, | ||
24,понятия,I-TERM,, | ||
25,",",O,, | ||
26,и,O,, | ||
27,разрабатывается,O,, | ||
28,общая,O,, | ||
29,классификация,B-TERM,, | ||
30,ЧС,I-TERM,B-TERM,Q5070802:30 | ||
31,.,O,, | ||
32,Выделяются,O,, | ||
33,существенные,O,, | ||
34,",",O,, | ||
35,определяющие,O,, | ||
36,процессы,O,, | ||
37,проявления,O,, | ||
38,поражающих,B-TERM,, | ||
39,воздействий,I-TERM,, | ||
40,и,O,, | ||
41,выполнения,O,, | ||
42,защитных,B-TERM,, | ||
43,мероприятий,I-TERM,, | ||
44,.,O,, | ||
45,Для,O,, | ||
46,структуризации,O,, | ||
47,этих,O,, | ||
48,факторов,O,, | ||
49,и,O,, | ||
50,формулировки,O,, | ||
51,задач,O,, | ||
52,управления,O,, | ||
53,предлагается,O,, | ||
54,система,B-TERM,, | ||
55,показателей,I-TERM,, | ||
56,защиты,I-TERM,, | ||
57,",",O,, | ||
58,которые,O,, | ||
59,допускают,O,, | ||
60,оперативное,O,, | ||
61,измерение,O,, | ||
62,в,O,, | ||
63,реальных,O,, | ||
64,условиях,O,, | ||
65,.,O,, | ||
id,token,tag,nested_1,wiki_id | ||
0,Анализ,B-TERM,, | ||
1,управления,I-TERM,, | ||
2,региональной,I-TERM,, | ||
3,защитой,I-TERM,, | ||
4,в,O,, | ||
5,чрезвычайных,B-TERM,,"Q5070802:5,6" | ||
6,ситуациях,I-TERM,, | ||
7,Исследуются,O,, | ||
8,процессы,B-TERM,, | ||
9,развития,I-TERM,, | ||
10,чрезвычайных,I-TERM,B-TERM,"Q5070802:10,11" | ||
11,ситуаций,I-TERM,I-TERM, | ||
12,(,O,, | ||
13,ЧС,B-TERM,,Q5070802:13 | ||
14,),O,, | ||
15,и,O,, | ||
16,формулируются,O,, | ||
17,задачи,O,, | ||
18,управления,O,, | ||
19,защитными,B-TERM,, | ||
20,мероприятиями,I-TERM,, | ||
21,.,O,, | ||
22,Уточняются,O,, | ||
23,исходные,B-TERM,, | ||
24,понятия,I-TERM,, | ||
25,",",O,, | ||
26,и,O,, | ||
27,разрабатывается,O,, | ||
28,общая,O,, | ||
29,классификация,B-TERM,, | ||
30,ЧС,I-TERM,B-TERM,Q5070802:30 | ||
31,.,O,, | ||
32,Выделяются,O,, | ||
33,существенные,O,, | ||
34,",",O,, | ||
35,определяющие,O,, | ||
36,процессы,O,, | ||
37,проявления,O,, | ||
38,поражающих,B-TERM,, | ||
39,воздействий,I-TERM,, | ||
40,и,O,, | ||
41,выполнения,O,, | ||
42,защитных,B-TERM,, | ||
43,мероприятий,I-TERM,, | ||
44,.,O,, | ||
45,Для,O,, | ||
46,структуризации,O,, | ||
47,этих,O,, | ||
48,факторов,O,, | ||
49,и,O,, | ||
50,формулировки,O,, | ||
51,задач,O,, | ||
52,управления,O,, | ||
53,предлагается,O,, | ||
54,система,B-TERM,, | ||
55,показателей,I-TERM,, | ||
56,защиты,I-TERM,, | ||
57,",",O,, | ||
58,которые,O,, | ||
59,допускают,O,, | ||
60,оперативное,O,, | ||
61,измерение,O,, | ||
62,в,O,, | ||
63,реальных,O,, | ||
64,условиях,O,, | ||
65,.,O,, |
Oops, something went wrong.