Skip to content

Commit

Permalink
Updated README
Browse files Browse the repository at this point in the history
  • Loading branch information
BruchesLena committed Mar 4, 2021
1 parent 20fdd16 commit ebfe161
Show file tree
Hide file tree
Showing 82 changed files with 11,297 additions and 11,243 deletions.
14 changes: 14 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,10 @@ Contains abstracts of 1,680 scientific papers on information technology in Russi
* 1,600 unlabeled
* 80 manually labeled.

## Entity recognition
Entity annotation was performed in BIO format. Entities are terms represented by nouns or noun phrases.

## Relation Classification
The following types were used to annotate semantic relations:
* `CAUSE`
* `COMPARE`
Expand All @@ -14,7 +17,18 @@ The following types were used to annotate semantic relations:
* `TOOL`
* `USAGE`

## Nested entities

See details [here](/russerc_el/).

## Entity linking

See details [here](/russerc_el/).

## Citing

If you use RuSERRC in your research, please cite:

**Bruches E., Pauls A., Batura T., Isachenko V.** Entity Recognition and Relation Extraction
from Scientific and Technical Texts in Russian. _Proceedings of the Science and Artificial
Intelligence Conference, S.A.I.ence 2020_. 2020. p. 41-45.
42 changes: 41 additions & 1 deletion russerc_el/README.md
Original file line number Diff line number Diff line change
@@ -1 +1,41 @@
# RuSERRC dataset
# Nested entities and Entity linking

We annotated [RuSERRC](/russerc_el/data/) with 2 more kinds of information:

## 1. Nested entities

There is information about nested entities for the terms at different levels.
We used BIO tagging as well.

Here an example of nested entities:

| token | tag | nested_1 | nested_2 |
|--------------------|-------|----------|----------|
| автоматизированное | B-TAG | | |
| извлечение | I-TAG | B-TAG | |
| речевых | I-TAG | I-TAG | B-TAG |
| действий | I-TAG | I-TAG | I-TAG |

## 2. Entity linking

We linked the terms with the entities from [Wikidata](https://www.wikidata.org/).

In column "wiki_id" you can find an id to the Wikidata entity and ids of the term (including nested ones)
which is linked.

For example,

| id | token | tag | nested_1 | nested_2 | wiki_id |
|----|--------------------|-------|----------|----------|---------------|
| 0 | автоматизированное | B-TAG | | | |
| 1 | извлечение | I-TAG | B-TAG | | |
| 2 | речевых | I-TAG | I-TAG | B-TAG | Q25481968:2,3 |
| 3 | действий | I-TAG | I-TAG | I-TAG | |

means that the tokens with ids 2 and 3 ("_речевых действий_") are linked with an entity
[Q25481968](https://www.wikidata.org/wiki/Q25481968).

Also we extracted information about entities from Wikidata (version from 27.01.2021) such as name,
description and aliases in Russian (removing claims and sitelinks) and made it publicly available.
You can download it from
[here](https://drive.google.com/file/d/1KOJY92ektuAnmnXvDA9VJCnh9NeFplHQ/view?usp=sharing).
172 changes: 86 additions & 86 deletions russerc_el/2018-16-1-1.csv → russerc_el/data/2018-16-1-1.csv
Original file line number Diff line number Diff line change
@@ -1,86 +1,86 @@
id,token,tag,nested_1,nested_2,wiki_id
0,Математическое,O,,,
1,обоснование,O,,,
2,нового,O,,,
3,электромагнитного,B-TERM,,,
4,зонда,I-TERM,,,
5,с,O,,,
6,тороидальными,B-TERM,,,
7,катушками,I-TERM,,,
8,для,O,,,
9,высокоразрешающего,B-TERM,,,
10,каротажа,I-TERM,B-TERM,B-TERM,Q2383566:10
11,нефтегазовых,I-TERM,I-TERM,,
12,скважин,I-TERM,I-TERM,,
13,Представленная,O,,,
14,работа,O,,,
15,посвящена,O,,,
16,обоснованию,O,,,
17,нового,O,,,
18,электромагнитного,B-TERM,,,
19,зонда,I-TERM,,,
20,для,O,,,
21,каротажа,B-TERM,B-TERM,,Q2383566:21
22,нефтегазовых,I-TERM,,,
23,скважин,I-TERM,,,
24,на,O,,,
25,основе,O,,,
26,компьютерного,B-TERM,,,"Q925667:26,27"
27,моделирования,I-TERM,,,
28,.,O,,,
29,Получено,O,,,
30,решение,O,,,
31,прямой,B-TERM,,,Q26922245:32
32,задачи,I-TERM,,,
33,электромагнитного,B-TERM,,,
34,каротажа,I-TERM,,,
35,для,O,,,
36,тороидального,B-TERM,,,
37,источника,I-TERM,B-TERM,,Q31464082:37
38,в,O,,,
39,цилиндрически,B-TERM,,,
40,-,I-TERM,,,
41,слоистой,I-TERM,,,
42,геоэлектрической,I-TERM,,,
43,модели,I-TERM,,,
44,.,O,,,
45,Разработаны,O,,,
46,комплексы,O,,,
47,алгоритмов,B-TERM,,,Q31464082:47
48,и,O,,,
49,компьютерных,B-TERM,,,
50,программ,I-TERM,,,
51,для,O,,,
52,анализа,B-TERM,B-TERM,,"Q208163:52,53"
53,сигналов,I-TERM,I-TERM,,
54,электромагнитного,I-TERM,B-TERM,,
55,зонда,I-TERM,I-TERM,,
56,с,O,,,
57,тороидальными,B-TERM,,,
58,катушками,I-TERM,,,
59,в,O,,,
60,пространственно,B-TERM,,,
61,неоднородных,I-TERM,,,
62,анизотропных,I-TERM,,,
63,средах,I-TERM,,,
64,.,O,,,
65,Путем,O,,,
66,масштабного,O,,,
67,компьютерного,B-TERM,,,"Q925667:67,68"
68,моделирования,I-TERM,,,
69,выполнено,O,,,
70,обоснование,O,,,
71,оптимальной,B-TERM,B-TERM,,
72,конфигурации,I-TERM,I-TERM,,
73,зондовой,I-TERM,B-TERM,,
74,системы,I-TERM,I-TERM,,
75,и,O,,,
76,исследованы,O,,,
77,ее,O,,,
78,возможности,O,,,
79,изучения,O,,,
80,макроанизотропных,B-TERM,,,
81,свойств,I-TERM,,,
82,геологических,I-TERM,B-TERM,,"Q3936418:82, 83"
83,сред,I-TERM,I-TERM,,
84,.,O,,,
id,token,tag,nested_1,nested_2,wiki_id
0,Математическое,O,,,
1,обоснование,O,,,
2,нового,O,,,
3,электромагнитного,B-TERM,,,
4,зонда,I-TERM,,,
5,с,O,,,
6,тороидальными,B-TERM,,,
7,катушками,I-TERM,,,
8,для,O,,,
9,высокоразрешающего,B-TERM,,,
10,каротажа,I-TERM,B-TERM,B-TERM,Q2383566:10
11,нефтегазовых,I-TERM,I-TERM,,
12,скважин,I-TERM,I-TERM,,
13,Представленная,O,,,
14,работа,O,,,
15,посвящена,O,,,
16,обоснованию,O,,,
17,нового,O,,,
18,электромагнитного,B-TERM,,,
19,зонда,I-TERM,,,
20,для,O,,,
21,каротажа,B-TERM,B-TERM,,Q2383566:21
22,нефтегазовых,I-TERM,,,
23,скважин,I-TERM,,,
24,на,O,,,
25,основе,O,,,
26,компьютерного,B-TERM,,,"Q925667:26,27"
27,моделирования,I-TERM,,,
28,.,O,,,
29,Получено,O,,,
30,решение,O,,,
31,прямой,B-TERM,,,Q26922245:32
32,задачи,I-TERM,,,
33,электромагнитного,B-TERM,,,
34,каротажа,I-TERM,,,
35,для,O,,,
36,тороидального,B-TERM,,,
37,источника,I-TERM,B-TERM,,Q31464082:37
38,в,O,,,
39,цилиндрически,B-TERM,,,
40,-,I-TERM,,,
41,слоистой,I-TERM,,,
42,геоэлектрической,I-TERM,,,
43,модели,I-TERM,,,
44,.,O,,,
45,Разработаны,O,,,
46,комплексы,O,,,
47,алгоритмов,B-TERM,,,Q31464082:47
48,и,O,,,
49,компьютерных,B-TERM,,,
50,программ,I-TERM,,,
51,для,O,,,
52,анализа,B-TERM,B-TERM,,"Q208163:52,53"
53,сигналов,I-TERM,I-TERM,,
54,электромагнитного,I-TERM,B-TERM,,
55,зонда,I-TERM,I-TERM,,
56,с,O,,,
57,тороидальными,B-TERM,,,
58,катушками,I-TERM,,,
59,в,O,,,
60,пространственно,B-TERM,,,
61,неоднородных,I-TERM,,,
62,анизотропных,I-TERM,,,
63,средах,I-TERM,,,
64,.,O,,,
65,Путем,O,,,
66,масштабного,O,,,
67,компьютерного,B-TERM,,,"Q925667:67,68"
68,моделирования,I-TERM,,,
69,выполнено,O,,,
70,обоснование,O,,,
71,оптимальной,B-TERM,B-TERM,,
72,конфигурации,I-TERM,I-TERM,,
73,зондовой,I-TERM,B-TERM,,
74,системы,I-TERM,I-TERM,,
75,и,O,,,
76,исследованы,O,,,
77,ее,O,,,
78,возможности,O,,,
79,изучения,O,,,
80,макроанизотропных,B-TERM,,,
81,свойств,I-TERM,,,
82,геологических,I-TERM,B-TERM,,"Q3936418:82, 83"
83,сред,I-TERM,I-TERM,,
84,.,O,,,
134 changes: 67 additions & 67 deletions russerc_el/2018-16-1-10.csv → russerc_el/data/2018-16-1-10.csv
Original file line number Diff line number Diff line change
@@ -1,67 +1,67 @@
id,token,tag,nested_1,wiki_id
0,Анализ,B-TERM,,
1,управления,I-TERM,,
2,региональной,I-TERM,,
3,защитой,I-TERM,,
4,в,O,,
5,чрезвычайных,B-TERM,,"Q5070802:5,6"
6,ситуациях,I-TERM,,
7,Исследуются,O,,
8,процессы,B-TERM,,
9,развития,I-TERM,,
10,чрезвычайных,I-TERM,B-TERM,"Q5070802:10,11"
11,ситуаций,I-TERM,I-TERM,
12,(,O,,
13,ЧС,B-TERM,,Q5070802:13
14,),O,,
15,и,O,,
16,формулируются,O,,
17,задачи,O,,
18,управления,O,,
19,защитными,B-TERM,,
20,мероприятиями,I-TERM,,
21,.,O,,
22,Уточняются,O,,
23,исходные,B-TERM,,
24,понятия,I-TERM,,
25,",",O,,
26,и,O,,
27,разрабатывается,O,,
28,общая,O,,
29,классификация,B-TERM,,
30,ЧС,I-TERM,B-TERM,Q5070802:30
31,.,O,,
32,Выделяются,O,,
33,существенные,O,,
34,",",O,,
35,определяющие,O,,
36,процессы,O,,
37,проявления,O,,
38,поражающих,B-TERM,,
39,воздействий,I-TERM,,
40,и,O,,
41,выполнения,O,,
42,защитных,B-TERM,,
43,мероприятий,I-TERM,,
44,.,O,,
45,Для,O,,
46,структуризации,O,,
47,этих,O,,
48,факторов,O,,
49,и,O,,
50,формулировки,O,,
51,задач,O,,
52,управления,O,,
53,предлагается,O,,
54,система,B-TERM,,
55,показателей,I-TERM,,
56,защиты,I-TERM,,
57,",",O,,
58,которые,O,,
59,допускают,O,,
60,оперативное,O,,
61,измерение,O,,
62,в,O,,
63,реальных,O,,
64,условиях,O,,
65,.,O,,
id,token,tag,nested_1,wiki_id
0,Анализ,B-TERM,,
1,управления,I-TERM,,
2,региональной,I-TERM,,
3,защитой,I-TERM,,
4,в,O,,
5,чрезвычайных,B-TERM,,"Q5070802:5,6"
6,ситуациях,I-TERM,,
7,Исследуются,O,,
8,процессы,B-TERM,,
9,развития,I-TERM,,
10,чрезвычайных,I-TERM,B-TERM,"Q5070802:10,11"
11,ситуаций,I-TERM,I-TERM,
12,(,O,,
13,ЧС,B-TERM,,Q5070802:13
14,),O,,
15,и,O,,
16,формулируются,O,,
17,задачи,O,,
18,управления,O,,
19,защитными,B-TERM,,
20,мероприятиями,I-TERM,,
21,.,O,,
22,Уточняются,O,,
23,исходные,B-TERM,,
24,понятия,I-TERM,,
25,",",O,,
26,и,O,,
27,разрабатывается,O,,
28,общая,O,,
29,классификация,B-TERM,,
30,ЧС,I-TERM,B-TERM,Q5070802:30
31,.,O,,
32,Выделяются,O,,
33,существенные,O,,
34,",",O,,
35,определяющие,O,,
36,процессы,O,,
37,проявления,O,,
38,поражающих,B-TERM,,
39,воздействий,I-TERM,,
40,и,O,,
41,выполнения,O,,
42,защитных,B-TERM,,
43,мероприятий,I-TERM,,
44,.,O,,
45,Для,O,,
46,структуризации,O,,
47,этих,O,,
48,факторов,O,,
49,и,O,,
50,формулировки,O,,
51,задач,O,,
52,управления,O,,
53,предлагается,O,,
54,система,B-TERM,,
55,показателей,I-TERM,,
56,защиты,I-TERM,,
57,",",O,,
58,которые,O,,
59,допускают,O,,
60,оперативное,O,,
61,измерение,O,,
62,в,O,,
63,реальных,O,,
64,условиях,O,,
65,.,O,,
Loading

0 comments on commit ebfe161

Please sign in to comment.