Orosz–magyar párhuzamos korpusz

Orosz–magyar párhuzamos korpusz

Alapvető információk a korpuszról

Orosz–magyar párhuzamos szövegeket teszünk elérhetővé.

A szövegek feldolgozása során egyértelműen kiderült, hogy csak a bekezdéseket figyelembe vevő szinteken érhető el megfeleltetés. Teljesen természetes, hogy a fordítók gyakran nem tartják be a mondathatárokat, emiatt igen nehéz lett volna a mondatonkénti megfeleltetését vállalni.

Az orosz nyelvű szövegek forrása a legtöbbször a Makszim Moskov Könyvtár (Библиотека Максима Мошкова, lib.ru), a magyaroké a Magyar Elektronikus Könyvtár (mek.oszk.hu). Igyekeztünk megtartani a szövegek forráshelyek szerinti eredeti formáját. Ezeken csak akkor változtattunk, amikor az eredeti és a fordított anyagban másképp nem tudtuk elérni a bekezdések megfeleltetését. Ilyen esetekben inkább bontottuk, és nem összevontuk a bekezdéseket. Azokat a bekezdéseket, amelyeknek nincsenek más nyelvű megfelelőik (annak a sornak például, hogy ki a fordító, nyilván nincsen párja az eredeti szövegben), # jellel jelöljük.

A bekezdések egymással való megfelelésének ellenőrzése abból a feltevésből indul ki, hogy a párhuzamosnak feltételezett bekezdések karakterekben kifejezett hosszúsága bizonyos határokon belül arányos. Amennyiben az egyik bekezdés hossza jelentősen eltér a feltételezett párhuzamáétól, akkor ezeket a bekezdéseket ellenőrizzük, és szükség esetén hozzányúlunk ezek szerkezetéhez (részekre daraboljuk az adott bekezdést). Az ellenőrizendő eltérés mértékét tapasztalati úton, hosszabb vizsgálatot követően állapítottuk meg.

Ha a az egyik nyelvben megírt bekezdés karakterszámban kifejezett hosszúsága, b pedig a másik nyelvben megírt bekezdés karakterszámban kifejezett hosszúsága, akkor azokat a párhuzamos bekezdéseket nem ellenőrizzük (feltételezük róluk, hogy helyesek), amelyek megfelelnek a következő szabálynak:

ha |a-b| <=   20;
ha  a+b  <=   80 és a/b < 2.20 és b/a < 2.20;
ha  a+b  <=  150 és a/b < 2.00 és b/a < 2.00;
ha  a+b  <=  300 és a/b < 1.80 és b/a < 1.80;
ha  a+b  <=  500 és a/b < 1.67 és b/a < 1.67;
ha  a+b  <=  700 és a/b < 1.56 és b/a < 1.56;
ha  a+b  <=  900 és a/b < 1.45 és b/a < 1.45;
ha  a+b  <= 1200 és a/b < 1.42 és b/a < 1.42;
ha  a+b  <= 1500 és a/b < 1.40 és b/a < 1.40;
ha  a+b  <= 1900 és a/b < 1.37 és b/a < 1.37;
ha  a+b  <= 2400 és a/b < 1.34 és b/a < 1.34;
ha  a+b  <= 3000 és a/b < 1.32 és b/a < 1.32;
és
ha  a/b  <   1.3 és b/a < 1.30.

Az algoritmus ekként mutatható be ábrán:

orosz-magyar korpusz diagram

 

Természetesen találhatók olyan bekezdések a korpuszban, amelyek ugyan helyesek, de nem felelnek meg ennek az elképzelésnek. Az okok különbözőek lehetnek – figyelmetlenség, cenzúra, nyelvi sajátosságok stb. Ld. pl.:

– Был грех. – Igen, ez már az én lelkemen szárad.
Считаю вас одним из выдающихся знатоков своего дела. Я не знаю, впрочем, как обстоит дело в Риме, но в колониях равного вам нет. Объясните, почему? – Indokolja meg ezt a feltevést.
Жиды сюда не касаются. Между прочим, за Ленина не скажу, но Троцкий есть отчаянный сын тамбовского губернатора и вступился, хотя другого звания, за трудящийся класс. Как присужденные каторжане вытягают они нас – Ленин и Троцкий – на вольную дорогу жизни, а вы, гнусная гражданка, есть более контрреволюционерка, чем тот белый генерал, который с вострой шашкой грозится нам на своем тысячном коне… Semmi köze ennek a zsidókhoz, de maga alattomos perszóna, maga nagyobb ellenforradalmár annál a fehérgenerálisnál is, aki éles karddal fenyeget bennünket a magas ló hátáról.

A legnehezebb az Egri csillagok párhuzamosítása volt, ugyanis az orosz fordító a MEK-ben elérhető változattól több helyen eltérő magyar szöveggel dolgozott. Néhány szövegben előfordult, hogy a fordításból kimaradt egy-egy forrásnyelvi bekezdés, Gárdonyi művénél azonban az volt meglepő, hogy az orosz szöveg sok helyen bővebb volt a magyarnál.

– Én tudom. Én már kiszolgáltam egy rabságot. – Я-то знаю, – я уже однажды помучился в рабстве. Десять лет жизни у меня пропало.
Konstantinápolyban? – kérdezték egyszerre hárman is. И что же, вас домой отпустили?
– Ott – felelte a paraszt, mélyen belemártva a kanalát a vaskondérba –, tíz esztendeig söpörtem én a török földet. – И что же, вас домой отпустили?
– És hogyan szabadult meg? – Так как же вы освободились?

A jelenleg elérhető szövegek közel 34.500 bekezdésből, illetve nyelvenként több mint 1.100.000 szóból állnak.

A munkák többségét a pécsi orosz szakos MA hallgatók végezték a felügyeletem alatt.

Dombóvári Márton (Kutyaszív);
Gyurcsik Andrea (Az örök férj; A félkegyelmű);
Nagy Orsolya (Lovashadsereg);
Palkó Ágnes (Albert; Háború és béke I. kötet; Hadzsi Murat);
Rusznák Karolina (Gorkij összes);
Szekeres Gábor (A Mester és Margarita);
Vitéz Eszter (Anna Karenyina).

További művek párhuzamosítását is tervezzük.

Ha valaki szeretne a munkában részt venni, jelentkezzen nálam. Amennyiben valakinek fontos lenne egy szöveg párhuzamosítása, szintén jelezheti.

A párhuzamos szövegek elsősorban a nyelvészeti kutatások terén biztosítanak gazdag lehetőségeket (lexika, frazeológia stb.).

Мы с женой как белые волки, нас все знают, – отвечал Корсунский. Én meg a feleségem olyanok vagyunk, akár a rossz pénz: mindenki ismer bennünket.
Идти с фальшивым билетом – куда же? – в банкирскую контору, где на этом собаку съели, – нет, я бы сконфузился. Beállítani a hamis bankóval, egyenesen oda, az oroszlánbarlangba! Én bizony elvesztettem volna a fejem.

A szövegeket úgy szerkesztettük, hogy ezeket (illetve ezek részeit) párhuzamosan ki is lehessen nyomtatni. Reméljük, lesz olyan hallgató, kutató kolléga, aki hasznát veszi ezeknek.

Robert Wołosz

Olvasható fájlok (html):

orosz–magyar

Бабель, Исаак: Конармия / Babel, Iszaak: Lovashadsereg és más elbeszélések

Булгаков, Михаил: Мастер и Маргарита / Bulgakov, Mihail: A Mester és Margarita

Булгаков, Михаил: Собачье сердце / Bulgakov, Mihail: Kutyaszív

Горький, Максим: Дело Артамоновых / Gorkij, Makszim: Az Artamonovok

Горький, Максим: Коновалов / Gorkij, Makszim: Konovalov

Горький, Максим: Макар Чудра / Gorkij, Makszim: Makar Csudra

Горький, Максим: Старуха Изергиль / Gorkij, Makszim: Izergil anyó

Горький, Максим: Челкаш / Gorkij, Makszim: Cselkas

Достоевский, Федор Михайлович: Вечный муж / Dosztojevszkij, Fjodor Mihajlovics: Az örök férj

Достоевский, Федор Михайлович: Идиот / Dosztojevszkij, Fjodor Mihajlovics: A félkegyelmű

Достоевский, Федор Михайлович: Преступление и наказание / Dosztojevszkij, Fjodor Mihajlovics: Bűn és bűnhődés

Толстой, Лев Николаевич: Альберт / Tolsztoj, Lev Nyikolajevics: Albert

Толстой, Лев Николаевич: Анна Каренина / Tolsztoj, Lev Nyikolajevics: Anna Karenina

Толстой, Лев Николаевич: Война и мир (Том 1) / Tolsztoj, Lev Nyikolajevics: Háború és béke (1. kötet)

Толстой, Лев Николаевич: Хаджи-Мурат / Tolsztoj, Lev Nyikolajevics: Hadzsi Murat

Тургенев, Иван Сергеевич: После смерти (Клара Милич) / Turgenyev, Ivan Szergejevics: Milics Klára

Тургенев, Иван Сергеевич: Смерть / Turgenyev, Ivan Szergejevics: Halál

magyar–orosz

Gárdonyi Géza: Egri csillagok (1. rész) / Гардони, Геза: Звезды Эгера (Часть первая)

Molnár Ferenc: Pál utcai fiúk / Молнар, Ференц: Мальчишки с улицы Пала

 

Letölthető változat

orosz-magyar_parhuzamos_korpusz.zip

 

 

Szlavisztika Intézet Orosz Filológia Tanszék

7624 Pécs, Ifjúság u. 6., D-épület, 422.    +36 72 503-600/64281    bekes.boglarka@pte.hu