Orosz–magyar párhuzamos korpusz
Alapvető információk a korpuszról
Orosz–magyar párhuzamos szövegeket teszünk elérhetővé.
A szövegek feldolgozása során egyértelműen kiderült, hogy csak a bekezdéseket figyelembe vevő szinteken érhető el megfeleltetés. Teljesen természetes, hogy a fordítók gyakran nem tartják be a mondathatárokat, emiatt igen nehéz lett volna a mondatonkénti megfeleltetését vállalni.
Az orosz nyelvű szövegek forrása a legtöbbször a Makszim Moskov Könyvtár (Библиотека Максима Мошкова, lib.ru), a magyaroké a Magyar Elektronikus Könyvtár (mek.oszk.hu). Igyekeztünk megtartani a szövegek forráshelyek szerinti eredeti formáját. Ezeken csak akkor változtattunk, amikor az eredeti és a fordított anyagban másképp nem tudtuk elérni a bekezdések megfeleltetését. Ilyen esetekben inkább bontottuk, és nem összevontuk a bekezdéseket. Azokat a bekezdéseket, amelyeknek nincsenek más nyelvű megfelelőik (annak a sornak például, hogy ki a fordító, nyilván nincsen párja az eredeti szövegben), # jellel jelöljük.
A bekezdések egymással való megfelelésének ellenőrzése abból a feltevésből indul ki, hogy a párhuzamosnak feltételezett bekezdések karakterekben kifejezett hosszúsága bizonyos határokon belül arányos. Amennyiben az egyik bekezdés hossza jelentősen eltér a feltételezett párhuzamáétól, akkor ezeket a bekezdéseket ellenőrizzük, és szükség esetén hozzányúlunk ezek szerkezetéhez (részekre daraboljuk az adott bekezdést). Az ellenőrizendő eltérés mértékét tapasztalati úton, hosszabb vizsgálatot követően állapítottuk meg.
Ha a az egyik nyelvben megírt bekezdés karakterszámban kifejezett hosszúsága, b pedig a másik nyelvben megírt bekezdés karakterszámban kifejezett hosszúsága, akkor azokat a párhuzamos bekezdéseket nem ellenőrizzük (feltételezük róluk, hogy helyesek), amelyek megfelelnek a következő szabálynak:
ha |a-b| <= 20; ha a+b <= 80 és a/b < 2.20 és b/a < 2.20; ha a+b <= 150 és a/b < 2.00 és b/a < 2.00; ha a+b <= 300 és a/b < 1.80 és b/a < 1.80; ha a+b <= 500 és a/b < 1.67 és b/a < 1.67; ha a+b <= 700 és a/b < 1.56 és b/a < 1.56; ha a+b <= 900 és a/b < 1.45 és b/a < 1.45; ha a+b <= 1200 és a/b < 1.42 és b/a < 1.42; ha a+b <= 1500 és a/b < 1.40 és b/a < 1.40; ha a+b <= 1900 és a/b < 1.37 és b/a < 1.37; ha a+b <= 2400 és a/b < 1.34 és b/a < 1.34; ha a+b <= 3000 és a/b < 1.32 és b/a < 1.32; és ha a/b < 1.3 és b/a < 1.30.
Az algoritmus ekként mutatható be ábrán:
Természetesen találhatók olyan bekezdések a korpuszban, amelyek ugyan helyesek, de nem felelnek meg ennek az elképzelésnek. Az okok különbözőek lehetnek – figyelmetlenség, cenzúra, nyelvi sajátosságok stb. Ld. pl.:
– Был грех. | – Igen, ez már az én lelkemen szárad. |
– Считаю вас одним из выдающихся знатоков своего дела. Я не знаю, впрочем, как обстоит дело в Риме, но в колониях равного вам нет. Объясните, почему? | – Indokolja meg ezt a feltevést. |
Жиды сюда не касаются. Между прочим, за Ленина не скажу, но Троцкий есть отчаянный сын тамбовского губернатора и вступился, хотя другого звания, за трудящийся класс. Как присужденные каторжане вытягают они нас – Ленин и Троцкий – на вольную дорогу жизни, а вы, гнусная гражданка, есть более контрреволюционерка, чем тот белый генерал, который с вострой шашкой грозится нам на своем тысячном коне… | Semmi köze ennek a zsidókhoz, de maga alattomos perszóna, maga nagyobb ellenforradalmár annál a fehérgenerálisnál is, aki éles karddal fenyeget bennünket a magas ló hátáról. |
A legnehezebb az Egri csillagok párhuzamosítása volt, ugyanis az orosz fordító a MEK-ben elérhető változattól több helyen eltérő magyar szöveggel dolgozott. Néhány szövegben előfordult, hogy a fordításból kimaradt egy-egy forrásnyelvi bekezdés, Gárdonyi művénél azonban az volt meglepő, hogy az orosz szöveg sok helyen bővebb volt a magyarnál.
– Én tudom. Én már kiszolgáltam egy rabságot. | – Я-то знаю, – я уже однажды помучился в рабстве. Десять лет жизни у меня пропало. |
– Konstantinápolyban? – kérdezték egyszerre hárman is. | – И что же, вас домой отпустили? |
– Ott – felelte a paraszt, mélyen belemártva a kanalát a vaskondérba –, tíz esztendeig söpörtem én a török földet. | – И что же, вас домой отпустили? |
– És hogyan szabadult meg? | – Так как же вы освободились? |
A jelenleg elérhető szövegek közel 34.500 bekezdésből, illetve nyelvenként több mint 1.100.000 szóból állnak.
A munkák többségét a pécsi orosz szakos MA hallgatók végezték a felügyeletem alatt.
Dombóvári Márton (Kutyaszív);
Gyurcsik Andrea (Az örök férj; A félkegyelmű);
Nagy Orsolya (Lovashadsereg);
Palkó Ágnes (Albert; Háború és béke I. kötet; Hadzsi Murat);
Rusznák Karolina (Gorkij összes);
Szekeres Gábor (A Mester és Margarita);
Vitéz Eszter (Anna Karenyina).
További művek párhuzamosítását is tervezzük.
Ha valaki szeretne a munkában részt venni, jelentkezzen nálam. Amennyiben valakinek fontos lenne egy szöveg párhuzamosítása, szintén jelezheti.
A párhuzamos szövegek elsősorban a nyelvészeti kutatások terén biztosítanak gazdag lehetőségeket (lexika, frazeológia stb.).
Мы с женой как белые волки, нас все знают, – отвечал Корсунский. | Én meg a feleségem olyanok vagyunk, akár a rossz pénz: mindenki ismer bennünket. |
Идти с фальшивым билетом – куда же? – в банкирскую контору, где на этом собаку съели, – нет, я бы сконфузился. | Beállítani a hamis bankóval, egyenesen oda, az oroszlánbarlangba! Én bizony elvesztettem volna a fejem. |
A szövegeket úgy szerkesztettük, hogy ezeket (illetve ezek részeit) párhuzamosan ki is lehessen nyomtatni. Reméljük, lesz olyan hallgató, kutató kolléga, aki hasznát veszi ezeknek.
Robert Wołosz
Olvasható fájlok (html):
orosz–magyar
Бабель, Исаак: Конармия / Babel, Iszaak: Lovashadsereg és más elbeszélések
Булгаков, Михаил: Мастер и Маргарита / Bulgakov, Mihail: A Mester és Margarita
Булгаков, Михаил: Собачье сердце / Bulgakov, Mihail: Kutyaszív
Горький, Максим: Дело Артамоновых / Gorkij, Makszim: Az Artamonovok
Горький, Максим: Коновалов / Gorkij, Makszim: Konovalov
Горький, Максим: Макар Чудра / Gorkij, Makszim: Makar Csudra
Горький, Максим: Старуха Изергиль / Gorkij, Makszim: Izergil anyó
Горький, Максим: Челкаш / Gorkij, Makszim: Cselkas
Достоевский, Федор Михайлович: Вечный муж / Dosztojevszkij, Fjodor Mihajlovics: Az örök férj
Достоевский, Федор Михайлович: Идиот / Dosztojevszkij, Fjodor Mihajlovics: A félkegyelmű
Толстой, Лев Николаевич: Альберт / Tolsztoj, Lev Nyikolajevics: Albert
Толстой, Лев Николаевич: Анна Каренина / Tolsztoj, Lev Nyikolajevics: Anna Karenina
Толстой, Лев Николаевич: Хаджи-Мурат / Tolsztoj, Lev Nyikolajevics: Hadzsi Murat
Тургенев, Иван Сергеевич: После смерти (Клара Милич) / Turgenyev, Ivan Szergejevics: Milics Klára
Тургенев, Иван Сергеевич: Смерть / Turgenyev, Ivan Szergejevics: Halál
magyar–orosz
Gárdonyi Géza: Egri csillagok (1. rész) / Гардони, Геза: Звезды Эгера (Часть первая)
Molnár Ferenc: Pál utcai fiúk / Молнар, Ференц: Мальчишки с улицы Пала
Letölthető változat
orosz-magyar_parhuzamos_korpusz.zip