Szavakból álló n-gramok gyakorisága orosz szövegekben
Hatvan éve jelent meg az első orosz gyakorisági szótár,¹ amit az évtizedek során újabb, papír változatú szótárak követtek.² A publikálást illetően valódi váltás azóta történt, amióta a gyakoriságra vonatkozó adatokat elektronikus formában publikálják. A jelenleg legismertebb és a legtöbbek által használt anyagot az Orosz Nyelv Nemzeti Korpusza biztosítja (Национальный корпус русского языка, ruscorpora.ru). 2011-ben a Korpusz anyagából, amely akkor közel 193 millió szóból állt, kigenerálták az 1-, 2-, 3-, 4- és 5-gramokat (a 6-gramokból csak a száz leggyakoribbat mutatták be), ám hiába nőtt a feldolgozott szövegek száma, tizenkét éven keresztül az n-gramokra vonatkozó információkat nem frissítették. 2023 októberében ebben változás állt be, ugyanis ekkor közölték azokat az 1- és 2-gramokat, amelyeket már nagyobb, több mint 374 millió szóból álló anyagból nyertek ki (https://ruscorpora.ru/page/corpora-freq/). Sajnos az új feldolgozás minősége kívánnivalókat hagy maga után. Az azonos gyakoriságú n-gramok esetében a közlés sorrendje véletlenszerű, az elemek nincsenek alfabetikus sorrendbe szerkesztve. Ezen kívül az újonnan közölt adatok szerkezete megváltozott a korábbihoz képest, ami újabb feladatok elé állítja azokat, akik addig rutinosan használták az előző változatot.
A PTE Orosz Tanszékén különféle oktatási és kutatási célokból jónéhány éve folyik orosz nyelvű szövegek gyűjtése. A létrejött szöveggyűjtemény, amelynek nagysága mára túllépte a hatszázötvenezer fájlt³, tudományos kutatásaiban segíti a tanszék munkatársait és hallgatóit. A különböző forrásokból összegyűjtött anyag óhatatlanul tartalmaz ismétléseket. A jelenlegi munka előkészületi fázisának legnehezebb feladata volt kiszűrni ezeket. A lejjebb közölt n-gramok végül is kb. négyszáztízezer fájl feldolgozásából származnak. Ez a gyűjtemény a szövegek kiválasztásának véletlenszerűsége, fordítások tartalmazása, a digital born szövegek elsöprő túlsúlya miatt ugyan nem tud versenyezni az Orosz Nyelv Nemzeti Korpuszának átgondolt kiválasztási elveivel, de csak a méretét tekintve is (128-szor nagyobb az НКРЯ-nál a 3-, 4- és 5-gramok, illetve 66-szor az 1- és 2-gramok esetén) igen hasznosnak bizonyulhat különféle morfológiai, helyesírási, stilisztikai, parömiológiai, frazeológiai, szószerkezeti vizsgálatok elvégzéséhez. Ezen kívül fontos szerepet kaphat a nyelvtanulásban és nyelvtanításban is.
A most nyilvánosságra hozott adatmennyiség 412.185 fájl (kb. 301 GB) feldolgozásának eredménye. Az elemzett szövegek 2.308.892.344 mondatból, illetve 24.759.733.938 szóból állnak.⁴ Csupán a legyakoribb orosz szó – az и – az általunk közölt anyagban több mint kétszer gyakrabban fordul elő, mint az Orosz Nyelv Nemzeti Korpusza n-gramok közlésére használt teljes szóállományának mennyisége. Annak érzékeltésére, hogy milyen nagyságról van itt szó, úgy is fogalmazhatunk, hogy a feldolgozott anyag több mint 144 ezer kötetnyi Bűn és bűnhődés méretét tenné ki.
Az adatok közlése a nagy méretek miatt minden kategóriában a következő módon történik: a leggyakoribb ötezer rekordot közvetlenül láthatóvá tesszük, azokat pedig, amelyek legalább tíz különböző szövegben fordulnak elő, becsomagolt formában letöltésre ajánljuk.⁵ A rekordok sorrendjét a gyakoriság határozza meg; egyenlő gyakoriság esetén pedig a sorrendről azoknak a szövegeknek a száma határoz, amelyekben az adott elem megjelenik. Mindkét érték egyenlőségekor a sorrendről az UTF-8 kódolás szerinti ábécé dönt.
Az n-gramok kinyerését a szövegek mondatokra való bontása előzte meg, ugyanis fontosnak tartottuk, hogy az eljárás során ne lépjük át a mondathatárokat. Ez azt jelenti, hogy a következő mintaszövegnél: Разве я способен на это? Разве это серьезно? Совсем не серьезно. ezeket a 2-gramokat nyerjük ki: Разве я; я способен; способен на; на это; Разве это; это серьезно; Совсем не; не серьезно. Látszik, hogy nincs közöttük az это Разве és a серьезно Совсем. A mondathatárok betartása mindössze az 1-gramok esetében irreleváns.
A kigenerált adatokat vizsgálva észleltük, hogy néha meglepően magas gyakorisággal rendelkező n-gramok viszonylag kevés különböző fájlban jelennek meg. Úgy ítéltük meg, hogy ez a jelenség torzítja a gyakoriságra vonatkozó információt. Emiatt bevezettünk egy q értéket, amelyet minden n-gramhoz kiszámoltunk, és a különböző típusú n-gramok esetében az értéket elérő vagy túllépő n-gramokat kivettük a közölt listából.
A q kiszámítására a következő képletet használtuk: q = n/f², ahol n = az n-gram gyakorisága, az f = azoknak a fájlokanak a száma, amelyekben az adott n-gram legalább egyszer megjelent. A q értéket minden táblázatnál külön jelezzük.
Jelenleg a következő adatok elérhetők:
- 1-, 2-, 3-, 4-, 5- és 6-gramos gyakorisági listák – nagy- és kisbetűk, illetve a ё és a е megkülönböztetése nélkül.⁶
- 1-, 2-, 3-, 4-, 5- és 6-gramos gyakorisági listák – nagy- és kisbetűk megkülönböztetésével.
- Mondatkezdő 1-, 2-, 3-, 4-, 5- és 6-gramos gyakorisági listák – nagy- és kisbetűk, illetve a ё és a е megkülönböztetése nélkül.
- Mondatzáró 1-, 2-, 3-, 4-, 5- és 6-gramos gyakorisági listák – nagy- és kisbetűk, illetve a ё és a е megkülönböztetése nélkül.
Fejlesztési tervek
Elérhetővé tesszük a szótövesített szövegek n-gramokra vonatkozó statisztikáit.
1. Штейнфельдт, Эви Александровна: Частотный словарь современного русского литературного языка. Пособие для преподавателей рус. яз. Таллин, 1963, [б. и.]. – 316 с.
2. Харакоз, Петр Иванович: Частотный словарь современного русского языка. Фрунзе, 1971, Мектеп. – 180 с.
Засорина, Лидия Николаевна [ред.]: Частотный словарь русского языка. Москва, 1977, Рус. яз. – 935 с.
Brown, Nicholas J.: Russian Learners’ Dictionary : 10,000 words in frequency order. London, New York, 2003, Routledge. – 429 pp.
Sharoff, Serge; Umanskaya, Elena; Wilson, James: A Frequency Dictionary of Russian : Core vocabulary for learners. London, New York, 2013, Routledge. – 384 pp.
Ляшевская, Ольга Николаевна; Шаров, Сергей Александрович: Частотный словарь современного русского языка : на материалах Национального корпуса русского языка. Изд. 2-е, испр. и доп. Москва, 2015, Словари.ру. – 21+1087 с.; ISBN 978-5-9906031-5-8.
3. A fájlok szószám szerinti mérete nagyon különböző. Az átlagos fájl kb. 60 ezer szóból áll. A gyűjteményből kizártuk azokat a fájlokat, amelyek szószáma nem érte el a 170-et. Egy fájl lehet akár egy vers, egy folyóiratcikk vagy egy egész -szám, egy több kötetes regény, de akár egy-egy szerző teljes életműve is.
4. A mondat és a szó szavakat speciális, technikai értelemben használjuk. Mondat alatt olyan szövegrészt értünk, amely nagybetűvel és új bekezdéssel vagy egy másik mondat zárását követően kezdődik, és mondatzáró írásjelig tart, amely után nagybetűvel újabb mondat vagy új bekezdés következik. Szónak olyan karaktersorozatot tekintünk, amely két szóköz vagy szóköz értékű karakter között helyezkedik el.
5. Akinek ennél is részletesebb adatokra lenne szüksége, a fent megadott e-mail címen vegye fel a kapcsolatot a szerzővel.
6. A nagybetűk kisbetűkké történő átalakítását főként a cirill és a latin betűk esetében igyekeztünk véghezvinni, de figyelmet fordítottunk más, a betűnagyságot megkülönböztető ábécékre is (görög, örmény stb.)
Elérhető adatok
- 1. Kisbetűsített, ё nélküli változat
-
előnézet letöltés q érték 1-gram Top 5000 .7z (21 MB, 3.845.305 rekord) 7 2-gram Top 5000 .7z (501 MB, 101.705.228 rekord) 3 3-gram Top 5000 .7z (887 MB, 164.778.271 rekord) 1 4-gram Top 5000 .7z (645 MB, 107.082.795 rekord) 1 5-gram Top 5000 .7z (338 MB, 48.276.691 rekord) 1 6-gram Top 5000 .7z (176 MB, 20.952.211 rekord) 1 - 2. Kis- és nagybetűket, valamint a ё-t megtartó változat
-
előnézet letöltés q érték 1-gram Top 5000 .7z (25 MB, 4.659.621 rekord) 7 2-gram Top 5000 .7z (528 MB, 107.005.384 rekord) 3 3-gram Top 5000 .7z (890 MB, 164.960.165 rekord) 1 4-gram Top 5000 .7z (628 MB, 103.903.042 rekord) 1 5-gram Top 5000 .7z (319 MB, 45.422.413 rekord) 1 6-gram Top 5000 .7z (164 MB, 19.375.391 rekord) 1 - 3. Mondat eleji n-grammok
-
előnézet letöltés q érték 1-gram Top 5000 .7z (4,5 MB, 846.220 rekord) 3 2-gram Top 5000 .7z (52 MB, 10.565.842 rekord) 2 3-gram Top 5000 .7z (82 MB, 15.341.118 rekord) 1 4-gram Top 5000 .7z (71 MB, 12.145.986 rekord) 1 5-gram Top 5000 .7z (44 MB, 6.484.133 rekord) 1 6-gram Top 5000 .7z (24 MB, 2.831.239 rekord) 1 - 4. Mondat végi n-grammok
-
előnézet letöltés q érték 1-gram Top 5000 .7z (7,5 MB, 1.434.834 rekord) 3 2-gram Top 5000 .7z (75 MB, 14.462.378 rekord) 2 3-gram Top 5000 .7z (103 MB, 17.560.647 rekord) 1 4-gram Top 5000 .7z (74 MB, 11.148.880 rekord) 1 5-gram Top 5000 .7z (42 MB, 5.347.139 rekord) 1 6-gram Top 5000 .7z (24 MB, 2.454.385 rekord) 1