WikiDer > Тілдік қор
Тіл білімінде және тілдік технологияда а тілдік қор бұл «тілді өңдеуге арналған қосымшаларды құру, жетілдіру және / немесе бағалау кезінде қолданылатын лингвистикалық материалдың [құрамы], (...) тілдік және тілдік делдалдық зерттеулер мен қосымшаларда».[1]
Bird & Simons (2003) айтуынша,[2] бұған кіреді
- деректер, яғни «жарияланған монография, компьютерлік деректер файлы немесе тіпті қолмен жазылған индекс карталарына толы аяқ киімнің қорапшасы сияқты тілді құжаттайтын немесе сипаттайтын кез-келген ақпарат. Ақпараттың мазмұны талданбаған дыбыстық жазбалардан, толық транскрипцияланған және түсіндірілген мәтіндерден бастап толық сипаттама грамматикасына дейін болуы мүмкін »,[2]
- құралдар, яғни «тілдік деректерді құруды, қарауды, сұрау салуды немесе басқаша пайдалануды жеңілдететін есептеу қорлары»,[2] және
- кеңестер, яғни «қандай деректер көздері сенімді, қандай жағдайда қандай құралдар сәйкес келетіні, жаңа деректер жасау кезінде қандай тәжірибелерге сүйенетіні туралы» кез-келген ақпарат. Соңғы аспект әдетте «үздік тәжірибелер» немесе «(қоғамдастық) стандарттары» деп аталады.[2]
Неғұрлым тар мағынада тілдік ресурс қол жетімді ресурстарға арнайы қолданылады сандық форма, содан кейін «а) мәліметтер жиынтығын (мәтіндік, мультимодальды / мультимедиялық және лексикалық мәліметтер, грамматикалар, тілдік модельдер және т.б.) машинада оқылатын түрде, және (b) оларды өңдеу және басқару үшін қолданылатын құралдар / технологиялар / қызметтер.[1]
Типология
2020 жылдың мамырынан бастап кеңінен қолданылатын тілдік ресурстардың типологиялық типологиясы орнатылған жоқ (қазіргі ұсыныстарға мыналар кіреді) LREMap,[3] МЕТАШАРЕ,[4] және мәліметтер үшін LLOD классификациясы). Тілдік ресурстардың маңызды сыныптарына жатады
- деректер
- лексикалық ресурстармысалы, машинада оқылатын сөздіктер,
- лингвистикалық корпорациялар, яғни табиғи тілдік мәліметтердің сандық жинақтары,
- сияқты тілдік деректер негіздері Лингвистикалық байланысты деректер коллекция,
- құралдар
- лингвистикалық аннотациялар және қолмен немесе жартылай автоматты түрде осындай аннотация жасауға арналған құралдар (мысалы, түсініктеме жасауға арналған құралдар) сызықтық жылтыр мәтін сияқты Құралдар жәшігі және FLExнемесе басқа тілдік құжаттама құралдары),
- осындай деректерді іздеуге және іздеуге арналған қосымшалар (корпусты басқару жүйелері), автоматтандырылған аннотация үшін (сөйлеу бөлігін белгілеу, синтаксистік талдау, семантикалық талдаужәне т.б.),
- метамәліметтер мен сөздіктер
- сөздіктер, репозиторийлер лингвистикалық терминология және метамәліметтер, мысалы, MetaShare (метаберімдердің тілдік қоры үшін),[4] The ISO 12620 деректер категориясының тізілімі (тілдік ерекшеліктер, деректер құрылымы мен тілдік қордағы аннотация үшін),[5] немесе Глоттолог мәліметтер базасы (тілдік сұрыптардың идентификаторлары және библиографиялық мәліметтер базасы).[6]
Тілдік ресурстарды жариялау, тарату және құру
Тілдік ресурстар қауымдастығының басты алаңдаушылығы - тілдік ресурстарды ұсыну, талқылау және тарату үшін инфрақұрылымдар мен платформалар жасау. Осыған байланысты таңдалған жарналарға мыналар жатады:
- сериясы Тілдік ресурстар мен бағалау бойынша халықаралық конференциялар (LREC),
- The Еуропалық тілдік ресурстар қауымдастығы (ELRA, ЕО негізіндегі) және Лингвистикалық мәліметтер консорциумы (LDC, АҚШ-та), олар тілдік ресурстарға арналған коммерциялық хостинг және тарату платформаларын ұсынады,
- The Ашық тілдер мұрағатының қоғамдастығы (OLAC)тілдік метадеректерді қамтамасыз ететін және біріктіретін,
- The Тілдік ресурстар және бағалау журналы (LREJ).[7]
Тілдік ресурстарға арналған стандарттар мен озық тәжірибелерді әзірлеуге келер болсақ, бұл бірнеше қоғамдастық топтарының тақырыбы және стандарттау, соның ішінде
- ISO Техникалық комитет 37: Терминология және басқа тілдік және мазмұндық ресурстар (ISO / TC 37), тілдік ресурстардың барлық аспектілері үшін стандарттар әзірлеу,
- W3C Қоғамдық топ Көптілді байланыстырылған ашық деректерге арналған үздік тәжірибелер (BPMLOD),[8] тілдік ресурстарды жариялау бойынша ең жақсы тәжірибелік ұсыныстарды әзірлеу Байланыстырылған деректер немесе RDF,
- W3C қауымдастық тобы Тіл технологиясына байланысты деректер (LD4LT),[9] Интернеттегі лингвистикалық аннотацияларды және метамәліметтер қорын,
- W3C қауымдастық тобы Онтология-Лексика (OntoLex),[10] лексикалық ресурстармен жұмыс жасау,
- ашық тіл білімі бойынша жұмыс тобы Ашық білім қоры, жариялау және байланыстыру конвенцияларында жұмыс істеу ашық дамытатын тілдік ресурстар Лингвистикалық байланысты мәліметтер бұлт,[11]
- The Мәтінді кодтау бастамасы (TEI),[12] жұмыс жасау XML- тілдік ресурстарға және сандық редакцияланған мәтінге негізделген спецификациялар.
Әдебиеттер тізімі
- ^ а б LD4LT (2020), LD4LT Қоғамдық тобы құрған Metashare онтологиясы, W3C қауымдастық тобы тілдік технологиялар үшін байланысқан деректер (LD4LT), Даму бөлімі, 10 наурыз 2020 ж
- ^ а б c г. Берд, Стивен; Симонс, Гари (2003-11-01). «Тілдік ресурстардың сипаттамасы мен ашылуын қолдау үшін Дублиннің негізгі метадеректерін кеңейту». Компьютерлер және гуманитарлық ғылымдар. 37 (4): 375–388. arXiv:cs / 0308022. Бибкод:2003 ж. ........ 8022В. дои:10.1023 / A: 1025720518994. ISSN 1572-8412. S2CID 5969663.
- ^ Calzolari, N., Del Gratta, R., Francopoulo, G., Mariani, J., Rubino, F., Russo, I., & Soria, C. (2012, мамыр). LRE картасы. Ресурстардың қауымдастық сипаттамаларын үйлестіру. Жылы LREC (1084-1089 бет).
- ^ а б МакКрей, Джон П .; Лабропулу, Пенни; Грация, Хорхе; Вильегас, Марта; Родригес-Донсель, Вектор; Симиано, Филиппинг (2015). Гандон, Фабиен; Герет, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.) «Барлығын байланыстыратын бір онтология: Интернеттегі лингвистикалық мәліметтер жиынтығының өзара әрекеттесуі үшін META-SHARE OWL онтологиясы». Семантикалық веб: ESWC 2015 жерсеріктегі оқиғалар. Информатика пәнінен дәрістер. Чам: Springer халықаралық баспасы. 9341: 271–282. дои:10.1007/978-3-319-25639-9_42. ISBN 978-3-319-25639-9.
- ^ Кемпс-Снейдерс, М., Виндхауэр, М., Виттенбург, П., & Райт, С. Е. (2008). ISOcat: Табиғаттағы деректер санаттарын түзету. Жылы Тілдік ресурстар мен бағалау жөніндегі 6-шы халықаралық конференция (LREC 2008).
- ^ Нордхоф, Себастьян (2012), Чиаркос, христиан; Нордхоф, Себастьян; Хеллманн, Себастьян (ред.), «Лингвистикалық әртүрлілікті зерттеу үшін байланыстырылған деректер: Glottolog / Langdoc және ASJP Online», Тіл біліміндегі байланысқан деректер: тілдік деректер мен тілдік метадеректерді ұсыну және байланыстыру, Springer, 191–200 бет, дои:10.1007/978-3-642-28249-2_18, ISBN 978-3-642-28249-2
- ^ «Тілдік ресурстар және бағалау». Спрингер. Алынған 2020-05-13.
- ^ «Көптілді байланыстырылған ашық деректер бойынша топтық тәжірибе». www.w3.org. Алынған 2020-05-13.
- ^ «Тілдік технологиялар қауымдастығының байланыстырылған деректері». www.w3.org. Алынған 2020-05-13.
- ^ «Онтология-Лексика қауымдастығы». www.w3.org. Алынған 2020-05-13.
- ^ «Лингвистикалық байланысты мәліметтер».
- ^ «TEI: мәтінді кодтау бастамасы». tei-c.org. Алынған 2020-05-13.