Татар теленең язма корпусы

Wikipedia — ирекле энциклопедия проектыннан ([http://tt.wikipedia.org.ttcysuttlart1999.aylandirow.tmf.org.ru/wiki/Татар теленең язма корпусы latin yazuında])
Навигациягә күчү Эзләүгә күчү
Татар теленең язма корпусы
URL http://corpus.tatar/tt
Cкриншоты
Результаты сложного морфологического поиска .jpg
Төр белем бирү/фәнни проект
Телләр татар/рус/инглиз
Урнашу Татарстан
Хуҗасы Сайхунов М.Р., Ибраһимов Т.И., Хөсәенов Р.Р.
Эшли башлау вакыты 2012
Халәте Эшли һәм үсә

Татар теленең язма корпусы татар телендә иҗат ителгән электрон текстларның онлайн җыелмасын тәшкил итә. Язма корпус татар теленең системасы, хәле, алдагы көне белән кызыксынучы шәхесләрне күздә тотып төзелә. Ул татар телен корпуслы лингвистика кысаларында өйрәнүче белгечләр өчен зарури чыганак.
Сайт 2012 елның 15 мартында ачыла. Хәзерге адресы http://corpus.tatar.
Татар, рус һәм инглиз телләрендә эшли.

Корпусның күләме[үзгәртү | вики-текстны үзгәртү]

2014 елның азагыннан башлап корпусның күләме 116 млн сүз тәшкил итә. Җөмләләр саны - 10 млн, сүзформалар саны - 1,5 млн.
Корпуста текстлар тәртибе буталган аерым җөмләләр буларак саклана.

Куллана алу[үзгәртү | вики-текстны үзгәртү]

Корпусны куллану бушлай.

Корпусны төзә башлау[үзгәртү | вики-текстны үзгәртү]

Корпусны төзү 2010 елда энтузиастлар төркеме тарафыннан башланды. Аның әһәмияте татар һәм башка телләр арасында машина тәрҗемәсе системасын төзү, татарча сөйләмне автоматик синтезлау һәм тану проблемаларын чишү өчен нигез булып торуы белән аңлатыла.

Практик әһәмияте һәм кулланылу мөмкинлекләре[үзгәртү | вики-текстны үзгәртү]

Татар теле корпусының төп вазыйфасы – татар теле лексикасын фәнни планда өйрәнүгә булышлык күрсәтү. Моннан тыш электрон корпус телгә өйрәтүдә, шулай ук сүзлек-белешмәлек буларак төрле документлар язуда зур ярдәм күрсәтергә мөмкин.
Корпус билгеле бер сыйфатлар җыелмасына ия булган сүзләрне табарга, аларның контексты, кулланылу ешлыгы белән танышырга мөмкинлек бирә.

Коллокацияләр (статистик) корпусы[үзгәртү | вики-текстны үзгәртү]

Әлеге эзләү төре эзләнәсе сүзнең кулланылу ешлыгы тәртибендә урнаштырылган уң, сул һәм семантик контекстларын күрсәтә.
Уң контекст - әлеге сүзнең нәкъ менә уң ягында килгән сүзләр.
Сул контекст - әлеге сүзнең нәкъ менә сул ягында килгән сүзләр.
Семантик контекст - әлеге сүз белән бер үк җөмләдә килгән сүзләр, ягъни билгеле бер дәрәҗәдә семантик бәйләнешкә ия очраклар.

Катлаулы морфологик эзләү[үзгәртү | вики-текстны үзгәртү]

2014 елда Корпусны морфологик тамгалау эше башкарылды. Грамматик тамгалар метателе нигезенә Apertium халыкара проекты тарафыннан төрки телләр өчен эшләнгән «тег»лар системасы алынды. Ул проект кысаларында дөньяның күп телләрендәге текстларны автоматик рәвештә үзара тәрҗемә итү системасы эшләнә. Язма корпусны тамгалау өчен нәкъ менә Apertium’ны сайлау түбәндәге сәбәпләр белән аңлатыла:
- морфологик аннотациянең югары дәрәҗәдә булуы;
- ул проектның тулысынча ачыклыгы, ягъни бөтен код һәм мөмкинлекләренең теләсә кем тарафыннан бушлай кулланыла алуы.
2015-2016 елларда безнең тарафтан эшләнгән Катлаулы морфологик эзләү системасы Корпуста сүзформа, лемма, морфологик (грамматик) теглар, сүзнең башы, уртасы, азагы, алар арасындагы ераклык кебек билгеләрнең төрле комбинацияләре нигезендә мисаллар эзләргә мөмкинлек бирә. Эзләнәсе юлның озынлыгы биш сүзгә җитә, һәм алар арасындагы дүрт ераклык күрсәткече дә каралган.

Татарча сөйләм синтезлагыч[үзгәртү | вики-текстны үзгәртү]

Татар теле Язма корпусы сайтында мисал буларак китерелгән җөмләләрне һәм үзегезнең текстларны тыңлап карау мөмкинлеге эшләнде.

Статистик мәгълүмат[үзгәртү | вики-текстны үзгәртү]

Корпусның авторлары эш барышында җыелган төрле статистик мәгълүматны сайтта урнаштыра баралар.

Кимчелекләр һәм перспективалар[үзгәртү | вики-текстны үзгәртү]

  • Корпусның оффлайн версиясе әлегә әзер булмавы.
  • Омонимия очракларының бары тик автоматик рәвештә генә эшкәртелүе.

Төзүчеләр[үзгәртү | вики-текстны үзгәртү]

Корпусны ясаучылар:

  • Сайхунов М.Р. (филология фәннәре кандидаты, ТР ФА Информатика институтының фәнни хезмәткәре)
  • Ибраһимов Т.И. (филология фәннәре кандидаты, КФУ гамәли лингвистика кафедрасы доценты)
  • Хөсәенов Р.Р. (инженер, GDC компаниясе)

Ярдәм күрсәтүчеләр:

  • Республика традицион мәдәниятне үстерү үзәге
  • Турку университетының фин-угор телләре кафедрасы (Финляндия)
  • «RX5» компаниясе
  • «Фән һәм Тел» фәнни-мәгълүмати журнал редакциясе

Әдәбият[1][үзгәртү | вики-текстны үзгәртү]

Чыганаклар[үзгәртү | вики-текстны үзгәртү]

  • http://corpus.tatar/articles_tt.htm