آماده سازی داده ها بهترین روش برای عصبی MT

در هر دستگاه آموزش کار با کیفیت و حجم داده های آموزشی در دسترس است مهم تعیین کننده از سیستم توسعه یافته است. اهمیت اطلاعات واقعی برای هر دو آماری MT و عصبی تن که هر دو داده محور و تولید خروجی است که عمیقا تحت تاثیر قرار داده استفاده می شود برای آموزش آنها. برخی بر این باورند که آماری MT سیستم های تحمل بالاتری برای پر سر و صدا داده. بنابراین فرض بر این است که بیشتر حجم دیتا بهتر است حتی اگر آن را "پر سر و صدا" اما در تجربه من, تمام, داده محور, MT سیستم ها بهتر است هنگامی که شما داده های با کیفیت. تحقیقات نشان می دهد که عصبی MT بیشتر حساس به سر و صدا از آماری MT. هنوز هم به عنوان SMT شده است در اطراف برای 15+ سال در حال حاضر بسیاری از دكتر سيد محمد تقي آماده سازی داده ها شیوه های استفاده از در طول تاریخ اغلب ادامه و در حال انجام به NMT مدل سازی امروز است.

این مشکل مطرح شده است و علاقه در زمینه های موازی فیلتر کردن داده ها برای شناسایی و تصحیح مشکل ساز ترین مسائل برای NMT به عنوان مثال بخش که در آن منبع و مقصد یکسان هستند و منحرف جملات. این ارائه توسط eBay فراهم می کند یک مرور کلی از اهمیت موازی فیلتر کردن داده و آن را بهترین شیوه. این می افزاید: به این نکات مفید ساخته شده توسط دکتر-صاحب در این پست. داده های تمیز کردن و آماده سازی همواره لازم برای توسعه برتر MT موتور و بسیاری از ما موافق آن است و حتی مهم تر در حال حاضر با شبکه عصبی مبتنی بر مدل است.

این پست مهمان توسط ریموند دکتر که پیر است و عاقلانه آشنایی از معدن که به صرف بیش از یک دهه در مرکز توسعه محاسبات پیشرفته (C-DAC) در پونا هند است. او یک پیشگام در دیجیتال هندی زبان کار می کنند و درگیر شد در چندین هندی زبان ان بر اساس طرح انجام پژوهش در زبان هندی Parsers, تقسیم بندی, پردازش زبانهای طبيعی ناشی, Lemmatization, NER, Chunking ترجمه ماشینی و نظر معدن.

من و او همچنین دو زبان هندی مشترک (هندی و گجراتی). در طول این سالها او به من نشان داده است بسیاری از نمونه هایی از خروجی از MT سیستم او توسعه یافته در تحقیقات خود که بهترین من تا به حال دیده می شود برای این دو زبان رفتن به و از زبان انگلیسی است. موفقیت خود را MT آزمایش است و در عین حال بیشتر اثبات که بهترین MT سیستم های آمده از کسانی که یک درک عمیق از هر دو زمینه زبانشناسی و همچنین MT سیستم توسعه روش.

بررسی اجمالی از دكتر سيد محمد تقي داده های تراز فرآیندهای

"درست است عدم دقت و خطا در داده ها حداقل نسبتا ساده به نشانی زیرا آنها به طور کلی همه منطقی در طبیعت است. تعصب از سوی دیگر شامل تغییر چگونه انسان نگاه داده و همه ما می دانیم چقدر سخت است به تغییر رفتار انسان."

- Michiko Wolcott

برخی دیگر از حکمت در مورد داده ها از Michiko:

حقیقت شماره 1: داده ها احمق و تنبل است.

داده های هوشمند نیست. حتی هوش مصنوعی باید آموزش داده شود قبل از آن می آموزد به یاد بگیرند که خود را در آن (که حتی قابل بحث است). اطلاعات هیچ توانایی خود را. اغلب گفته است که بینش باید به طعنه از داده ها.

حقیقت شماره 2: داده ها به ندرت یک هدف بازنمایی از واقعیت (خود به خود).

من می خواهم برای روشن شدن این بیانیه: آن چه نمی گویند که داده است به ندرت دقیق و یا خطا. دقت و صحت در حال ابعاد کیفیت از آنچه که در داده های خود را.

متن زیر نوشته شده توسط نویسنده مهمان.

**************

در طول سال من شده اند تحصیل در رشته های مختلف توصیه های داده شده به آماده سازی داده های آموزشی را قبل از ارسال آن را به یک NMT یادگیری موتور. من احساس می کنم این روش های توصیه شده به طور عمده به عنوان بهترین شیوه در زمان دكتر سيد محمد تقي و انجام شده است به NMT با کمتر از نتایج مفید است.

من باید شناسایی شش عمده مشکلات است که تحلیلگران داده ها را هنگامی که در حال آماده سازی داده های آموزشی برای NMT مدل. این داده ها برای تمیز کردن و آماده سازی شیوه های سرچشمه به عنوان بهترین شیوه با دكتر سيد محمد تقي جایی که آنها از بهره مند شوند. بسیاری از داده های ساخته شده است که حس با دكتر سيد محمد تقي هنوز هم در حال دنبال شدن امروز و این نظر من است این است که این باید اجتناب شود و به احتمال زیاد منجر به نتایج بهتر.

در حالی که من لیست چند شیوه است که احساس می کنم باید اجتناب شود بسیاری از دیگر SMT-داده ها بر اساس شاخص های شیوه اطمینان حاصل شود که داده های آموزشی است که به احتمال زیاد به تولید بهینه NMT سیستم. اما عوامل من در زیر فهرستی از رایج ترین شیوه ها که منجر به کاهش خروجی با کیفیت تر خواهد بود و ممکن است با نادیده گرفتن این شیوه است. من نادیده گرفته توصیه های داده شده در مورد نقطه گذاری deduping از بین بردن truncations, MWEs و کیفیت NMT خروجی قابل ملاحظه ای بهبود می بخشد و در تحقیقات من با هندی زبان MT سیستم.

تا آنجا که ممکن است نمونه های ارائه شده از یک گجراتی <> English NMT سیستم من را توسعه داده اند. اما همان اعمال می شود به هر گونه موازی جسم.

1. نقطه گذاری

کاملا چند سایت به شما بگویم برای حذف نقطه گذاری را قبل از ارسال داده ها برای یادگیری است. این مشاهدات من که این مطلوب نیست عمل است.

نقطه گذاری ها نشانگر است که اجازه می دهد برای درک معنای. در اکثر زبان ها کلمه منظور لزوما نشان می دهد بازجویی

Tu viens? =شما می آیند ؟

از بین بردن بازجویی نشانگر ایجاد سردرگمی و آمدند [دیدن من سخن گفتن زیر]

ببینید چه اتفاقی می افتد زمانی که یک کاما حذف شده است:

آنه ماری va آخور دوشنبه enfant=آنه ماری. آمده اند و ناهار خود را

آنه ماری va آخور دوشنبه enfant=آنه ماری در حال رفتن به خوردن کودک من

شهردار می گوید: کمیساریای یک احمق است.

شهردار می گوید: کمیسر احمق است.

من احساس می کنم که در حال آماده سازی یک جسم از نقطه نشانگر باید حفظ شود.

2. TRUNCATIONS و جملات کوتاه

کاملا چند سایت به شما توصیه به حذف جملات کوتاه. انجام این کار به نظر من یک خطای جدی. جملات کوتاه بسیار مهم برای ترجمه سرفصل یکی از سکندری بلوک های NMT. بعضی از آنها افعال و خالص اسمی سازه.

مقررات منع رفت و آمد اعلام کرد: اسم + فعل

رفت و برگشت از Covid19 بیش از قاره: عبارت اسمی

گوگل رسیدگی نمی کند اسمی سازه های خوب و در اینجا یک مثال است:

رفت و برگشت از Covid بیش هند= ભારત ઉપર કોવિડનો સ્વીપ

من پیدا کرده اند که با حفظ این ساختار را تقویت و بهبود کیفیت NMT خروجی.

3. MULTIWORD عبارات

Multiword عبارات (MWEs) در عبارات است که ساخته شده تا حداقل دو کلمات است که می تواند نحوی و/یا معنایی منحصر به فرد در طبیعت است. علاوه بر این, آنها به عنوان یک واحد در برخی از سطح زبانی تجزیه و تحلیل.

مانند جملات کوتاه MWEs اغلب نادیده گرفته شده و حذف شده از آموزش و جسم. این MWEs اغلب ثابت الگوهای موجود در یک زبان است. این می تواند کوتاه عبارات و عناوین و یا به عبارتی سازه, فقط به نام چند از احتمالات است. MWEs نمی توان به معنای واقعی کلمه ترجمه شده و نیاز به استفاده با دقت. تجربه من این بوده است که بالاتر حجم MWEs ارائه کیفیت بهتر از یادگیری است. چند MWEs در گجراتی در زیر ارائه می شوند:

توافق در شرایطی =અભાવાન્વય

توافق در حضور =ભવાન્વય

کشاورزی برابری =કૃષિમૂલ્ય સમાનતા

کمک و مشاوره =સહાય અને સલાહ

aider و abettor =સહાયક અને મદદગાર

هدف آتش =નિશાન લગાવી ગોળી ચલાવવી

4. تکراری

تعداد زیادی از سایت های ارائه توصیه های NMT آموزش آماده سازی داده ها بگویید شما را به حذف موارد تکراری در هر دو منبع و مقصد متون. این عمل در اصطلاح نامیده می شوند به عنوان deduping. این استدلال که deduping پیکره باعث می شود برای دقت بیشتر است. با این حال, آن است که مشترک به زبان انگلیسی جمله است که می تواند نقشه را به دو یا بیشتر از دو رشته در زبان مقصد. این تنوع می تواند به دلیل مترادف مورد استفاده در زبان مقصد و یا اینکه یک کلمه منظور است که به خصوص رایج در زبان هندی. د-فریب داده در نتیجه تضعیف کیفیت MT خروجی. تنها موردی که در آن deduping باید انجام شود این است که ما باید دو یکسان رشته ها در هر دو زبان مبداء و مقصد. کیفیت بالاتر NMT موتورهای ترکیب این تغییرات جزئی در یک بخش به فعال کردن MT موتور به تولید چندین نوع.

تغییر بیان کلامی و کلمه سفارش:

چگونه تجارت مذاکرات بین چین و ایالات متحده در حال حرکت رو به جلو در حال حاضر. =ચીન તથા અમેરિકા વચ્ચે વેપાર વ્યવહાર વિષયક વાતચીત હવે કેવી આગળ વધે છે.

چگونه تجارت مذاکرات بین چین و ایالات متحده در حال حرکت رو به جلو در حال حاضر. =ચીન તથા અમેરિકા વચ્ચે હવે વેપાર વિષયક વાતચીત કેવી આગળ વધે છે.

مترادف:

کارشناسان بر این باورند. =એક્સપર્ટ્સ માને છે.

کارشناسان بر این باورند. =જાણકારોનું માનવું છે.

کارشناسان بر این باورند. =નિષ્ણાતોનું માનવું છે.

Deduping داده ها در چنین مواردی منجر به کاهش کیفیت خروجی.

تنها موردی که در آن deduping باید انجام شود این است که ما دو یکسان رشته ها در هر دو زبان مبداء و مقصد. به عبارت دیگر دقیق تکراری. بالا پایان NMT موتورهای عمل ندارد deduping پس از این محروم MT سیستم از بودن قادر به ارائه انواع آن دیده می شود با کلیک کردن بر روی تمام یا بخشی از براق.

5. الگوهای کلامی

ناتوانی در رسیدگی به این پاشنه آشیل اکثر NMT موتور از جمله گوگل آنجا که زبان انگلیسی به هندی زبان نگران هستند. توجه به این منطقه نادیده گرفته شده است به دلیل آن است که احساس کردند که جسم را تحمل همه کلامی الگوهای در هر دو زبان مبداء و مقصد. حتی بهترین corpora رسیدگی نمی کند این.

ارائه مجموعه ای از جملات کلامی الگوی هر دو زبان مبدا و مقصد می رود راه طولانی.

گجراتی اذعان حدود 40+ الگوهای کلامی و NMT نتواند در چند:

آنها باید به گوش دادن به PM گفتار =તેઓએ વડા પ્રધાનનું ભાષણ સાંભળ્યું હોવું જોઈએ

نشان داده شده در زیر یک نمونه از گجراتی الگوهای کلامی با "خوردن" را به عنوان یک پارادایم

شما در حال غذا خوردن =તમે ખાઓ છો
شما در حال غذا خوردن نیست =તમે ખાતા નથી
شما ate =તમે ખાધું
شما می توانید غذا خوردن =તમે ખાઈ શકો છો
شما نمی توانید خوردن =તમે નહીં ખાઈ શકો
شما نمی تواند غذا خوردن =તમે ખાઈ શક્યા નહીં
شما را نمی خورند =તમે ખાધું નહીં
شما نمی خوردن =તમે ખાતા નથી
شما غذا خوردن =તમે ખાધું
شما تا به حال شده است خوردن =તમે ખાતા હતા
شما تا به حال خورده =તમે ખાધું હતું
شما باید خورده =તમે ખાધું છે
شما ممکن است غذا خوردن =તમે ખાતા હોઈ શકો છો
شما ممکن است غذا خوردن =તમે ખાઈ શકો છો
شما ممکن است غذا خوردن =તમે કદાચ ખાશો
شما ممکن است از غذا خوردن =તમે કદાચ ખાશો નહીં
شما باید خوردن =તમારે ખાવું જ જોઇએ
شما باید از غذا خوردن =તમારે ખાવું ન જોઈએ
شما باید به خوردن =તમારે ખાવું ન જોઈએ
شما باید به خوردن =તમારે ખાવું જોઈએ
شما باید خوردن =તમે ખાશો

به طور مشابه با استفاده از یک همیشگی نشانگر استفاده می شود در هنگام استفاده به فرانسه با کیفیت بالا و NMT سیستم

6. قطب و بردار افعال

این سازه بسیار رایج در زبان هندی و اغلب منجر به ترجمه ی اشتباه.

بنابراین گجراتی با استفاده از જવું કરવું به عنوان یک مکمل اصلی فعل. ترکیبی از قطب و بردار فعل مانند જવું ایجاد یک معنای جدید.

મરી જવું ترجمه نشده است به عنوان مرگ رفتن است اما به سادگی می میرند

گجراتی اذعان حدود 15-20 چنین افعال به عنوان هندی و دیگر زبان هندی و یک بار دیگر یک جسم نیاز به تغذیه این نوع از داده ها در شکل جملات برای تولید خروجی بهتر.

در مورد زبان انگلیسی آن است که گزاره عباراتی است که اغلب ایجاد مسائل:

انتخاب کنید تا انتخاب کنید کسی را انتخاب کنید تا زبانه

نتيجه گيری

ما متوجه شده است که هنگامی که داده های آموزشی است که نادیده برخی از شایع آماده سازی داده ها توصیه های فرستاده شده در آموزش های کیفیت, MT خروجی به طور قابل توجهی بهبود می بخشد. اما یک نکته وجود دارد. اگر آستانه آموزش داده است که کمتر از 100,000 بخش های زیر است یا نه پیروی از توصیه های بالا را کم و یا هیچ تفاوت. برتر NMT سیستم نیاز به یک جسم قابل ملاحظه و به طور کلی ما می بینیم که حداقل یک میلیون+ بخش مورد نیاز است.

در اینجا این است که یک مجموعه کوچک از جملات مختلف از حوزه های زیر ارائه شده است به عنوان اثبات کیفیت خروجی با استفاده از این تکنیک

در حال حاضر غربال این مخلوط.=હવે આ મિશ્રણને ગરણીથી ગાળી લો.

آن است که خشونت و خشونت گناه است.=હિંસા કહેવાય અને હિંસા પાપ છે.

جوانان نا امید شده بودند و عصبانی است.=યુવાનો નિરાશ અને ક્રોધિત હતા.

به دو مزیت است.=ચાંલ્લો કરીને ખીર પણ ખવડાવી.

شباهت بین مودی و Mamata=મોદી અને મમતા વચ્ચેનું સામ્ય

من یک فن بزرگ از Bumrah.=હું બુમરાહનો મોટો પ્રશંસક છું.

38 نفر کشته شدند.=તેમાં 38 લોકોના મોત થયા હતા.

غریبه آمد و پرسید.=અજાણ્યા યુવકે આવીને પૂછ્યું.

جت در حال حاضر 1,300 خلبانان.=હવે જેટની પાસે 1,300 પાયલટ છે.

====================================================================

Raymond دکترگذرانده بیش از یک دهه در مرکز توسعه محاسبات پیشرفته (C-DAC) در پونا هند است. او یک پیشگام در دیجیتال هندی زبان کار می کنند و درگیر شد در چندین هندی زبان ان بر اساس ابتکارات و تحقیقات انجام شده در پیشبرد هندی زبان Parsers, تقسیم بندی, پردازش زبانهای طبيعی ناشی, Lemmatization, NER, Chunking ترجمه ماشینی و نظر معدن.

tinyurl bitly is.gd clck.ru ulvis.net cutt.ly shrtco.de