چالش منبع باز MT

این خام برای اولین بار پیش نویس و کمی دیگر درهم و برهم نسخه از یک پست در حال حاضر منتشر شده در SDL.COM.تن در ن

توسط MINERALNEWS در 17 دی 1398
این خام برای اولین بار پیش نویس و کمی دیگر درهم و برهم نسخه از یک پست در حال حاضر منتشر شده در SDL.COM.

تن در نظر گرفته شده است یکی از سخت ترین مشکلات در کل هوش مصنوعی و یادگیری ماشین میشه. در زمینه هوش مصنوعی سخت ترین مشکلات غیررسمی شناخته شده به عنوان هوش مصنوعی-کامل مشکلاتبنحوی که مشکل از این مشکلات محاسباتی معادل آن است که حل مرکزی هوش مصنوعی مشکل است که در ساخت رایانه به عنوان هوشمند به عنوان مردم است. این جای تعجب نیست که نوع بشر شده است کار بر روی این مشکل برای تقریبا 70 سال در حال حاضر و هنوز هم کاملا فاصله از داشتن حل این مشکل است.

"به ترجمه دقت یک ماشین باید قادر به درک متن. باید آن را قادر به دنبال نویسنده استدلال پس از آن باید برخی از توانایی به دلیل. باید آن را گسترده جهان دانش به طوری که آن را می داند آنچه که مورد بحث — آن را باید حداقل آشنایی با تمام همان عرف عام حقایق است که متوسط مترجم انسان می داند. برخی از این دانش در قالب حقایق است که می تواند به صراحت نشان داده اما برخی از دانش ناخودآگاه است و نزدیک به بدن انسان: به عنوان مثال دستگاه ممکن است نیاز به درک چگونه یک اقیانوس باعث می شود یک احساس به دقت ترجمه خاص استعاره در متن. آن را نیز باید مدل نویسندگان اهداف و نیات و حالات عاطفی به دقت تکثیر آنها را در یک زبان جدید است. در این دستگاه مورد نیاز است که طیف گسترده ای از انسان مهارت های فکری از جمله دلایل عام دانش و شهودهای که زمینه ساز حرکت و دستکاری ادراک و هوش اجتماعی.

ترجمه ماشينيبنابراین اعتقاد بر این است هوش مصنوعی-کامل است."
گزیده ای از ویکیپدیا
 
یکی از این اسطوره ها که به نظر می رسد غالب در محلی سازی جهان امروز است که هر کسی با ذخیره کردن از حافظه ترجمه داده ها به راحتی می توانید توسعه و ایستاده-تا یک تن سیستم با استفاده از یکی از بسیاری از منبع باز ابزار یا DIY (انجام آن را) و راه حل های که در دسترس هستند. ما در زمانی زندگی میکنیم که در آن وجود دارد گسترش open source یادگیری ماشین و هوش مصنوعی مرتبط با توسعه سیستم عامل است. مردم بر این باورند که با توجه به برخی از داده ها و چند, کامپیوتر, کاربردی و مفید MT سیستم را می توان توسعه یافته. اما به عنوان بسیاری از کسانی که تلاش کرده اند باید متوجه این واقعیت بسیار پیچیده تر است و در این مسیر به موفقیت طولانی و پیچ در پیچ و گاهی اوقات حتی خائنانه است. برای یک سازمان به موفقیت در نظر بگیرید در حال توسعه منبع باز ترجمه ماشيني راه حل به خدمت با کیفیت چند عنصر حیاتی برای نتایج موفقیت آمیز مورد نیاز است:
  1. حداقل یک شایستگی های اساسی با یادگیری ماشین تکنولوژی
  2. درک درستی از طیف گسترده ای از اطلاعات مورد نیاز و مورد استفاده در ساختمان و توسعه MT سیستم
  3. درک مناسب و آماده سازی داده ها و اطلاعات بهینه سازی فرآیندهای مورد نیاز برای به حداکثر رساندن موفقیت
  4. توانایی درک و اندازه گیری و پاسخ به موفق و شکست با نتایج مدل سازی است که بخش بسیار زیادی از فرایند توسعه
  5. درک درستی از پشتیبانی های اضافی ابزار و وصل جریان داده ها زیرساخت های مورد نیاز برای ایجاد MT خدمت در شرکت مقیاس.

بسیار بزرگ اکثریت منبع باز MT تلاش های شکست در که آنها را به طور مداوم تولید خروجی است که مساوی یا بهتر از هر به راحتی قابل دسترسی عمومی MT راه حل و یا آنها نمی تواند مستقر در قوی و شیوه ای موثر.

این است که می گویند که این ممکن نیست اما سرمایه گذاری و تعهد دراز مدت مورد نیاز برای موفقیت اغلب دست کم گرفته و یا به سادگی به درستی درک نشده است. یک مورد همیشه می تواند ساخته شده به صورت خصوصی سیستم های که ارائه کنترل بیشتر و امنیت, حتی اگر آنها به طور کلی کمتر دقیق از MT گزینه های. اما در بومی سازی صنعت ما می بینیم که اگر "رایگان" MT راه حل ها در دسترس هستند که نسبت به یک LSP ساخته شده است سیستم مترجمان را ترجیح می دهم به استفاده از آن. ما همچنین پیدا کنید که برای تعداد کمی از این خود را توسعه MT سیستم که آیا تولید مفید خروجی با کیفیت و بزرگتر ادغام و یکپارچه سازی داده مسائل اغلب مانع و در نتیجه دشوار است برای استقرار در شرکت مقیاس و نیرومندی.

برخی می گویند که کسانی که چشم پوشی از درس تاریخ محکوم به تکرار اشتباهات. چندی پیش هنگامی که موسی دكتر سيد محمد تقي toolkits منتشر شد ما شنیده رهبران صنعت " ادعا می کنند "اجازه دهید یک هزار تن سیستم های بلوم" اما با نگاهی به گذشته آیا بیش از یک تعداد انگشت شماری زنده ماندن فراتر از آزمایش فاز?

به همین دلیل است که با تکیه بر منبع باز دشوار برای سرمایه گذاری استفاده می کنید ؟


دولت از-هنر ترجمه ماشيني و پایه فن آوری به طور مداوم در حال تحول و پزشکان نیاز به درک و ماندن در حال حاضر با تحقیقات به سیستم های ماندگار در استقرار. طولانی پایدار و ثابت تعهد مورد نیاز است فقط به ماندن بگیرید پهلو به پهلو.

منf عمومی MT به راحتی می توانید بهتر از خانه ساخته شده در سیستم وجود دارد که انگیزه کمی برای کارکنان و همکاران به استفاده از این خانه سیستم و در نتیجه ما به احتمال زیاد برای دیدن rogue رفتار که در آن کاربران را رد خواهد کرد در سیستم خانه و یا دیدن کاربران مجبور به استفاده از sub-استاندارد سیستم های. این درست است به خصوص برای MT سیستم در محلی سازی استفاده از موارد که در آن بالاترین کیفیت خروجی خواستار است. تولید سیستم های که به طور مداوم انجام به عنوان مورد نیاز نیاز به تخصص عمیق و گسترده ای را تجربه کنند. که اغلب نادیده گرفته دلیل برای شکست این است که به خودتان آن را انجام, آن است که لازم برای درک کرده اند و برخی از پایه تخصص با عناصر مختلف در داخل و اطراف ماشین یادگیری فن آوری است. بسیاری از آیا آن را به خودتان نمی دانید که چگونه به انجام این کار بیش از هر بار TM به یک چارچوب منبع باز.

در حالی که منبع باز می کند در واقع دسترسی به الگوریتم های مشابه بسیاری از مهارت های واقعی در ساختمان MT سیستم است که در تجزیه و تحلیل داده ها داده ها و آماده سازی و پاک کردن داده ها برای اطمینان حاصل شود که الگوریتم های یادگیری از یک صدای با کیفیت پایه و اساس است. ماهرانه ترین توسعه دهندگان همچنین درک نیازهای منحصر به فرد از موارد استفاده متفاوت است و ممکن است توسعه ابزارهای اضافی و فرآیندهای برای تقویت و افزایش MT وظایف مربوط. اغلب اوقات بلند کردن اجسام سنگین برای استفاده های بسیاری موارد انجام شده در خارج و اطراف عصبی MT مدل درک الگوهای خطا و در حال توسعه استراتژی برای حل و فصل آنها.

اقامت پهلو به پهلو یک چالش است

بیش از چند سال گذشته درک درستی از آنچه "بهترین NMT الگوریتم" هستند اتحادش را تغییر به طور منظم. یک دستگاه سیستم ترجمه است که مستقر در یک شرکت مقیاس نیاز به یک "در" تعهد دراز مدت و یا آن را محکوم خواهد شد به یک تجربه شکست خورده:

  • ساختمان تیم مهندسی است که درک آنچه تحقیقات بیشتر معتبر و مربوطه و سپس به روز رسانی و طراوت موجود در سیستم های قابل توجهی مداوم و بلند مدت سرمایه گذاری.
  • با نگه داشتن تکامل در تحقیقات جامعه نیاز به ثابت آزمایش و تست است که اکثر پزشکان سخت را پیدا خواهد کرد به توجیه.
  • پزشکان باید بدانند که چرا و هنگامی که به تغییر به عنوان تکنولوژی تکامل می یابد و یا در معرض خطر بودن گیر با sub-optimal سیستم.
منبع باز طرح که ظهور در محيط های علمی مانند موسی و نیز رویارویی با چالش ها. آنها اغلب دچار رکود هنگامی که کلید دانش آموزان بودند که شرکت در راه اندازی اولیه مزایای فارغ التحصیل و در حال استخدام به دور است. کلید تیم تحقیقاتی همچنین ممکن است حرکت به تحقیقات دیگر که علمی تر قد و قامت و بالقوه است. این تغییر اولویت ها می تواند نیروی DIY MT پزشکان به سوئیچ toolkits در هزینه های بزرگ هم از نظر زمان و کار برکنار منابع هزینه.
 
برای درک بهتر این موضوع از پایه منبع باز MT toolkit در صورت شرکت MT قابلیت مورد نیاز در نظر بگیرید که چرا یک سازمان را انتخاب کنید به استفاده از یک شرکت درجه سیستم مدیریت محتوا (CMS) برای راه اندازی یک وب سایت شرکت به جای استفاده از یک ابزار مانند وردپرس. در حالی که هر دو سیستم می تواند مفید باشد در کمک به سازمان ساخت و استقرار یک وب سایت شرکت, حضور شرکت های سیستم های مدیریت محتوا هستند به احتمال زیاد به ارائه قابلیت های تخصصی است که آنها را بسیار مناسب برای استفاده شرکت.
 
 
تخصص عمیق با MT به دست آورد در طول زمان با ساختن هزاران نفر از سیستم های متنوع در سراسر موارد استفاده و زبان ترکیب. آیا ما واقعا بر این باورند که یک تبادل نظر پزشک که به ساخت چند ده سیستم خواهد شد که همان بینش و تخصص ؟ تخصص و بینش به دست آورد به زحمت در طول زمان است. آن را بسیار آسان "به تن بد" و کاملا به چالش کشیدن آن را خوب است.

 به عنوان جهانی ارتباطات و همکاری و به اشتراک گذاری محتوا ضرورت خواستار دیجیتال مدرن طرح های تحول به خوبی درک بسیاری از شرکت های ببینید که تن است که در حال حاضر بحرانی تکنولوژی بلوک ساختمان را قادر می سازد که بهتر DX. وجود دارد بسیاری از نیازهای تخصصی از جمله اطلاعات امنیتی و محرمانه بودن انطباق کسب و کار های مختلف موارد استفاده و توانایی استقرار سیستم های طیف گسترده ای از سرمایه گذاری با استفاده از حالات. تن است که به طور فزاینده ای به یک ماموریت حیاتی تکنولوژی برای کسب و کار جهانی و نیاز به همان مراقبت و توجه است که انتخاب سازمانی, سیستم مدیریت محتوا, ایمیل و پایگاه داده سیستم انجام دهید. موضوع شرکت بهینه سازی است که به طور فزاینده ای از عناصر مهم در انتخاب این نوع از فن آوری هسته ای.

چه کلیدی مورد نیاز برای شرکت MT?

وجود دارد بیشتر به موفق MT استقرار نسبت به سادگی قادر به ساخت یک NMT مدل. یک نیاز اساسی برای موفق MT توسعه توسط این شرکت است که تجربه ای طولانی مدت با ماشین آموزش تحقیقات و فناوری در مقیاس صنعتی در این شرکت با استفاده از زمینه.

با MT واقعی کسب و کار مورد استفاده تجربه نیز مسائل پس از آن است یک تکنولوژی است که نیاز به ترکیبی از computational linguistics, اطلاعات, مدیریت, انسانی, مترجم تعامل و یکپارچه سازی سیستم های سازمانی به این زیرساخت ها برای راه حل های قوی برای توسعه می شود. بهترین شیوه تکامل از گسترده و وسیع تجربه که معمولا سالها طول می کشد برای به دست آوردن, در علاوه بر این به موفقیت با صدها اگر نه هزاران نفر از سیستم های.

این SDL MT تیم مهندسی بوده است و پیشگام در داده محور تکنولوژی MT پس از آغاز به کار خود با آماری تن در اوایل 2000s و درگیر شده است با طیف گسترده ای از شرکت استقرار در بخش های دولتی و خصوصی. عمیق تخصص که SDL ساخته شده از آن شامل ترکیب دانش به دست آمده در همه زمینه های زیر:

  • آماده سازی داده ها برای آموزش و ساختمان MT موتور به دست آورد از طریق تجربه ساخت هزاران نفر از موتورهای سراسر زبان بسیاری از ترکیبات مختلف مورد استفاده.
  • عمیق تکنیک یادگیری ماشین برای ارزیابی و درک مفید ترین و تحقیقات مربوطه در ان جامعه برای سرمایه گذاری در زمینه.
  • توسعه ابزار و معماری زیرساخت های است که اجازه می دهد تا تصویب سریع تحقیقات پیشرفت اما هنوز هم حفظ قابلیت های موجود در به طور گسترده ای مستقر سیستم.
  • Productization از دستیابی به موفقیت در تحقیقات ماموریت بحرانی deployability است که بسیار متفاوت از روند معمولی آزمایش.
  • قبل و بعد از پردازش زیرساخت ابزارهای تخصصی و قابلیت های که اضافه کردن مقدار در اطراف هسته MT الگوریتم و فعال کردن سیستم برای انجام مطلوب در شرکت استقرار تنظیمات.
  • تحقیقات در حال انجام برای انطباق با MT پژوهش به صورت بهینه استفاده شرکت به عنوان مثال با استفاده از پردازنده به جای gpu ها برای کاهش هزینه های استقرار و همچنین به عنوان سیستم هزینه و رد پای.
  • در دراز مدت تلاش بر جمع آوری داده های تمیز کردن و بهینه سازی برای یکپارچه سازی سریع و تست با الگوریتمی ایده هایی که ممکن است پدیدار شود از تحقیقات جامعه است.
  • همکاری نزدیک با مترجمان و زبان شناسان برای شناسایی و حل زبان-مسائل خاص که قادر است فرآیندهای منحصر به فرد برای توسعه به حل مشکلات منحصر به فرد در اطراف نزدیک و مرتبط با زبان است.
  • در جریان تعامل با مترجمان و اطلاع زبانی بازخورد خطا الگوهای ارائه اطلاعات ارزشمند به رانندگی مداوم بهبود در فن آوری هسته ای.
  • توسعه منحصر به فرد زبان ترکیب با اطلاعات بسیار محدود در دسترس (به عنوان مثال ZH به د) با به حداکثر رساندن تاثیر داده های موجود است. استفاده از zero-shot ترجمه (بین جفت زبان MT سیستم هرگز دیده می شود) تولید بسیار پایین-کیفیت سیستم از طریق آن بسیار اساسی interlingua اما می تواند تقویت شود و بهبود یافته هوشمند و آگاهانه اطلاعات مکمل استراتژی.
  • ادغام با ترجمه نرم افزار مدیریت و پردازش اجازه می دهد تا غنی تر پردازش زبانی کارکنان پشتیبانی.
  • ادغام با دیگر مدیریت محتوا و زیرساخت های ارتباطی اجازه می دهد تا فراگیر و تضمین اجرای MT قابلیت در تمام متن غنی نرم افزار زیرساخت ها و ابزار تجزیه و تحلیل.

خط پایین

شواهد نشان می دهد که گام گذاشتن در مدیریت خود منبع باز مبتنی بر تن ابتکار برای معدود کسانی که آماده هستند برای اینکه قابل توجهی تعهد دراز مدت و سرمایه گذاری مورد نیاز است. نتایج موفقیت آمیز نیاز به سرمایه گذاری در ساختمان تخصص نه تنها در یادگیری ماشین است اما در بسیاری از دیگر مرتبط و متصل مناطق. همان نوع از قوانین است که اعمال می شود به سرمایه گذاری تصمیم گیری در انتخاب ایمیل مدیریت محتوا و سیستم های پایگاه داده باید در اینجا اعمال می شود. به درستی به اجرا در تن است یک ابزار حیاتی است که باعث افزایش و گسترش دیجیتال جهانی رد پای سازمان است و باید آن را درمان با همان جدیت اختصاص داده شده به هر عمده ابتکار استراتژیک است.

ترجمه مقاله

tinyurlrebrandlybitly
آخرین مطالب
مقالات مشابه
نظرات کاربرن