در یک فانک در مورد جایگزین ارزشیابی دوزبانه

این مطلب وزین نسخه از یک پست وبلاگ توسط Pete Smith و هنری اندرسون دانشگاه تگزاس در آرلینگتون در حال حاضر منتشر شده در SDL.com. آنها توصیف نتایج اولیه از یک پروژه تحقیقاتی آنها در حال انجام در MT سیستم کیفیت اندازه گیری و مسائل مربوط به.

MT کیفیت, اندازه گیری, انسان, ترجمه کیفیت اندازه گیری شده است دشوار و چالش برانگیز موضوع برای هر دو صنعت ترجمه و برای بسیاری از MT محققان و توسعه دهندگان سیستم های به عنوان شایع ترین استفاده از متریک جایگزین ارزشیابی دوزبانه در حال حاضر کاملا به طور گسترده ای درک به خصوص محدود ارزش با NMT سیستم.

بسیاری از متن های دیگر-تطبیق ان به ثمر رساند اقدامات فقط به عنوان مظنون و پزشکان تمایلی به اتخاذ آنها را به عنوان آنها هستند یا دشوار است برای پیاده سازی و یا تفسیر مشکلات و تفاوت های ظریف از دیگر این اقدامات به خوبی درک نمی شود. همه آنها می تواند تولید یک عددی نمره, بر اساس های مختلف محاسبات از دقت و به یاد بیاورید که نیاز به تفسیر ، اکثر کارشناسان می گویند که تنها قابل اعتماد اقدامات آن انجام شده توسط صالح انسان و به طور فزاینده ای بهترین شیوه نشان می دهد که اعتماد-اما-بررسی رویکرد بهتر است. وجود دارد بسیاری از تغییرات سطحی دقیق اقدامات امروز در دسترس است اما در بررسی دقیق تر همه آنها فاقد عناصر مهم را به آنها به طور کامل قابل اعتماد و ادم.

بنابراین به همان اندازه به عنوان جایگزین ارزشیابی دوزبانه نمرات خورد ما همچنان به استفاده از آنها پس از برخی و یا شاید حتی بسیاری از ما آنها را درک کنید. متاسفانه بسیاری هنوز هیچ سرنخی واقعی به خصوص در صنعت ترجمه.

من تعجب می کنم که گاهی اوقات اگر این همه احساس وحشت و نگرانی در مورد MT کیفیت اندازه گیری است much ado about nothing. ما در واقع نیاز بسیار خشن شاخص های تن با کیفیت را قضاوت مناسب در کسب و کار استفاده از موارد اما با در نظر گرفتن این عنوان نمرات نهایی شاخص های کیفیت واقعی مشکل ساز است. این احتمال وجود دارد که بالای 5 یا حتی 10 صفحه سیستم اساسا معادل در نظر MT کیفیت تاثیر بر اهداف کسب و کار. تفاوت واقعی در کسب و کار تاثیر می آید از رانندگان دیگر: صلاحیت, تجربه, فرآیند بهره وری و کیفیت اجرا.

من استدلال می کنند که حتی برای محلی سازی موارد استفاده کلی روند طراحی و سایر عوامل مهم تر از تن خروجی با کیفیت.

همانطور که ما گفته اند قبل از تکنولوژی دارای ارزش زمانی که به آن تولید کسب و کار مطلوب نتایج حتی اگر این نتایج را می توان تا حدودی به چالش کشیدن به اندازه گیری با یک دقیق و معنی دار درجه. تن است یک تکنولوژی است که به ندرت اما حتی در آن نقص می تواند با ارائه ارزش بزرگ به یک شرکت با یک حضور جهانی. MT سیستم های بهتر جایگزین ارزشیابی دوزبانه یا Lepor نمرات لزوما به تولید نتایج بهتر کسب و کار. من استدلال می کنند که یک شرکت می تواند با استفاده از تقریبا هر "جدی" MT سیستم بدون هیچ گونه تاثیر نهایی کسب نتیجه.

این بیشتر روشن با تجارت الکترونیک و جهانی خدمات مشتریان و پشتیبانی و استفاده از موارد که در آن با استفاده از MT می تواند بسیار به سرعت در حال عملکرد قابل توجهی ROI.

"بی فشار برای ترجمه ماشيني کمک کرده است این شرکت افزایش آمریکای لاتین صادرات نزدیک به 20 درصد به گفته محققان از موسسه تکنولوژی ماساچوست و نشان می دهد پتانسیل برای افزایش فعالیت های تجاری به عنوان ترجمه به دست آوردن فن آوری های گسترده تر تصویب در کسب و کار است."

MT استقرار مورد استفاده ارائه به اشتراک گذاشته شده توسط پزشکان که با استفاده از MT به ترجمه حجم زیادی از مرکز آموزش پشتیبانی محتوا نشان می دهد که آنچه مهم است این است که آیا محتوای کمک می کند تا مشتریان در سراسر جهان را وادار به پاسخ هایی که حل مشکلات سریع تر است. ترجمه با کیفیت مهم است اما تنها اگر آن را کمک می کند تا understandability. در دنیای دیجیتال با سرعت بسیار مهم است و اغلب مهم تر است.

برخی از 100,000 خریداران ارز در مجموع 2 میلیارد متن ترجمه شده پیام های هر هفته در Alibaba.com جهانی-تجارت پلت فرم. این سرعت و حجم از ارتباطات است که فعال شده توسط MT فعال کردن سطوح جدید تجارت جهانی و تجارت است. چگونه بسیاری از این پیام ها آیا شما فکر می کنم مناسب ترجمه ؟

یک زبانه پشتیبانی زنده, عامل که می تواند خدمات به هزاران نفر از مشتریان جهانی در هفته چرا که او/او می تواند به سرعت درک سوال و ارسال مرتبط و مفید محتوا پشتیبانی به مشتری با استفاده از MT یک مثال دیگر است. توانایی به انجام این کار در حجم و مهم تر از زبانی کیفیت.

پس انتخاب درست تکنولوژی MT یا راه حل پایین خواهد آمد بسیار بیشتر شرکت مربوطه مسائل مانند:

امنیت اطلاعات و حریم خصوصی
سازگاری به سرمایه گذاری منحصر به فرد اصطلاحات و موارد استفاده
مقیاس پذیری - از میلیاردها کلمات به هزاران نفر در هر ساعت
استقرار انعطاف پذیری - در-فرض ابر و یا ترکیبی از هر دو
ادغام با کلید آن زیرساخت ها و سیستم عامل
در دسترس بودن متخصص مشاوره و خدمات تخصصی
فروشنده تمرکز بر SOTA
MT سیستم مدیریت
هزینه
فروشنده شهرت مشخصات و حساب شرکت قابلیت های مدیریت

Pete Smith خواهد شد ارائه جزئیات بیشتر را مطالعه پژوهش در SDL اتصال در ماه آینده.

===============

کمی وجود دارد بحث: دستگاه ترجمه تحقیقات و پزشک جوامع در funk در مورد جایگزین ارزشیابی دوزبانه. از های اخیر آموزشی برای حرفه ای مصاحبه علمی و نشریات جایگزین ارزشیابی دوزبانه است که به نام فرش خود را برای ویژگی های کاستی در این صورت به سرعت در حال توسعه زمینه و همچنین عدم بینش را فراهم می کند به های مختلف مصرف کنندگان از جمله خریداران MT خدمات و یا سیستم.

جایگزین ارزشیابی دوزبانه خود را استفاده می شود به طور گسترده ای به خصوص در تن جامعه پژوهش به عنوان یک نتیجه اندازه گیری برای ارزیابی MT. در عین حال حتی در آن محیط قابل توجهی وجود دارد بازنگری و ارزیابی مجدد از متریک و جایگزین ارزشیابی دوزبانه فعال بوده است و موضوع بحث مهم و تحقیق و پژوهش برای برخی از سالها از جمله چالش های ارزیابی ترجمه خودکار در سراسر زبان شناسی طیف و به خصوص در موارد مورفولوژی غنی زبان. و این موضوع محدود نمی شود البته به ترجمه ماشيني—متریک نیز یک موضوع در ان و زبان نسل بحث به طور کلی.

جایگزین ارزشیابی دوزبانه نقاط قوت و کاستی ها به خوبی شناخته شده است. در هسته ی اصلی آن جایگزین ارزشیابی دوزبانه است یک رشته مطابق با الگوریتم برای استفاده در ارزیابی MT خروجی است و نه فی نفسه یک اندازه گیری از کیفیت ترجمه. که گفت:, در اینجا شکی نیست که خودکار و یا محاسبه متریک هستند از ارزش های بزرگ به عنوان مجموع جهانی MT خروجی روش سطح یک تریلیون کلمات در هر روز.

و چند استدلال می کنند که در تولید و ارزیابی MT یا ترجمه به طور کلی در زمینه مسائل. A general-purpose, عمومی رو تن موتور طراحی شده برای پوشش گسترده ای در میان کاربران و استفاده از موارد است که فقط منظوره و به احتمال زیاد بیشتر به چالش کشیده چندساله منبع چالش های زبان مانند دامنه خاص style/اصطلاحات زبان رسمی استفاده تغییرات زبان های منطقه ای و مسائل دیگر.

این هیچ راز است که بسیاری از تن محصولات آموزش (حداقل در ابتدا) در دسترس عموم داده های تحقیق که وجود دارد به طور کلی واقعی موضوعی تعصبات در آن می دهد. اخبار وقایع کنونی دولتی و پارلمانی مجموعه داده های در دسترس هستند در سراسر آرایه گسترده ای از جفت زبان و همچنین مقادیر کمتر از داده ها از حوزه های حقوقی, سرگرمی و سخنرانی منبع مواد مانند مذاکرات TED. به طور فزاینده مجموعه داده موجود در آن و ویژگی های دامنه دارد اما در چند مکان دو زبانه مجموعه داده موجود است که مناسب برای کسب و کار عمده برنامه های کاربردی از تکنولوژی MT مانند تجارت الکترونیکی ارتباط و همکاری و یا خدمات به مشتریان است.

محققان و پزشکان اعمال همه بهره مند از این عموم منابع موجود است. اما در مورد وضوح است که شاید بیشتر مشهود در MT پزشک جامعه است.

برای مثال مشتریان شرکت امیدوار به خرید ماشین آلات خدمات ترجمه به صورت یک معضل: چگونه ممکن است سازمانی ارزیابی یک تن محصول یا خدمات خود را برای دامنه خاص و با بیشتر نکات دقیق وظریف و عمق نسبت به سادگی با تکیه بر بازاریابی مواد مباهات نمرات و یا سود در جایگزین ارزشیابی دوزبانه یا LEPOR? چگونه ممکن است شما ارزیابی عمده فروشندگان MT خدمات خاص به خود را مورد استفاده و نیاز است ؟

و به عنوان یک عامل پیچیده ما می دانیم که میزان افزایش در مورد "چرایی" و "چیستی" از fine-tuning منظوره موتور به انجام بهتر در شرکت موارد مانند e-commerce لیست محصول و پشتیبانی فنی و, مرکز آموزش, مطالب, رسانه های اجتماعی, تحلیل و بازخورد کاربر/بررسی است. در خصوص خام "گفتارها" از مشتریان و پشتیبانی از مشتری پرسنل در این تنظیمات زبان معتبر با همه آن "messiness."

این UTA گروه تحقیقاتی اخیرا کاوش MT عملکرد موتور در پشتیبانی از مشتری, مطالب, ساختمان, تخصصی, تست مجموعه ای گردآوری شده از منبع corpora از جمله ایمیل و مشتری, ارتباطات, ارتباطات از طریق رسانه های اجتماعی و پشتیبانی از مشتری آنلاین. به طور خاص ما به بررسی استفاده از اتوماسیون و استاندارد NLP-سبک قبل از پردازش به سرعت در حال ساخت یک نماینده ترجمه مجموعه آزمون به صورت متمرکز مورد استفاده.

در شروع یک مجموعه اولیه از حدود 3 میلیون انگلیسی جمله رشته های مرتبط با شرکت ارتباطات و همکاری انتخاب شدند. منبع corpora به نمایندگی از وظایف مانند ایمیل ارتباط مشتری, ارتباطات, ارتباطات از طریق رسانه های اجتماعی و پشتیبانی از مشتری آنلاین.

نامزد جمله رشته از این بزرگتر corpora تنگ شد از طریق یک جمله خوشه بندی روش آموزش FastText مدل در ورودی اسناد و مدارک را به تصرف هر دو معنایی و غیر معنایی (زبانی) خواص corpora. به برخی از حس های زبانی امکانات در نظر گرفته شده در رشته, انتخاب corpora عناصر بودند تجزیه با استفاده از spaCy پردازش زبان طبیعی کتابخانه بزرگترین فارسی مدل در نظر گرفتن ویژگی های در یک رشته مانند شماره از "توقف"; تعداد نشانه که punctuation, اعداد, آدرس ایمیل, آدرس آلفا-تنها و خارج از واژگان; تعداد منحصر به فرد lemmas و orthographic فرم شماره از نام اشخاص; تعداد دفعاتی که هر نهاد نوع part-of-speech برچسب و وابستگی رابطه به نظر می رسد در متن; و تعداد tokens. بعدی کاهش و خوشه بندی استفاده شد در پایان به نتیجه در 1050 فارسی-رشته زبان به صورت پایه قرار دادی تست مجموعه ای.

رشته ها از ساخته مجموعه شد ترجمه به هفت زبان (به فرانسوی, آلمانی, هندی, کره ای, پرتغالی, روسی, اسپانیایی) توسط مترجمان حرفه ای. سپس ترجمه جملات از مجموعه ای از تست استفاده شد به عنوان ترجمه دهید در هفت جفت زبان (انگلیسی به فرانسوی, انگلیسی به آلمانی, انگلیسی-هندی, انگلیسی-کره ای, انگلیسی به پرتغالی, انگلیسی به روسی, انگلیسی-اسپانیایی) توسط چهار, عمده دسترس عموم MT موتورهای طریق API یا رابط وب. در هر دو جسم را به عنوان به خوبی به عنوان فردی رشته سطح جایگزین ارزشیابی دوزبانه شهاب و TER امتيازات تولید شده برای هر یک از عمده موتور و جفت زبان (نه همه از هفت زبان نشان داده شد در تمام موتور محصولات).

ما کلی سوال شد: آیا جایگزین ارزشیابی دوزبانه (یا هر یک از دیگر خودکار نمرات) پشتیبانی می گویند انتخاب موتور بیش از یک موتور B برای شرکت خرید زمانی که مورد استفاده است متمرکز بر مشتری رو و مشتری-ایجاد ارتباطات?

تا مطمئن شوید که خروجی نمرات ارائه یک تصویر مبهم. کامپوزیت نمرات منظوره موتورهای خوشه در حدود 5-8 جایگزین ارزشیابی دوزبانه امتیاز از یکدیگر در بسیاری از زبان. و اگر چه ما با استفاده از یک دامنه خاص آزمون مجموعه کمی در نتایج ارائه شده اند سرمایه گذاری در سطح مشتری با یک مسیر روشن رو به جلو است. به عنوان Kirti Vashee اشاره است به تازگی در پاسخ موثر به واقعیت های دنیای دیجیتال "5 جایگزین ارزشیابی دوزبانه امتیاز این راه یا آن ناچیز است در بالا ترین ارزش کسب و کار با استفاده از موارد."

چه هستند برخی از چالش های معتبر, مشتری, زبان ؟ دو شناخته شده به چالش می کشد به تن شامل تشریفات/درمورد زبان گفتاری و احساسی محتوا. دو-پانچ غیر رسمی و احساسات مملو از مشتری گفتارها مطرح به خصوص به چالش کشیدن صورت.

همانطور که ما مورد بررسی در اخیر وبینار مشتری-تولید رشته در حمایت از مکالمات و یا تعاملات آنلاین در حال حاضر یک مترجم با انواع عبارات احساسات لحن شوخی طعنه تمام جاسازی شده در داخل یک غیر رسمی تر و اینترنت-تاثیر سبک زبان. برخی از نمونه ها شامل:

حمایت از...I f***ing همه شما متنفرم. [نه redacted در اصلی است.]
کسانی که در اواخر تحویل روز رفتن "از دست رفته" زیادی است.
جواب منفی بود't به نوبه خود...فقط به عنوان انتظار می رود...در حال حاضر چه شخص?
من احساس می کنم شما باید خوب استراحت از روز خود را!
به طور جدی این خوب است.
یک دسته از روبات ها که تکرار همان چیزی که بارها و بارها.
#howdoyoustayinbusiness

در اینجا می توانید به سرعت ببینید که چگونه یک موتور روت در درجه اول با رسمی دولتی و یا روزنامه منبع خواهد بود به سرعت به چالش کشیده است. اما در نتایج اولیه تلاش ما برای باز کردن این مسائل چگونه MT ممکن است انجام احساسی مطالب (به عنوان مثال, اخبار حقوقی, و یا ویژگی های محتوا) ارائه بینش کمی به تاریخ. یافته های اولیه نشان می دهد کمی جای تعجب تعامل بین استاندارد رتبه بندی از تمایلات و احساسات اجرا بر روی مجموعه ای از تست های فردی رشته (VADER, مثبت, منفی, خنثی, کامپوزیت و آی بی ام تن و تحلیل) و واريانس در پایین جایگزین ارزشیابی دوزبانه نمرات.

جالب اینکه در کنار ما در اوایل کار خام جایگزین ارزشیابی دوزبانه نمرات در سراسر زبان برای کل مجموعه آزمون را به طور کلی مرتبط نسبتا بسیار با شهاب نمرات. اگر چه این همبستگی است که انتظار می رود قدرت ارتباط بود تعجب آور در یک NMT زمینه به عنوان بالا به عنوان r=.9 در سراسر 1000+ رشته ها در یک جفت زبان. اگر به عنوان استدلال NMT به ارمغان می آورد نقاط قوت در تسلط که شامل عناصر شهاب ثمر است, طراحی شده توسط, حساس تر (مانند مترادف یا paraphrasing) یکی ممکن است انتظار می رود که همبستگی به ضعیف تر است. به طور گسترده تر این سوال و سوالات دیگر در اطراف اتوماتیک بررسی سابقه طولانی در نظر گرفتن توسط MT و WMT جوامع است.

یکی به وضوح در حال ظهور عمل در این زمینه است که به ترکیب خودکار متریک مانند جایگزین ارزشیابی دوزبانه همراه با انسان ارزیابی کوچکتر مجموعه داده برای تایید و اطمینان دهم که خودکار معیارهای مفید هستند و ارائه بینش انتقادی به خصوص اگر این ارزیابی مورد استفاده برای مقایسه MT سیستم. Kirti Vashee ردن Lavie و دانیل Marcu همه نوشته شده در این موضوع شده است.

بنابراین در حال توسعه درک متفاوت از ارزش جایگزین ارزشیابی دوزبانه ممکن است به عنوان خودکار نمرات به عنوان دیده می شود در ابتدا مفید در طول MT تحقیق و توسعه سیستم که در آن آنها تا کنون به طور گسترده ذکر شده در استاندارد است. اخیر ترجمه ماشيني اجلاس هفدهم در دوبلین به عنوان مثال تا به حال تقریبا 500 اشاره یا ارجاع به جایگزین ارزشیابی دوزبانه در تحقیق و دادرسی به تنهایی.

اما این اقدام ممکن است به طور بالقوه کمتر دقیق و یا روشنگری که به طور گسترده در مقایسه های مختلف MT سیستم های درون پزشک و شاید بیشتر روشنگری دوباره به هر دو محقق و پزشک زمانی که زوج با انسان و یا دیگر اعتبار. به عنوان یکی از اوایل تن محقق شده است خاطر نشان کرد: "جایگزین ارزشیابی دوزبانه آسان است به انتقاد از, اما سخت به دور از!"

بحث در اخیر TAUS جهانی محتوای کنفرانس 2019 بیشتر توسعه ایده های MT موتور تخصص در زمینه شرکت مدرن محتوا گردش کار. مجریان مانند SDL و دیگران ارائه شده انداز آینده چشم انداز توسعه محتوای شخصی و استفاده در چند زبانه جهان است. این آینده گردش ممکن است حاوی صدها یا هزاران تخصصی ویژه آموزش دیده و منحصر به فرد حفظ ترجمه خودکار موتور و سایر الگوریتم های زبانی به عنوان محتوای ایجاد شده است موفق ارزیابی و منتشر شده در سطح جهان است.

شکی نیست که خودکار بررسی ترجمه را ادامه خواهد داد به بازی در یک نقش کلیدی در این چشم انداز در حال ظهور. درک بهتری از میدان را عملا معیارهای و گسترده تر MT فرآیند ارزیابی در این زمینه است که به وضوح ضروری است.

و آنچه از موارد استفاده است که در ادامه به ظهور مانند امکان هوشمند و یا MT محتوا در فضای آموزشی? این UTA گروه تحقیقاتی همچنین کاوش در کوه های کاربردی خاص به آموزش و پرورش و آموزش عالی نیز هست. برای مثال میلیون ها نفر از کاربران روزانه استفاده از مواد آموزشی مانند MOOCs—محتوای آموزشی که جذب کاربران در سراسر مرزهای زبان و فرهنگ. بخش قابل توجهی بین المللی آموزان آمده و به طور بالقوه مبارزه با محتوا به زبان انگلیسی در edX و یا دیگر MOOC, دوره—و هزاران نفر از MOOC ارائه شده در جهان وجود دارد این زبان ترجمه نشده برای فارسی زبانان. چه نقشی ممکن است ترجمه ماشيني به طور بالقوه در این آموزشی تلاش?

دکتر Pete Smith, رئیس تجزیه و تحلیل افسر و استاد

آقای هنری اندرسون دانشمند داده

محلی سازی و ترجمه برنامه

گروه زبان های مدرن و دفتر دانشگاه تجزیه و تحلیل

دانشگاه تگزاس در آرلینگتون

ترجمه مقاله

tinyurl rebrandly bitly