نسرین براتعلی پور؛ هشام فیلی؛ آزاده شاکری
دوره 8، شماره 30 ، مهر 1391، ، صفحه 21-36
چکیده
پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بینزبانی است. لازمه استفاده از این پیکرهها همترازی آنها در سطح جمله است، اما جمعآوری و یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری ...
بیشتر
پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بینزبانی است. لازمه استفاده از این پیکرهها همترازی آنها در سطح جمله است، اما جمعآوری و یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری پیکرههای موازی از وب و همترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقهبند بیشترین پراکندگی جملات موازی استخراج میشود. یکی از ویژگیهای جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزههای متفاوت معنایی است.