-
Notifications
You must be signed in to change notification settings - Fork 10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
پیشنهاد #43
Comments
در واژه نامه بیجنخان هم مواردی را دیدهام که به عنوان واژه خارجی وارد شدهاند. واژههایی با برچسب
عملا امکان پذیر نیست. من استقبال میکنم اگر امکان داشته باشد راه حلی برای این موضوع پیدا شود. بیشتر هدف من این بود که این واژهها پسوندهایی مانند «ها» جمع قبول نکنند و تنها به شکل مفرد از لحاظ املایی درست تشخیص داده شوند.
امکان دارد بیشتر توضیح بدهید؟ |
ببینید، اینکه بیجنخان هم چنین تفکیکی قائلشده دلیل بر صحیحبودن این کار نیست. من بعید میدونم اگه شما از بیجنخان بپرسید هم بتونه برای تمایز وامواژهها معیار عینیای ارائه کنه. مطمئنن یک چنین اطلاعاتی میتونه مفید باشه اما وقتی عینیبودن چنین تمایزی زیرسوال هستش باعث میشه که محصول نهایی یه محصول یکدست و منسجم نباشه. |
ابتدا که این پروژه را شروع کردم فقط به فکر ساختن یک غلطیاب فارسی بودم. اما کار از آنچه فکر میکردم سختتر شد. ناچار شدم از آواهای کلمات برای برخی واژگان استفاده کنم. برای مثال اگرچه اینجا بود که به ذهنم رسید باید یک دادگان فارسی به همراه رشتههای آوایی آنها داشته باشم. |
با سلام و احترام
من متوجه شدم که بخشی از واژهها رو بهعنوان واژههای خارجی توی دادههاتون متمایز کردید. الیته این کار بهصورت کامل انجام نشده و تنها مقدار کمی از دادهها بهاین صورت هستند. خواستم پیشنهاد کنم که واژههای خارجی رو متمایز نکنید، چراکه تنها در صورتی میتونید چنین تمایزی رو در دادههاتون قائل بشید که تمایز ریشهشناختی براشون قائل بشید. مثلن واژه «زمان» یک واژه آرامی هست، واژه «کلید» یونانی و واژه «صابون» لاتین است. بااین حال هیچ یک از سخنگوهای زبان فارسی و حتا بسیاری از زبانشناسها از چنین اطلاعات ریشهشناختیای اطلاع ندارند. شما اگر بخواهید واژههای خارجی رو متمایز کنید یا باید از اطلاعات فارسی باستان استفاده کنید یا اگر بخواهید واژههای خارجی اخیر رو متمایز کنید، باید یک معیار عینی برای این «اخیر بودن» ارائهکنید که دستیابی به چنین معیار عینیای اگه غیرممکن نباشه، ساده نیست.
من توی دادهها متوجه شدم که در بعضی از واژهها التقای واکهای وجود داره که میتونه بعدها براتون مشکل ایجادکنه.
پیشنهاد میکنم توی واجنویسی واژهها تقطیع هجایی رو هم لحاظ کنید. چنین چیزی میتونه مانع از مشکلاتی نظیر التقای واکهای بشه.
The text was updated successfully, but these errors were encountered: