Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

پیشنهاد #43

Open
asdoost opened this issue Jan 1, 2019 · 3 comments
Open

پیشنهاد #43

asdoost opened this issue Jan 1, 2019 · 3 comments

Comments

@asdoost
Copy link

asdoost commented Jan 1, 2019

با سلام و احترام
من متوجه شدم که بخشی از واژه‌ها رو به‌عنوان واژه‌های خارجی توی داده‌ها‌تون متمایز کردید. الیته این کار به‌صورت کامل انجام نشده و تنها مقدار کمی از داده‌ها به‌این صورت هستند. خواستم پیشنهاد کنم که واژه‌های خارجی رو متمایز نکنید، چراکه تنها در صورتی می‌تونید چنین تمایزی رو در داده‌هاتون قائل بشید که تمایز ریشه‌شناختی براشون قائل بشید. مثلن واژه «زمان» یک واژه آرامی هست، واژه «کلید» یونانی و واژه «صابون» لاتین است. بااین حال هیچ یک از سخنگوهای زبان فارسی و حتا بسیاری از زبانشناس‌ها از چنین اطلاعات ریشه‌شناختی‌ای اطلاع ندارند. شما اگر بخواهید واژه‌های خارجی رو متمایز کنید یا باید از اطلاعات فارسی باستان استفاده کنید یا اگر بخواهید واژه‌های خارجی اخیر رو متمایز کنید، باید یک معیار عینی برای این «اخیر بودن» ارائه‌کنید که دستیابی به چنین معیار عینی‌ای اگه غیرممکن نباشه، ساده نیست.
من توی داده‌ها متوجه شدم که در بعضی از واژه‌ها التقای واکه‌ای وجود داره که می‌تونه بعدها براتون مشکل ایجادکنه.
پیشنهاد می‌کنم توی واج‌نویسی واژه‌ها تقطیع هجایی رو هم لحاظ کنید. چنین چیزی میتونه مانع از مشکلاتی نظیر التقای واکه‌ای بشه.

@b00f
Copy link
Owner

b00f commented Feb 19, 2019

خواستم پیشنهاد کنم که واژه‌های خارجی رو متمایز نکنید

در واژه نامه بیجن‌خان هم مواردی را دیده‌ام که به عنوان واژه خارجی وارد شده‌اند. واژه‌هایی با برچسب ‍
FW
اینجا و اینجا

یک معیار عینی برای این «اخیر بودن» ارائه‌کنید که دستیابی به چنین معیار عینی‌ای اگه غیرممکن نباشه، ساده نیست

عملا امکان پذیر نیست. من استقبال می‌کنم اگر امکان داشته باشد راه حلی برای این موضوع پیدا شود. بیشتر هدف من این بود که این واژه‌ها پسوندهایی مانند «ها» جمع قبول نکنند و تنها به شکل مفرد از لحاظ املایی درست تشخیص داده شوند.

پیشنهاد می‌کنم توی واج‌نویسی واژه‌ها تقطیع هجایی رو هم لحاظ کنید. چنین چیزی میتونه مانع از مشکلاتی نظیر التقای واکه‌ای بشه.

امکان دارد بیشتر توضیح بدهید؟

@asdoost
Copy link
Author

asdoost commented Feb 26, 2019

ببینید، اینکه بیجن‌خان هم چنین تفکیکی قائل‌شده دلیل بر صحیح‌بودن این کار نیست. من بعید میدونم اگه شما از بیجن‌خان بپرسید هم بتونه برای تمایز وام‌واژه‌ها معیار عینی‌ای ارائه کنه. مطمئنن یک چنین اطلاعاتی میتونه مفید باشه اما وقتی عینی‌بودن چنین تمایزی زیرسوال هستش باعث میشه که محصول نهایی یه محصول یکدست و منسجم نباشه.
در مورد نوع واج‌نویسی هم یه توضیحاتی در ادامه میدم که احتمالن خیلیش رو خودتون میدونید:
تفاوت بین واج‌نویسی و آوانویسی در این هست که در واج‌نویسی صورت انتزاعی واژه نوشته میشه ولی در آوانویسی صورت ملفوظ واژه. چیزی که در فهرست شما دیده میشه رو نه میشه واج‌نویسی به‌شمار آورد و نه آوانویسی(البته به واج‌نویسی نزدیکتر هستش)
یکی از مواردی که من مشاهده کردم که باعث میشه کار شما رو آواشناسی بدونم همین التقای واکه‌ای هست (یعنی در کنار هم قرارگرفتن دو واکه) که برخلاف ساختار واجی زبان فارسی هست. مثلن توی واژه بخشوده‌ام
baxSudeam
دو تا واکه در کنار هم قرار گرفتند که ساختار واجی زبان فارسی رو نقض می‌کنه.
متوجه هستم که تو این پروژه قصد دارید تا نوشتار رو به گفتار تبدیل کنید و در چنین حالتی آوانویسی برای شما مطلوب خواهد بود، ولی چون آوانویسی متکثر هست، یعنی یه واژه می‌تونه چندین تلفظ داشته باشه، بنا رو بر آوانویسی گذاشتن شما رو با مشکل مواجه خواهدکرد.
از اونجائیکه تبدیل صورت انتزاعی (واجی) به صورت ملفوظ (آوایی) قاعده‌مند هست، برای اجتناب از چنین مشکلی به‌نظرم شما بنا رو بر واج‌نویسی بذارید و هر نوع تغییری در تلفظ رو در قالب قاعده کدنویسی کنید.
تقطیع هجایی واژه‌ها هم میتونه فهرست شما رو به‌لحاظ اطلاعاتی که به‌همراه داره، غنی کنه، و هم میتونه اگر در واج‌نویسی واژه‌ها خطایی رخ داد که به التقای واکه‌ای ختم شد یا ساختهای هجایی ناهنجار به‌همراه داشت، اخطار بده. چیزی مثل این:
bax.Su.de.?am

@b00f
Copy link
Owner

b00f commented Feb 27, 2019

ابتدا که این پروژه را شروع کردم فقط به فکر ساختن یک غلط‌یاب فارسی بودم. اما کار از آنچه فکر می‌کردم سختتر شد. ناچار شدم از آواهای کلمات برای برخی واژگان استفاده کنم. برای مثال اگرچه نگاه و خانه هر دو با ه تمام می‌شوند اما نگاهت درست است و خانهت اشتباه.
برای مثال اینجا را نگاه کنید.

اینجا بود که به ذهنم رسید باید یک دادگان فارسی به همراه رشته‌های آوایی آنها داشته باشم.
به هر تقدیر من خیلی با مباحث پیشرفته زبان‌شناسی فارسی در حدی که شما وسواس به خرج داده‌اید آشنا نیستم.
اکر قرار بر این باشد که کل دادگان بر این اساس پالایش شود خود پروژه‌ای جدید خواهد بود. شاید بتوانیم با کمک تعدادی از دوستان پروژه‌ی جدید برای داشتن دادگان آوایی زبان فارسی آغاز کنیم.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants