در این مقاله قصد داریم در مورد فارس نت API توضیح دهیم.
معرفی
پردازش زبان طبیعی یکی از نیازهای عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است( معرفی فارس نت API). امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. از دستاوردهای این رشته می توان به ساخت سیستم های مترجم ماشینی، خلاصه سازی خودکار، خطایاب املایی، شناسایی نویسنده، تولید محتوا، جستجو و بازیابی اطلاعات، دسته بندی اسناد، استخراج و تولید اخبار، واسط های زبان طبیعی برنامه های کاربردی و مانند آنها اشاره نمود.
پردازش زبان فارسی نیز در سالهای اخیر مورد توجه محققان بسیاری در ایران و سایر نقاط جهان قرار گرفته است.
متاسفانه یکی از گلوگاه های پردازش زبان فارسی در دسترس نبودن منابع زبانی کافی و معتبر برای این زبان است. از جمله این منابع که مورد توجه این طرح است می توان به واژگان های تک زبانه و چند زبانه محاسباتی، واژگانهای معنایی و متصل به هستان شناسی، هستان شناسی جامع عمومی و تخصصی اشاره نمود. چنین منابعی می توانند توسط تقریبا تمام کاربردهای پردازش زبان فارسی مورد استفاده قرار گیرند. در حال حاضر در اکثر کارهای انجام شده بدلیل عدم وجود منابع زبانی در دسترس محیط آزمون سیستم به شکل محدود شده و مصنوعی در نظر گرفته شده که این خود باعث می شود اکثرا فعالیت انجام شده قابل تعمیم به متون واقعی نباشد و در شکل های تعمیم یافته دقت بالا و قابل قبول در فعالیت انجام شده حاصل نگردد.
لذا بنظر می رسد یک قدم اساسی در حل مسئله پردازش زبان فارسی تهیه منابع زبانی گسترده خصوصا واژگان های معنایی باشد.
این منابع برای زبان هایی مانند انگلیسی بسیار گسترش یافته اند. به عنوان مشهورترین و پرکاربردترین واژگان معنایی زبان انگلیسی می توان به WordNet اشاره نمود. این واژگان که به عقیده بسیاری محققین یک واژهستان شناسی نیز هست، توسط کاربردهای بسیاری مورد استفاده قرار گرفته و بعنوان مبنایی برای ساخت واژگان های معنایی به بسیاری زبان های دنیا ترجمه شده است. وردنت یک هستانشناسی واژگانی است که در طراحی آن از نظریههای روانشناسی زبان درباره واژگان ذهنی انسان الهام گرفته شده است. طراحی وردنت در سال 1978 در آزمایشگاه علوم شناختی دانشگاه پرینستون زیر نظر پروفسور جی. ا. میلر آغاز شد و نسخه 1.0 آن در سال1985 عرضه شد.
انجمن جهانی وردنت در سال 2000 در آمستردام هلند کار خود را آغاز کرد. هدف انجمن جهانی وردنت پدید آوردن فضایی برای استانداردسازی و اتصال وردنت همه زبانهای دنیا است و در کنار آن در صدد فراهم آوردن زمینه مناسب برای ایجاد یک پایگاه داده چند زبانی جهانی است.
بر اساس اطلاعات سایت انجمن جهانی وردنت هم اکنون برای حدود 60 زبان در جهان وردنت تک زبانه وجود دارد و حدود 10 وردنت چند زبانه وجود دارد که این وردنت های چند زبانه از 3 تا 200 زبان را پوشش میدهند.
معرفی فارسنت
فارسنت نخستین ، دقیقترین و بزرگترین وردنت فارسی است که در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران توسعه یافته است. آخرین نسخه فارسنت (نسخه 3) دارای بیش از 100 هزار مدخل واژگانی (واژه یا عبارت) است که در حدود 40 هزار مجموعه ترادف جا گرفته اند. برای هر مدخل حداقل یک معنی تعریف شده و هر معنی در یک و فقط یک مجموعه ترادف شرکت می کند. کلیه مجموعههای ترادف یا در سلسله مراتب شرکت می کنند و یا به عنوان سرگروه معرفی می شوند. درضمن هر مجموعه ترادف یا حداقل یکی از اعضا آن در حداقل یک رابطه غیر سلسله مراتبی شرکت نموده است. همچنین هر مجموعه ترادف در صورت امکان به مجموعه ترادف نظیر در وردنت 3.0 پرینستون نگاشت شده است.
برای هر مدخل واژگانی در فارسنت اطلاعات زیر ذخیره می شود:
اطلاعات آوایی (شکل اصلی تلفظ و گونه های دیگر)،
اطلاعات نوشتاری (صورت مصوب فرهنگستان و صورت های دیگر)
اطلاعات نوشتاری (صورت مصوب فرهنگستان و صورت های دیگر)
معانی مختلف مدخل
برای مداخل ترکیب صورت نوشتاری + صورت آوایی+ مقوله نحوی کلید است. هر معنی در یک مجموعه ترادف شرکت می کند.
برای هر مجموعه ترادف اطلاعات زیر ذخیره می گردد:
توضیح مفهوم به زبان طبیعی
مثالی از کاربرد این مفهوم در متن
روابط این مجموعه با سایر مجموعه ها
روابط معنایی موجود در فارسنت ممکن است میان مجموعه های ترادف یا میان معانی برقرار باشند. روابط میان مجموعه های ترادف در دو دسته روابط میان مقوله ای (دوسر رابطه از یک مقوله نیستند) و روابط درون مقوله ای (دوسر رابطه از یک مقوله هستند) دسته بندی می شوند. انواع روابط تحت پوشش فارسنت 2 عبارتند از:
روابطی که در وردنت انگلیسی هم برقرارند مانند:
شمول و زیر شمول (مثلا رابطه اتومبیل و وسیله نقلیه)
جزء واژگی و کل واژگی (مثلا رابطه اتومبیل و چرخ)
علیت (مثلا رابطه کشتن و به قتل رسیدن یا بستن و بسته شدن)
استلزام منطقی (مثلا رابطه خرخر کردن و خوابیدن)
رابطه اشتقاقی میان مقوله های مختلف: (مثلا رابطه کلماتی چون حاکم، محکوم، محاکمه، حکومت و …)
روابط جدیدی که در فارسنت برقرار شده اند مانند:
رابطه میان صفت و اسم ویژگی: (مثلا رابطه میان گرم و دما )
رابطه میان اسم و صفت برجسته یا بالقوه: (مثلا رابطه میان خورشید و تابان یا میان نان و بیات )
رابطه میان فعل و آرگومانهای آن: (مثلا رابطه میان خوردن و خوراکی یا میان خوردن و قاشق )
رابطه بی نام: ( مثلا رابطه باهم آیی یا هم نشینی میان شیر و یارانه یا اقتصاد و دلار در اسناد خبری!)
نگاشت میان زبانی (معادل و نزدیک معادل) بین مجموعه های ترادف فارسی و انگلیسی
همچنین در فارسنت علاوه بر اطلاعات مندرج در سایر وردنت های جهان اطلاعات ساختار آرگومانی افعال ساده زبان نیز درج شده است. ساختار یک فعل مجموعه سازه هایی است که به عنوان مکمل های فعل همراه آن در جمله ظاهر می شوند. به این منظور آرگومانهای نحوی و معنایی (قاب فعل) برای 200 فعل ساده زبان فارسی بر اساس پیکره بیجن خان استخراج و به افعال وردنت اضافه شده است
تاریخچه فارسنت
دادگان فارسنت در چهار پروژه تهیه شده اند. در فارسنت 1 در سال 1387 تعداد 17000 مدخل در حدود 10000 مجموعه ترادف جایگرفت و ساخته شد. فارسنت 2 در سال 1389 با تعداد 30000 مدخل در حدود 20000 مجموعه ترادف آزادرسانی شد. و در سال ۱۳۹۶ هم پروژه فارسنت 3 با هدف رسیدن به 100000 مدخل در 40000هزار مجموعه ترادف به انجام رسید.
نسخۀ اول فارسنت شامل بیش از ۱۷هزار مدخل واژگانی از مقولههای اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درونمقولهای مطرح در وردنت انگلیسی (نسخه ۲٫۱) میباشد و قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست.
نسخۀ دوم فارسنت شامل بیش از ۳۰ هزار مدخل واژگانی از مقولههای اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقولهای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقولهای نیز مفاهیم را بهم پیوند میدهد و علاوه بر ویژگیهای در نظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنتهای دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست.
نسخۀ دوم و نیم فارسنت شامل بیش از ۳۳ هزار مدخل واژگانی از مقولههای اسم، فعل، صفت و قید است.این نسخه نگارش بهبود یافته و تکمیل شده نسخه دوم می باشد.
نسخۀ سوم فارسنت شامل بیش از ۱۰۰ هزار مدخل واژگانی در 40000هزار مجموعه ترادف می باشد. با توجه به وردنتهای بزرگی که در دنیا وجود دارد و تجربه پژوهشهای انجامشده گسترش فارسنت از جهت دامنه پوشش لغات فارسی و هم تعداد روابط بسیار اهمیت دارد. در پروژه توسعه فارسنت ۳ هدف توسعه و تکمیل هستانشناسی عمومی زبان فارسی تا 100 هزار مدخل واژگانی بود. همچنین با بازبینی دادگان قبلی تضمین دقت 90 درصد روی دادگان فارسنت 2 از دیگر اهداف پروژه بود.
فارسنت تاکنون در برنامه های کاربردی متعددی در حوزه پردازش زبان فارسی از جمله پرسش و پاسخ، ترجمه ماشینی، خلاصهسازی خودکار، جستجوی معنایی، استخراج دانش و اطلاعات، کشف تقلب، بازیابی اطلاعات و … با موفقیت مورد بهره برداری قرار گرفته و منجر به افزایش کارایی این برنامه ها شده است. گسترش کمی و کیفی این منبع زبانی گام مهمی در پیشبرد توانایی پردازش متون فارسی به شمار می آید.
در این مطلب در مورد فارس نت API توضیح دادیم در مطلب بعد در مورد وب سرویس فارسنت توضیح میدهیم.