توضیحات
ترجمه آماده – طبقه بندی پرسش ها به زبان ایرانی با استفاده از بردار ها و فراوانی های کلمه
Question classification in Persian using word vectors and frequencies
طبقه بندی پرسش ها به زبان ایرانی با استفاده از بردار ها و فراوانی های کلمه
Abstract
The necessity of the existence of Question Answering (QA) systems becomes evident by considering the fact that the enormous amount of unstructured data created by humans nowadays, results in ineffectiveness of search engines to provide the exact solution for a given question. However, an outstanding question answering system requires an outstanding Question Classification (QC) system. Question classifier is a system that assigns a label to each question. There exist different ways of solving this problem such as rule-based, machine learning, and hybrid approaches. This paper provides a better solution for QC using machine-learning approaches. Three methods of feature extraction are proposed in this paper. The First method uses clustering algorithms to partition vocabulary into clusters and acquires feature vector corresponding to each question using clustering information. The second one suggests a method of extracting features from questions to dispose of using recurrent neural networks and to use feedforward neural networks, which have the advantage of learning faster and less need for data, instead. Each question is converted to a feature vector, which is obtained by the Word2vec method and weighted by tf-idf coefficients. The results of question classification using Support Vector Machine and Neural Network classifiers indicate the effectiveness of this type of feature vector and based on that, high performance of the proposed QC system. Finally, the third approach keeps the innovation behind first approach, but it also keeps the fact that we are dealing with a sequence based type of data into consideration. Eventually, it would be concluded that even with a limited amount of data it is reasonable to take Recurrent Neural Networks into consideration.
چکیده
ضرورت وجود سیستم پاسخ دهی به سوالات (QA) با توجه به این واقعیت کاملا بدیهی می باشد که تعداد زیادی از داده های غیرسازمان یافته، امروزه توسط انسان ها ساخته می شوند که منجر به ناکارامد شدن موتورهای جستجو برای فراهم نمودن راه حل دقیق برای سوال مطرح شده می شود. هرچند، سیستم پاسخ دهی به سوال برجسته، نیازمند یک سیستم طبقه بندی سوال برجسته (QC) می باشد. طبقه بندی کننده سوال، سیستمی است که یک لیبل را برای هر سوال تخصیص می دهد. روش های متفاوتی برای QC با استفاده از رویکردهای یادگیری-ماشینی وجود دارد. سه روش استخراج ترکیبات، در این مقاله پیشنهاد می شوند. اولین روش، استفاده از الگوریتم های خوشه بندی برای تقسیم بندی واژگان به خوشه ها و استفاده از بردار ترکیب مربوط به هر سال با استفاده از اطلاعات خوشه بندی است. دومین روش، شیوه استخراج ترکیب ها از سوالات برای ترتیب دادن استفاده از شبکه های عصبی متناوب و استفاده از شبکه های عصبی پیش خورانی می باشد که دارای مزیت یادگیری سریعتر و نیاز کمتر به داده می باشد. هر سوال به بردار ترکیب تبدیل می شود که بوسیله روش Word2vec بدست می آید و بوسیله ضرایب tf_idf نشان داده می شود. نتایج طبقه بندی سوال با استفاده از ماشین بردار پشتیبان و طبقه بندی کننده شبکه عصبی، نشان دهنده سودمند واقع شدن این نوع بردار ترکیب و بر این اساس عملکرد بالای سیستم پیشنهادی QC می باشد. درنهایت، روش سوم، نوآوری فراتر از اولین روش می باشد، اما هم چنین بر اساس این واقعیت می باشد که ما با نوع توالی داده سر و کار داریم. در حقیقت، نتیجه گیری می کنیم که حتی با تعداد محدود داده، استفاده از شبکه های عصبی متناوب، منطقی می باشد.
دوست عزیزم چنانچه برای دانلود ترجمه آماده – طبقه بندی پرسش ها به زبان ایرانی با استفاده از بردار ها و فراوانی های کلمه با مشکلی مواجه شدید با شماره ۰۹۳۵۷۲۵۸۴۲۵ یا ایمیل info@pajuha.ir ارتباط برقرار کنید.
ترجمه آماده -Question classification in Persian
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.