مقدمه
در سالهای اخیر، سیستمهای فازی بهطور موفقیتآمیزی در حیطههای متفاوت علوم، مانند مهندسی، علوم اجتماعی، علوم اقتصادی و بهخصوص علومپزشکی استفاده شده است [
1, 2]. قوانین فازی بهواسطه قابلیت خوانایی بسیار بالا، تفسیر آسان توسط انسان و فراهم کردن دیدگاهی راجع به دانش تعبیهشده در سیستمهای دستهبندی، بین کاربران محبوبیت زیادی پیدا کردهاند [
4 ,
3]. آنها از قوانین زبانی برای توصیف سیستمها استفاده میکنند که بهآسانی کاربر تفسیر و بررسیشان میکند [
5, 6]. ازاینرو یکی از کاربردهای مورد توجه آنها در سیستمهای حمایتی تصمیمگیری پزشکی است. جایی که کشف قوانین نهفته در دادهها و تفسیرپذیری این قوانین دارای اهمیت بالایی است. استخراج قوانین مؤثر موجود در دادهها با 2 شاخص صحت و تفسیرپذیری بالا در افزایش دقت و سرعت تشخیص بیماری به متخصصان کمک میکند [
7, 8, 9].
یکی از مهمترین عوامل در طراحی سیستمهای فازی، تولید قوانین فازی است. برای این کار 2 راهکار اصلی وجود دارد. در روش اول قوانین را فرد خبره تولید میکند. این روش بهخصوص در مسائل کنترلی با تعداد ورودی کم به کار میرود [
5]. روش دوم، تولید خودکار قوانین با استفاده از تکنیکهای نوروفازی، روشهای خوشهبندی و الگوریتمهای تکاملی است [
10, 11].
بیماری دیابت احتمال مرگ زودرس را افزایش داده و علت اصلی بیماریهای دیگر، ازجمله نارسایی کلیه، سکته قلبی و مغزی و نابینایی است [
12 ,13]. یکی از مجموعه دادههای پرکاربرد در ارزیابی سیستمهای تشخیصی دیابت، مجموعه داده دیابت پیما است؛ دلیل انتخاب این مجموعه توسط محققان، در کنار چالشبرانگیز بودن این مجموعه داده، بهواسطه وجود مقادیر گمشده و دادههای پرت، شیوع بسیار بالا و آمار خاص بیماری دیابت در میان سرخپوستان پیما آرززوناست [
14]. در این بخش برخی از کارهای صورتگرفته روی این مجموعه داده بررسی میشود.
در سال 2019 یک پژوهش با استفاده از مدل ترکیبی فازیژنتیک جهت دستهبندی دیابت روی دیتاست پیما ارائه شده است. نویسندگان از الگوریتم ژنتیک جهت تعیین پارامترهای بهینه این تابع و تولید قوانین استفاده کردهاند. صحت مدل پیشنهادی را با استفاده از روش اجرای اعتبارسنجی متقاطع، 5 فولد برابر با 85/82 درصد گزارش دادند. در این مقاله تعداد قوانین تولیدشده و ویژگیهای منتخب در قوانین ذکر نشده است [
15].
در دستهبندی فازی مبتنی بر قانون از دادههای پزشکی ارائه شده است. جهت تولید مجموعه قوانین بهینه، یافتن بهترین پارامترها برای توابع عضویت و انتخاب متغیرها از الگوریتم بهینهسازی چندهدفه NSGA II استفاده شده است. نویسندگان نوآوری مقاله را در معرفی معیارهایی، جهت اندازهگیری تفسیرپذیری سیستمهای دستهبندی فازی، نمایشی مستقل از کدگذاری خاص از پایگاه قوانین و ارائه عملگرهای ژنتیکی برای پردازش نمایش ارائهشده عنوان کردند. بهترین مقدار گزارششده از اجرای مدل به ازای تقسیم مجموعه داده بهصورت 1:9 دارای صحت 81/5 درصد شامل 5 قانون، 3 ویژگی و 5 مجموعه فازی (ترمهای زبانی) و 1/2 ویژگی به ازای هر قانون است [
3].
در میان کارهای صورتگرفته، در توجه به استخراج قوانین منفرد با ارزش اخباری مثبت و منفی بالا غفلت شده است [
14, 15, 16]. با توجه به علاقه متخصصان به قوانین ساده و منفرد تشخیصی که قابلیت ارزیابی سریع و سادگی در به خاطر سپردن را دارند و همچنین از آنجا که بسیاری از مجموعه دادههای پزشکی، ازجمله مجموعه داده دیابت پیما شامل پارامترهای بالینی حاصل انجام آزمایش است، طراحی مدلی جهت استخراج قوانین منفرد با کارایی بالا برحسب ارزش اخباری مثبت و منفی امری ضروری است. ازاینرو در این مقاله، یک سیستم دستهبندی ترکیبی ژنتیکفازی ارائه میشود که بهطور خودکار از روی دادهها قوانین نهفته در آنها را استخراج میکند. سپس با ارزیابی هریک از قوانین استخراجشده، بهترین قانون منفرد تشخیصی برای هریک از حالتهای بیماری و عدم بیماری را ارائه میدهد. بهعلاوه، جهت حذف تأثیر انتخاب عملگرهای الگوریتم ژنتیک روی کارایی مدل، یک ساختار کروموزومی خودسازماندهنده جدید پیشنهاد شده است. جهت ارزیابی مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شده است.
مواد و روشها
در این مطالعه، طراحی پایگاه قانون سیستمهای فازی ممدانی گذشتهنگر با استفاده از دادههای داده عمومی پیما بررسی میشود. محل انجام پژوهش دانشگاه صنعتی خاتمالانبیای بهبهان در سال 1400 بود. طراحی سیستمهای منطق فازی یکی از محبوبترین مسائل رامنشدنی است که در آن از محبوبترین و جدیدترین الگوریتمهای تکاملی استفاده میشود [
17]. این مسئله شامل پارامترهایی، ازجمله شکل و مکان مجموعههای فازی، مقدمها و تالیهای پایگاه قانون فازی و سایر پارامترهای استراتژی مانند تجمیع، استلزام و روشهای دیفازیسازی میشود. در این مقاله، طراحی پایگاه قانون سیستمهای فازی ممدانی از دادهها بررسی میشود.
تصویر شماره 1 توابع عضویت مورد استفاده جهت توصیف متغیرهای مجموعه داده را نشان میدهد.
.jpg)
در ابتدای الگوریتم هیچ قانونی در پایگاه قوانین و هیچ تابع عضویتی منتسب به متغیرهای فازی نیست. سپس، قوانین و توابع عضویت ازطریق الگوریتم ژنتیک تولید و بهینه میشوند [
2].
تصویر شماره 2 فلوچارت مدل پیشنهادی را نشان میدهد.

الگوریتم ژنتیک
الگوریتم ژنتیک محبوبترین الگوریتم بهینهسازی متاهیوریستیک مبتنی بر تکامل است [
17]. در حوزههای متفاوت، الگوریتم ژنتیک برای حل مسائل بهینهسازی چندهدفه و چندمتغیره کارایی مناسبی از خود نشان داده است [
18]. از الگوریتم ژنتیک برای انتخاب قانون استفاده میشود زیرمجموعهای از قوانین اولیه که نرخ دستهبندی بالایی دارند، انتخاب شوند [
19]. الگوریتم ژنتیک دارای چند گام اساسی است: تعریف ساختار کروموزومی، تولید جمعیت اولیه، تعیین تابع هدف، انتخاب، بازترکیب و جهش [
16].
مدل پیشنهادی
در این مقاله یک سیستم دستهبندی ترکیبی ژنتیکفازی با هدف دستیابی به صحت بالا و تولید مجموعه قوانین فشرده و با تفسیرپذیری بسیار بالا طراحی شده است. مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شده است. این مجموعه دارای 768 رکورد شامل 268 فرد دارای دیابت و 500 فرد فاقد دیابت است. برای هر رکود 9 ویژگی شامل برچسب کلاس ذخیره شده است. یکی از مشکلات این مجموعه داده وجود مقادیر گمشده و دادههای پرت است. در این برای جانهی مقادیر گمشده از روش KNNi و حذف دادههای پرت از K-means استفاده شد [
15 ,
2]. پس از پیشپردازش تعداد رکودها به 590 رکورد کاهش یافت که شامل 212 فرد دارای دیابت و 378 فرد سالم بود. جهت تعیین ارتباط بین متغیرهای وابسته و مستقل از تست آماری تی استفاده شد. در آزمون آماری تی برای بررسی رابطه معناداری متغیرها و داشتن دیابت استفاده و مقدار 0/05 درصد بهعنوان سطح معناداری در نظر گرفته شد.
در این پژوهش بهترین مجموعه قوانین تشخیصی برای دیابت توسط الگوریتم ژنتیک استخراج میشود. تکتک قوانین روی مجموعه داده ارزیابی و صحت آنها محاسبه میشود. سپس بهترین قوانین منفرد با بالاترین ارزش اخباری مثبت برای تشخیص افراد دارای دیابت و بالاترین ارزش اخباری منفی برای افراد فاقد دیابت تعیین میشود. درنهایت پس از تعیین بهترین قوانین منفرد، قوانین تشخیصی ابتلا و عدم ابتلا به بیماری ترکیب و مجموعهای شامل 2 قانون تشخیصی بهعنوان خروجی مدل ارائه میشود.
ازآنجاکه تولید مجموعه قوانین فازی یک مسئله رامنشدنی است، امکان تولید تمام قوانین و سپس انتخاب از میان آنها امکانپذیر نیست. اگر تعداد قوانین را 2 در نظر بگیریم و فرض کنیم هر ویژگی تنها با 3 مجموعه فازی و یک حالت بیاثر نشان داده شود، برای مجموعه داده پیما با 8 ویژگی در هر قانون و 1 برچسب کلاس دوحالته، 4^16×2^2 حالت متفاوت وجود خواهد داشت. مدتزمان اجرای داخلیترین حلقه در شبیهسازی کامپیوتری 0/0032 ثانیه است که با توجه به تعداد دفعات تکرار 636 روز به طول خواهد انجامید. به همین دلیل جهت تولید و انتخاب مجموعه قوانین بهینه فازی از الگوریتم ژنتیک استفاده شده است. در مدل پیشنهادی، تمام مجموعه داده بهعنوان مجموعه آموزش استفاده میشود، زیرا مجموعه داده استاندارد بوده و در سیستمهای مبتنی بر قانون مجاز به تقسیم مجموعه داده بهصورت آموزش و تست نیستیم. همچنین نمیتوان از اجرای اعتبارسنجی متقاطع استفاده کرد، زیرا هر بار مجموعه قوانین جدیدی تولید خواهد شد.
پارامترهای الگوریتم ژنتیک
یکی از مؤلفههای الگوریتم ژنتیک عملگرهای بازترکیب و جهش هستند که تعیین نوع این عملگرها اغلب بهصورت سعی و خطا انجام میشود. انتخاب این 2 عملگر تأثیر بسیاری روی نتیجه خواهد داشت، زیرا رفتار الگوریتم ژنتیک با روابط اکتشافی و بهرهوری تعیین میشود که به ترتیب متأثر از عملگرهای جهش و بازترکیب است [
5]. در این مقاله، جهت حذف تأثیر نوع عملگرهای جهش و بازترکیب بر کارایی مدل و کاهش زمان تنظیم پارامترهای الگوریتم ژنتیک به روش سعی و خطا، یک ساختار کروموزومی جدید پیشنهاد میشود که ضمن تولید پایگاه قانون فازی، بهترین عملگر جهش و بازترکیب از میان روشهای موجود را برای هر مجموعه داده تعیین میکند. ایده کار به این صورت است که در جمعیت اولیه بهطور تصادفی به هر کروموزوم یک عملگر بازترکیب و جهش انتساب داده میشود. سپس زمانی که کروموزومها توسط عملگر انتخاب برای عمل ترکیب انتخاب میشوند، عملگر بازترکیبی که مربوط به والدی با بالاترین تناسب است برای تولید فرزندان اعمال میشود. با گذشت نسلها و همگرایی نتایج، عملگر بازترکیب مربوط به افراد، با بالاترین تناسب بیشتر از سایرین انتخاب میشود. به این ترتیب عملگر بازترکیب بهینه برای مجموعه داده موردبررسی بهطور خودکار انتخاب میشود. همین روند برای عملگر جهش نیز صادق است.
ساختار کروموزومی در
تصویر شماره 3 نشان داده شده است.

این کروموزوم شامل ژنهایی برای تعیین ترمهای زبانی برای هر متغیر در مجموعه داده، ژنی برای تعیین نوع عملگر جهش، یک ژن برای تعیین نوع عملگر بازترکیب و یک ژن برای مقدار تناسب کروموزوم است. اندازه کروموزوم برحسب تعداد قوانین و تعداد ویژگیهای موجود در مجموعه داده متفاوت است. اگر تعداد قوانین موردنظر در پایگاه قانون فازی r باشد و مجموعه داده دارای n ویژگی باشد، اندازه کروموزوم از
فرمول شماره 1 به دست خواهد آمد.
1. chroSize=r×n+3
محدوده ژنهای 1 الی chroSize-2 مجموعه قوانین پایگاه داده را مشخص میکنند که در دستههای n تایی تقسیم شدهاند. مقادیر این ژنها مجموعههای فازی برای ترمهای زبانی متغیرها را تعیین میکنند. بهطور نظری هر متغیر فازی میتواند تعداد زیادی مجموعه فازی داشته باشد و هرکدام تابع عضویت خودشان را داشته باشند، اما معمولاً برای هر متغیر فازی، 3، 5، 7 یا 9 مجموعه استفاده میشود [
5]. با داشتن شماره ژن، تفسیر مقدار ژن مدنظر در کروموزوم که با Gene(k) نشان داده میشود، با
فرمول شماره 2 مشخص میشود.

که در آن yl معرف تالی قانون Lام و Al, m مجموعه فازی برای ویژگی mام از قانون lام را مشخص میکند. الگوریتم ژنتیک ازطریق تکرار مراحل در میان نسلها راهحل بهینه را مییابد. هر نسل شامل چندین کروموزوم است.
جمعیت اولیه 300 فرد و شرط توقف الگوریتم رسیدن به تعداد نسل 1000 انتخاب شده است (این مقدار در منابعی ذکر شده است [
8 ،
1]. جهت کاهش تأثیر انتخابهای تصادفی، هر اجرای الگوریتم 10 دور تکرار میشود. نرخ بازترکیب 0/8 و نرخ جهش 0/5 انتخاب شده است. تناسب هر فرد برابر با صحت قانون فازی موجود در کروموزوم است که توسط سیستم خبره فازی محاسبه میشود. جمعیت اولیه بهصورت تصادفییکنواخت ایجاد میشود.
پس از ایجاد هر فرد، اعتبار کروموزوم بررسی میشود و کروموزوم هایی که دارای برچسب کلاسی یکسان در تمام قوانین هستند، بهعنوان نامعتبر شناخته میشوند. در صورت یکی بودن تمام برچسبها بهطور تصادفی یکی از آنها تغییر میکند. همچنین اگر حالت تمام ویژگیها «بیاثر» باشد نیز کروموزوم نامعتبر است. در صورتی که کمتر از 2 ویژگی دارای حالت غیربیاثر باشد، بهطور تصادفی الگوریتم مقدار یکی از ویژگیهای بیاثر را به حالتی بهجز حالت بیاثر تغییر میدهد.
عملگر بازترکیب از میان 12 عملگر شامل بازترکیب سهوالدی، گسسته، اکتشافی، هموار، میانگین، نیمهیکنواخت، یکنواخت اکتشافی، تکنقطهای، دونقطهای، یکنواخت، درهمریزی و جایگزین کاهشیافته و عملگر جهش از میان 8 عملگر شامل جهش مکمل، یکنواخت، درجی، معکوسسازی مرکزی، کریپ، جابهجایی، تراورز و عملگر جهش ترواس انتخاب شده است. این عملگرها متداولترین عملگرهایی مورداستفاده در کاربردهای ژنتیک هستند [
15]. تابع انتخاب در این مقاله تابعهای رنکبندی و تصادفی است. تابع رنکبندی به نحوی پیادهسازی شده است که در صورت برابر بودن تناسب افراد، اولویت با فردی باشد که در مجموعه قوانین خود تعداد حالتهای «بیاثر» بیشتری داشته باشد. در ابتدا 60 درصد افراد با تابع تصادفی و 40 درصد باقیمانده توسط تابع رنکبندی انتخاب میشوند. با گذشت نسلها، میزان افرادی که بهطور تصادفی برای عملیات جهش یا بازترکیب انتخاب میشوند هر 10 نسل به میزان 5 درصد کاهش مییابد تا درصد انتخاب با تابع رنکبندی افزایش یابد تا به این ترتیب شانس انتخاب افرادی که صحت بالاتری دارند بیشتر شود. اما این مقدار هیچگاه زیر 0/1 نخواهد شد.
پیادهسازی روش پیشنهادی در نرمافزار متلب 2017 و تحلیل آماری توسط نرمافزارSPSS نسخه 16 اجرا شده است.
مقایسه کارایی الگوریتم و روشهای موجود
بهدلیل اینکه تمامی کارهای موردبررسی در این مقاله از تمام 768 رکورد مجموعه داده پیما استفاده کردند و وجود دادههای پرت را نادیده گرفتند و امکان پیادهسازی روشهای ذکرشده به دلیل مشخص نبودن تمام پارامترها یا عدم دسترسی به سخت افزارهای ذکرشده در آن مقالات میسر نیست، شرایط اجرای الگوریتمها متفاوت بوده و امکان مقایسه صحت سیستمها فراهم نیست. اما مجموعه قوانین بهدستآمده بهلحاظ قابلیت تفسیرپذیری با مجموعه قوانین بهدستآمده در این مقاله مقایسه میشود.
یافتهها
جدول شماره 1 توصیف متغیرهای مجموعه داده را برحسب آمارههای توصیفی میانگین، انحراف معیار و بازه تغییرات در 2 گروه افراد فاقد و دارای دیابت نشان میدهد.
.jpg)
همچنین نتایج آزمون آماری تی برای بررسی رابطه معناداری متغیرها و داشتن دیابت، استفاده و مقدار 0/05 درصد بهعنوان سطح معناداری در نظر گرفته شد.
بهترین مجموعه قوانین بهدستآمده حاصل از اجرای روش پیشنهادی، در حالتی که تعداد مجموعه قوانین از 2 تا 7 قانون متغیر است و برای هر ویژگی مستقل در مجموعه داده به ترتیب 3، 5 و 7 ترم زبانی در نظر گرفته شده است، در
جدول شماره 2 نشان داده شده است.
.jpg)
پس از به دست آمدن بهترین مجموعه قوانین، تمام 81 قانون منفرد منتخب توسط الگوریتم پیشنهادی، بهصورت منفرد روی مجموعه داده پیما ارزیابی و صحت هر قانون محاسبه شد. سپس در میان قوانینی که جهت تشخیص ابتلا به دیابت بودند، قوانین با ارزش اخباری مثبت بالاتر از 70 درصد و در میان قوانینی که جهت تشخیص عدم ابتلا به دیابت بودند قوانین با ارزش اخباری منفی بالاتر از 80 درصد انتخاب شدند. نتیجه این بررسی 4 قانون ذکرشده در
جدول 3 است.
.jpg)
قانون شماره 1 و 2 از مجموعه قوانین انتخابشده با 5 حالت برای هر ویژگی و قوانین 3 و 4 از مجموعه قوانین با 7 حاالت برای هر ویژگی بهترین عملکرد را از میان 81 قانون داشتهاند. با توجه به مقادیر ذکرشده در
تصویر شماره 2 برای ترمهای زبانی هر متغیر و با توجه به قانون شماره 1، اگر تعداد دفعات بارداری بالا باشد، علیرغم نرمال بودن ضخامت پوست چین سه سر، شخص مبتلا به دیابت است. براساس قانون شماره 2، اگر ضخامت پوست چین سه سر بالا باشد، علیرغم نرمال بودن شاخص توده بدنی شخص دارای دیابت است. براساس قانون شماره 3، اگر تعداد دفعات بارداری بسیار پایین باشد و قند خون نیز بسیار پایین باشد، شخص دارای دیابت نیست. براساس قانون شماره 4، فردی که دارای عدم سابقه خانوادگی در دیابت است و دارای فشار خون بسیار پایین است، مبتلا به دیابت نیست.
جدول شماره 4 نتیجه حاصل از ترکیب بهترین قوانین منفرد و خروجی مدل پیشنهادی را ارائه میدهد.
مقایسه با سایر روشها
جدول شماره 5 مقایسه کارایی روش پیشنهادی را برحسب تعداد قوانین انتخابشده در پایگاه قانون نهایی، تعداد ترمهای زبانی برای توصیف هر متغیر، تابع عضویت فازی، مجموع تعداد شرطها در قوانین، تعداد رکوردهای مورداستفاده برای ساخت مدل و صحت با برخی از روشهای موجود و بررسیشده در پیشینه مطالعه نشان میدهد.
.jpg)
هرچند پژوهشی با ارائه تنها یک قانون کوچکترین مجموعه قانون تشخیصی را ارائه میدهد [
15]، اما مجموعه قانون مدل پیشنهادی تفسیرپذیری بالاتری دارد. در زیر قانون ارائهشده، علیرغم کارایی مناسب با توجه به روابط ضربی و توانی در ویژگیها، جهت استفاده توسط کاربر انسانی مناسب نیست.
IF ([BMI+0.003×[DP FUNCTION×(SERUM INS × BMI + AGE × AGE + (PG CONCENTRATION× PREGNANCIES) × PREGNANCIES)]+0.65×PG CONCENTRATION]>111) Then Diabetic else not-Diabetic
بحث
در این مقاله به دلیل اهمیت استخراج قوانین دقیق و تفسیرپذیری آنها در سیستمهای همیار پزشکی، یک مدل استخراج قانون با استفاده از الگوریتم ترکیبی ژنتیکفازی و با هدف تعیین فشردهترین مجموعه قوانین با صحت بالا ارائه و روی مجموعه داده دیابت پیما ارزیابی شد. همچنین جهت جلوگیری از پیچیدگی تنظیم پارامترهای الگوریتم ژنتیک و حذف آنها بر کارایی مدل، یک ساختار کروموزومی جدید با قابلیت تنظیم خودکار عملگرهای جهش و بازترکیب ارائه شد. بهترین مجموعه قوانین برحسب 2 معیار قابلیت تفسیرپذیری و صحت بالا، مجموعه قانونی با 2 قانون، 4 مجموعه ترم فازی به ازای هر مقدم در قانون و متوسط طول 2 به ازای هر قانون بود که به صحت 79/05 درصد دست یافت. تابع عضویت بهکاررفته برای مجموعه متغیرهای زبانی تابع مثلثی متقارن است که به دلیل ثابت بودن عرض تمامی توابع درک مفاهیم را توسط کاربر انسانی سادهتر میکند.
نتیجه ارزیابی روش پیشنهادی روی مجموعه داده دیابت پیما نشان میدهد که روش پیشنهادی قادر به تولید مجموعه قوانین فشرده همراه با صحت بالاست. در میان 81 قانون تولیدشده 4 قانون منفرد ذکرشده در
جدول شماره 3 بالاترین کارایی را داشتهاند. این قوانین موارد زیر را نشان میدهند:
• با توجه به قانونهای 1 و 4، تعداد دفعات بارداری عامل مهمی در ابتلا یا عدم ابتلا به دیابت است. بهنحویکه تعداد دفعات بارداری پایین احتمال عدم ابتلا به دیابت و تعداد دفعات بارداری بالا شانس ابتلا به دیابت را بهشدت افزایش میدهد. تأثیر پایین بودن تعداد دفعات بارداری در عدم ابتلا و بالا بودن آن در ابتلا به دیابت بیان شده است [
20, 21 ,
15].
• با توجه به قوانین 1 و 2، ضخامت پوست چین سه سر بالا نشانه مهمی از ابتلا به دیابت است. این ویژگی در هر 2 قانون مربوط به تشخیص ابتلا به دیابت انتخاب شده است. همچنین این قانون در مطالعات مختلف بیان شده است [
20, 21].
• با توجه به قانون شماره 2، شاخص توده بدنی بالا علامتی از ابتلا به دیابت است. همچنین این قانون در مطالعات مختلف بیان شده است [
20 ,
9, 10 ,
3].
• با توجه به قانون شماره 3، قند خون پایین نشانه سلامت شخص است. تأثیر ویژگی قند در مطالعات مختلفی بیان شده است [
20 ,
15 ،
9, 10 ,
4].
• با توجه به قانون شماره 4 فشار خون پایین نشانه عدم ابتلا به دیابت است. ارتباط فشار خون پایین و عدم ابتلا به دیابت در برخی مطالعات بیان شده است [
21 ,
20 ,
9].
• با توجه به قانون شماره 4، عدم وجود دیابت در سابقه خانوادگی شخص عامل مهم دیگری در عدم ابتلا به دیابت است [
21 ,
20 ,
15 ,
9, 10].
نتایج آزمون تی جهت بررسی ارتباط معنادار متغیرها با متغیر وابسته که در
جدول شماره 1 آمده است نشاندهنده وجود ارتباط میان تمام متغیرهای مستقل با متغیر وابسته است. بااینحال، در قوانین بهدستآمده توسط روش پیشنهادی در هیچ قانونی تمام متغیرها انتخاب نشدهاند. این امر نشان میدهد ارتباط میان متغیرها خطی نبوده و درنتیجه با روشهای ساده آماری قابلکشف نیستند. درنتیجه نیاز به استفاده از روشهای یادگیری ماشین و دادهکاوی است.
با توجه به نتایج حاصله که شامل معیارهای طول قوانین، تعداد قوانین و توابع عضویت است این معیارها از مهمترین شاخصهای تفسیرپذیری قوانین توسط کاربر انسانی هستند [
19 ،
10 ،
16 ،
3] مدل پیشنهادی شامل یک قانون تشخیصی افراد بیمار و یک قانون تشخیصی افراد فاقد بیماری است که تفسیرپذیری بالا ارائه میدهد. همچنین با توجه به نتایج بهدستآمده از ارزیابی مدل روی مجموعه داده دیابت پیما مدل پیشنهادی با دستیابی به صحت 79/05، ارزش اخباری مثبت 70/83 و ارزش اخباری منفی 81/41 درصد ضمن کارایی مناسب و قابلیت اعتماد بالا به نتایج قوانین تشخیصی، میتواند بهعنوان یک مدل عمومی امیدبخش در سایر کاربردهای دستهبندی دادههای پزشکی مورد استفاده قرار بگیرد.
نتیجهگیری
استخراج قوانین از مجموعه دادهها در کاربردهای تشخیص پزشکی، یک حوزه مهم در کشف دانش است؛ سیستمهای فازی به جهت تولید قوانین قابلتفسیر توسط انسان، بهعنوان یک ابزار محبوب در این کاربرد شناخته میشوند. جهت طراحی خودکار سیستمهای فازی از روی دادهها، الگوریتم ژنتیک توانایی بالایی از خود نشان داده است. به همین دلیل در این مقاله یک سیستم ژنتیکفازی استخراج قانون خودسازمانده برای کاربردهای تشخیصی پزشکی پیشنهاد شد. جهت ارزیابی مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شد. ضمن ارائه مجموعه قوانین تشخیصی، بهترین قوانین منفرد تشخیصی افراد فاقد و مبتلا به دیابت ارائه شد. تعداد کم قوانین وکوتاه بودن آنها ازجمله ویژگیهای مهم قوانین پیشنهادی است که درکنار پیادهسازی سریع، میتواند توسط متخصصان بهآسانی ارزیابی و به خاطر سپرده شود.
از محدودیتهای پژوهش استفاده از دادههای عمومی و عدم ارزیابی قوانین پیشنهادی توسط متخصصین بالینی است. هرچند با مقالات مشابه، قوانین ارزیابی شدهاند. پیشنهاد میشود مدل پیشنهادی روی دادههای محلی اجرا شده و هریک از قوانین استخراجی را متخصصین ارزیابی کنند.
ملاحظات اخلاقی
پیروی از اصول اخلاق پژوهش
با توجه به اینکه در این مطالعه از مجموعه داده دیابت پیما که یک مجموعه داده عمومی است استفاده شده است نیازی به اخذ کد اخلاق وجود نداشت.
حامی مالی
این مقاله مستخرج از طرح پژوهشی (کد: 400-01-00) در دانشگاه صنعتی خاتم الانبیاء بهبهان بوده است.
مشارکت نویسندگان
ایده مقاله: امین گلابپور؛ نگارش مقاله و بحث: فاطمه آهوز؛ پیادهسازی مدل، روش، و ارزیابی و درصد همکاری: تمام نویسندگان.
تعارض منافع
بنابر اظهار نویسندگان این مقاله تعارض منافع ندارد.
References
1.Ishibuchi H, Nojima Y, Kuwajima I. Genetic rule selection as a postprocessing procedure in fuzzy data mining. Int Symp Evolv Fuzzy Syst; 2006. [DOI:10.1109/ISEFS.2006.251149]
2.Ahouz F, Golabpour A. A novel compact rule extractor based on genetic-fuzzy algorithm. Paper presented at: 10th International Conference on Computer and Knowledge Engineering (ICCKE); 29-30 October 2020, Mashhad, Iran. [DOI:10.1109/ICCKE50421.2020.9303613]
3.Gorzałczany MB, Rudziński F. Interpretable and accurate medical data classification–a multi-objective genetic-fuzzy optimization approach. Expert Syst Appl. 2017; 71:26-39. [DOI:10.1016/j.eswa.2016.11.017]
4.Mitra S, Hayashi Y. Neuro-fuzzy rule generation: Survey in soft computing framework. IEEE Trans Neural Netw. 2000; 11(3):748-68. [PMID]
5.Shi Y, Eberhart R, Chen Y. Implementation of evolutionary fuzzy systems. IEEE Trans Fuzzy Syst. 1999;7(2):109-19. [DOI:10.1109/91.755393]
6.Ahouz F, Golabpour A. A novel structure of highly interpretable fuzzy rules extraction. Front Health Inform. 2021; 10(1):53. [DOI:10.30699/fhi.v10i1.253]
7.Shortliffe EH, Wiederhold G, Fagan LM, Perreault LE. Medical Informatics: Computer Applications in Health Care and Biomedicine. New York: Springer; 2013. [Link]
8.Sujatha R, Ephzibah EP, Dharinya S, Uma Maheswari G, Mareeswari V, Pamidimarri V. Comparative study on dimensionality reduction for disease diagnosis using fuzzy classifier. Int J Eng Technol. 2018; 7(1):79-84.[DOI:10.14419/ijet.v7i1.8652]
9.Seera M, Lim CP. A hybrid intelligent system for medical data classification. Expert Syst Appl. 2014; 41(5):2239-49. [DOI:10.1016/j.eswa.2013.09.022]
10.Chang X, Lilly JH. Evolutionary design of a fuzzy classifier from data. IEEE Trans Syst Man Cybern B Cybern. 2004; 34(4):1894-906. [PMID]
11.GaneshKumar P, Rani C, Devaraj D, Victoire TAA. Hybrid ant bee algorithm for fuzzy expert system based sample classification. IEEE ACM Trans Comput Biol Bioinformatics. 2014; 11(2):347-60. [PMID]
12.Pinto CMA, Carvalho ARM. Diabetes mellitus and TB co-existence: Clinical implications from a fractional order modelling. Appl Math Model. 2019; 68:219-43. [DOI:10.1016/j.apm.2018.11.029]
13.Abedini S, Jomehpour S, Fallahi S, Ghanbarnejad A, Nikparvar M. [The effect of virtual education of cardiovascular risk factors on the knowledge of general physicians (Persian)]. J Mod Med Inf Sci. 2020; 6(1):31-6. [DOI:10.29252/jmis.6.1.32]
14.Schulz LO, Chaudhari LS. High-risk populations: The pimas of Arizona and Mexico. Curr Obes Rep. 2015; 4(1):92-8. [PMID]
15.Ahouz F, Sadehvand M, Golabpour A. Extracting rules for diagnosis of diabetes using genetic programming. Int J Health Stud. 2019; 5(3):23-32. [DOI:10.22100/ijhs.v5i3.691]
16.Feng TC, Li THS, Kuo PH. Variable coded hierarchical fuzzy classification model using DNA coding and evolutionary programming. Appl Math Model. 2015; 39(23-24):7401-19. [DOI:10.1016/j.apm.2015.03.004]
17.Singh S, Singh S, Banga VK. Design of fuzzy logic system framework using evolutionary techniques. Soft Comput. 2020; 24(6):4455-68. [DOI:10.1007/s00500-019-04207-9]
18.López-Campos JA, Segade A, Fernández JR, Casarejos E, Vilán J. Behavior characterization of visco-hyperelastic models for rubber-like materials using genetic algorithms. Appl Math Model. 2019; 66:241-55. [DOI:10.1016/j.apm.2018.08.031]
19.Mansourypoor F, Asadi S. Development of a reinforcement learning-based evolutionary fuzzy rule-based system for diabetes diagnosis. Comput Biol Med. 2017; 91:337-52. [PMID]
20.Tan CH, Tan MS, Chang SW, Yap KS, Yap HJ, Wong SY. Genetic algorithm fuzzy logic for medical knowledge-based pattern classification. J Eng Sci Technol. 2018; 13:242-58. [Link]
21.Vaishali R, Sasikala R, Ramasubbareddy S, Remya S, Nalluri S. Genetic algorithm based feature selection and MOE Fuzzy classification algorithm on Pima Indians Diabetes dataset. International Conference on Computing Networking and Informatics (ICCNI); 29-30 October 2017; Lagos, Nigeria. [DOI:10.1109/ICCNI.2017.8123815]