دوره 8، شماره 2 - ( تابستان 1401 )                   جلد 8 شماره 2 صفحات 183-168 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Ahouz F, Golabpour A, Shakibaeenia A. Proposing a Model for Diagnosing the Type 2 Diabetes Using a Self-Organizing Genetic Algorithm. JMIS 2022; 8 (2) :168-183
URL: http://jmis.hums.ac.ir/article-1-330-fa.html
آهوز فاطمه، گلاب‌پور امین، شکیبایی نیا عبدالحسین. یک روش استخراج قانون تشخیصی دیابت نوع 2با استفاده از الگوریتم ژنتیک خودسازمان‌دهنده. اطلاع‌رسانی پزشکی نوین. 1401; 8 (2) :168-183

URL: http://jmis.hums.ac.ir/article-1-330-fa.html


دکترای تخصصی انفورماتیک پزشکی، گروه فناوری اطلاعات سلامت، دانشکده پیراپزشکی، دانشگاه علوم‌پزشکی شاهرود، شاهرود، ایران.
متن کامل [PDF 6188 kb]   (807 دریافت)     |   چکیده (HTML)  (1650 مشاهده)
متن کامل:   (945 مشاهده)
مقدمه
در سال‌های اخیر، سیستم‌های فازی به‌طور موفقیت‌آمیزی در حیطه‌های متفاوت علوم، مانند مهندسی، علوم اجتماعی، علوم اقتصادی و به‌خصوص علوم‌پزشکی استفاده شده است [12]. قوانین فازی به‌واسطه قابلیت خوانایی بسیار بالا، تفسیر آسان توسط انسان و فراهم کردن دیدگاهی راجع به دانش تعبیه‌شده در سیستم‌های دسته‌بندی، بین کاربران محبوبیت زیادی پیدا کرده‌اند [4 ,3]. آن‌ها از قوانین زبانی برای توصیف سیستم‌ها استفاده می‌کنند که به‌آسانی کاربر تفسیر و بررسی‌شان می‌کند [5, 6]. از‌این‌رو یکی از کاربردهای مورد توجه آن‌ها در سیستم‌های حمایتی تصمیم‌گیری پزشکی است. جایی که کشف قوانین نهفته در داده‌ها و تفسیرپذیری این قوانین دارای اهمیت بالایی است. استخراج قوانین مؤثر موجود در داده‌ها با 2 شاخص صحت و تفسیرپذیری بالا در افزایش دقت و سرعت تشخیص بیماری به متخصصان کمک می‌کند [7, 8, 9]. 
یکی از مهم‌ترین عوامل در طراحی سیستم‌های فازی، تولید قوانین فازی است. برای این کار 2 راهکار اصلی وجود دارد. در روش اول قوانین را فرد خبره تولید می‌‌کند. این روش به‌خصوص در مسائل کنترلی با تعداد ورودی کم به‌ کار می‌رود [5]. روش دوم، تولید خودکار قوانین با استفاده از تکنیک‌های نوروفازی، روش‌های خوشه‌بندی و الگوریتم‌های تکاملی است [10, 11].
بیماری دیابت احتمال مرگ زودرس را افزایش داده و علت اصلی بیماری‌های دیگر، ازجمله نارسایی کلیه، سکته قلبی و مغزی و نابینایی است [12 ,13]. یکی از مجموعه داده‌های پرکاربرد در ارزیابی سیستم‌های تشخیصی دیابت، مجموعه داده دیابت پیما است؛ دلیل انتخاب این مجموعه توسط محققان، در کنار چالش‌برانگیز بودن این مجموعه داده، به‌واسطه وجود مقادیر گمشده و داده‌های پرت، شیوع بسیار بالا و آمار خاص بیماری دیابت در میان سرخپوستان پیما آرززوناست [14]. در این بخش برخی از کارهای صورت‌گرفته روی این مجموعه داده بررسی می‌شود.
در سال 2019 یک پژوهش با استفاده از مدل ترکیبی فازی‌ژنتیک جهت دسته‌بندی دیابت روی دیتاست پیما ارائه شده است. نویسندگان از الگوریتم ژنتیک جهت تعیین پارامترهای بهینه این تابع و تولید قوانین استفاده کرده‌اند. صحت مدل پیشنهادی را با استفاده از روش اجرای اعتبارسنجی متقاطع، 5 فولد برابر با 85/82 درصد گزارش دادند. در این مقاله تعداد قوانین تولید‌شده و ویژگی‌های منتخب در قوانین ذکر نشده است [15]. 
در دسته‌بندی فازی مبتنی بر قانون از داده‌های پزشکی ارائه شده است. جهت تولید مجموعه قوانین بهینه، یافتن بهترین پارامترها برای توابع عضویت و انتخاب متغیرها از الگوریتم بهینه‌سازی چند‌هدفه NSGA II‌ استفاده شده است. نویسندگان نوآوری مقاله را در معرفی معیارهایی، جهت اندازه‌گیری تفسیرپذیری سیستم‌های دسته‌بندی فازی، نمایشی مستقل از کدگذاری خاص از پایگاه قوانین و ارائه عملگرهای ژنتیکی برای پردازش نمایش ارائه‌شده عنوان کردند. بهترین مقدار گزارش‌شده از اجرای مدل به ازای تقسیم مجموعه داده به‌صورت 1:9 دارای صحت 81/5 درصد شامل 5 قانون، 3 ویژگی و 5 مجموعه فازی (ترم‌های زبانی) و 1/2 ویژگی به ازای هر قانون است [3].
در میان کارهای صورت‌گرفته، در توجه به استخراج قوانین منفرد با ارزش اخباری مثبت و منفی بالا غفلت شده است [141516]. با توجه به علاقه متخصصان به قوانین ساده و منفرد تشخیصی که قابلیت ارزیابی سریع و سادگی در به خاطر سپردن را دارند و همچنین از آنجا که بسیاری از مجموعه داده‌های پزشکی، ازجمله مجموعه داده دیابت پیما شامل پارامترهای بالینی حاصل انجام آزمایش است، طراحی مدلی جهت استخراج قوانین منفرد با کارایی بالا برحسب ارزش اخباری مثبت و منفی امری ضروری است. ازاین‌رو در این مقاله، یک سیستم دسته‌بندی ترکیبی ژنتیک‌فازی ارائه می‌شود که به‌طور خودکار از روی داده‌ها قوانین نهفته در آن‌ها را استخراج می‌کند. سپس با ارزیابی هریک از قوانین استخراج‌شده، بهترین قانون منفرد تشخیصی برای هریک از حالت‌های بیماری و عدم بیماری را ارائه می‌دهد. به‌علاوه، جهت حذف تأثیر انتخاب عملگرهای الگوریتم ژنتیک روی کارایی مدل، یک ساختار کروموزومی خودسازمان‌دهنده جدید پیشنهاد شده است. جهت ارزیابی مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شده است.
مواد و روش‌ها
در این مطالعه، طراحی پایگاه قانون سیستم‌های فازی ممدانی گذشته‌نگر با استفاده از داده‌های داده عمومی پیما بررسی می‌شود. محل انجام پژوهش دانشگاه صنعتی خاتم‌الانبیای بهبهان در سال 1400 بود. طراحی سیستم‌های منطق فازی یکی از محبوب‌ترین مسائل رام‌نشدنی است که در آن از محبوب‌ترین و جدیدترین الگوریتم‌های تکاملی استفاده می‌شود [17]. این مسئله شامل پارامترهایی، ازجمله شکل و مکان مجموعه‌های فازی، مقدم‌ها و تالی‌های پایگاه قانون فازی و سایر پارامترهای استراتژی مانند تجمیع، استلزام و روش‌های دیفازی‌سازی می‌شود. در این مقاله، طراحی پایگاه قانون سیستم‌های فازی ممدانی از داده‌ها بررسی می‌شود. تصویر شماره 1 توابع عضویت مورد استفاده جهت توصیف متغیرهای مجموعه داده را نشان می‌دهد.

در ابتدای الگوریتم هیچ قانونی در پایگاه قوانین و هیچ تابع عضویتی منتسب به متغیرهای فازی نیست. سپس، قوانین و توابع عضویت ازطریق الگوریتم ژنتیک تولید و بهینه می‌شوند [2]. تصویر شماره 2 فلوچارت مدل پیشنهادی را نشان می‌دهد.

الگوریتم ژنتیک 
الگوریتم ژنتیک محبوب‌ترین الگوریتم بهینه‌سازی متاهیوریستیک مبتنی بر تکامل است [17]. در حوزه‌های متفاوت، الگوریتم ژنتیک برای حل مسائل بهینه‌سازی چند‌هدفه و چند‌متغیره کارایی مناسبی از خود نشان داده است [18]. از الگوریتم ژنتیک برای انتخاب قانون استفاده می‌شود زیرمجموعه‌ای از قوانین اولیه که نرخ دسته‌بندی بالایی دارند، انتخاب شوند [19]. الگوریتم ژنتیک دارای چند گام اساسی است: تعریف ساختار کروموزومی، تولید جمعیت اولیه، تعیین تابع هدف، انتخاب، بازترکیب و جهش [16]. 
مدل پیشنهادی
در این مقاله یک سیستم دسته‌بندی ترکیبی ژنتیک‌فازی با هدف دست‌یابی به صحت بالا و تولید مجموعه قوانین فشرده و با تفسیرپذیری بسیار بالا طراحی شده است. مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شده است. این مجموعه دارای 768 رکورد شامل 268 فرد دارای دیابت و 500 فرد فاقد دیابت است. برای هر رکود 9 ویژگی شامل برچسب کلاس ذخیره شده است. یکی از مشکلات این مجموعه داده وجود مقادیر گمشده و داده‌های پرت است. در این برای جانهی مقادیر گمشده از روش KNNi و حذف داده‌های پرت از K-means استفاده شد [15 , 2]. پس از پیش‌پردازش تعداد رکودها به 590 رکورد کاهش یافت که شامل 212 فرد دارای دیابت و 378 فرد سالم بود. جهت تعیین ارتباط بین متغیرهای وابسته و مستقل از تست آماری تی استفاده شد. در آزمون آماری تی برای بررسی رابطه معناداری متغیرها و داشتن دیابت استفاده و مقدار 0/05 درصد به‌عنوان سطح معناداری در نظر گرفته شد.
در این پژوهش بهترین مجموعه قوانین تشخیصی برای دیابت توسط الگوریتم ژنتیک استخراج می‌شود. تک‌تک قوانین روی مجموعه داده ارزیابی و صحت آن‌ها محاسبه می‌شود. سپس بهترین قوانین منفرد با بالاترین ارزش اخباری مثبت برای تشخیص افراد دارای دیابت و بالاترین ارزش اخباری منفی برای افراد فاقد دیابت تعیین می‌شود. درنهایت پس از تعیین بهترین قوانین منفرد، قوانین تشخیصی ابتلا و عدم ابتلا به بیماری ترکیب و مجموعه‌ای شامل 2 قانون تشخیصی به‌عنوان خروجی مدل ارائه می‌شود. 
ازآنجا‌که تولید مجموعه قوانین فازی یک مسئله رام‌نشدنی است، امکان تولید تمام قوانین و سپس انتخاب از میان آن‌ها امکان‌پذیر نیست. اگر تعداد قوانین را 2 در نظر بگیریم و فرض کنیم هر ویژگی تنها با 3 مجموعه فازی و یک حالت بی‌اثر نشان داده شود، برای مجموعه داده پیما با 8 ویژگی در هر قانون و 1 برچسب کلاس دو‌حالته، 4^16×2^2 حالت متفاوت وجود خواهد داشت. مدت‌زمان اجرای داخلی‌ترین حلقه در شبیه‌سازی کامپیوتری 0/0032 ثانیه است که با توجه به تعداد دفعات تکرار 636 روز به طول خواهد انجامید. به همین دلیل جهت تولید و انتخاب مجموعه قوانین بهینه فازی از الگوریتم ژنتیک استفاده شده است. در مدل پیشنهادی، تمام مجموعه داده به‌عنوان مجموعه آموزش استفاده می‌شود، زیرا مجموعه داده استاندارد بوده و در سیستم‌های مبتنی بر قانون مجاز به تقسیم مجموعه داده به‌صورت آموزش و تست نیستیم. همچنین نمی‌توان از اجرای اعتبارسنجی متقاطع استفاده کرد، زیرا هر بار مجموعه قوانین جدیدی تولید خواهد شد.
پارامترهای الگوریتم ژنتیک
یکی از مؤلفه‌های الگوریتم ژنتیک عملگرهای بازترکیب و جهش هستند که تعیین نوع این عملگرها اغلب به‌صورت سعی و خطا انجام می‌شود. انتخاب این 2 عملگر تأثیر بسیاری روی نتیجه خواهد داشت، زیرا رفتار الگوریتم ژنتیک با روابط اکتشافی و بهره‌وری تعیین می‌شود که به ترتیب متأثر از عملگرهای جهش و بازترکیب است [5]. در این مقاله، جهت حذف تأثیر نوع عملگرهای جهش و بازترکیب بر کارایی مدل و کاهش زمان تنظیم پارامترهای الگوریتم ژنتیک به روش سعی و خطا، یک ساختار کروموزومی جدید پیشنهاد می‌شود که ضمن تولید پایگاه قانون فازی، بهترین عملگر جهش و بازترکیب از میان روش‌های موجود را برای هر مجموعه داده تعیین می‌کند. ایده کار به این صورت است که در جمعیت اولیه به‌طور تصادفی به هر کروموزوم یک عملگر بازترکیب و جهش انتساب داده می‌شود. سپس زمانی که کروموزوم‌ها توسط عملگر انتخاب برای عمل ترکیب انتخاب می‌شوند، عملگر بازترکیبی که مربوط به والدی با بالاترین تناسب است برای تولید فرزندان اعمال می‌شود. با گذشت نسل‌ها و همگرایی نتایج، عملگر بازترکیب مربوط به افراد، با بالاترین تناسب بیشتر از سایرین انتخاب می‌شود. به این ترتیب عملگر بازترکیب بهینه برای مجموعه داده مورد‌بررسی به‌طور خودکار انتخاب می‌شود. همین روند برای عملگر جهش نیز صادق است.
ساختار کروموزومی در تصویر شماره 3 نشان داده شده است.

این کروموزوم شامل ژن‌هایی برای تعیین ترم‌های زبانی برای هر متغیر در مجموعه داده، ژنی برای تعیین نوع عملگر جهش، یک ژن برای تعیین نوع عملگر بازترکیب و یک ژن برای مقدار تناسب کروموزوم است. اندازه کروموزوم برحسب تعداد قوانین و تعداد ویژگی‌های موجود در مجموعه داده متفاوت است. اگر تعداد قوانین مورد‌نظر در پایگاه قانون فازی r باشد و مجموعه داده دارای n ویژگی باشد، اندازه کروموزوم از فرمول شماره 1 به دست خواهد آمد.

1. chroSize=r×n+3
محدوده ژن‌های 1 الی chroSize-2 مجموعه قوانین پایگاه داده را مشخص می‌کنند که در دسته‌های n تایی تقسیم شده‌اند. مقادیر این ژن‌ها مجموعه‌های فازی برای ترم‌های زبانی متغیرها را تعیین می‌کنند. به‌طور نظری هر متغیر فازی می‌تواند تعداد زیادی مجموعه فازی داشته باشد و هرکدام تابع عضویت خودشان را داشته باشند، اما معمولاً برای هر متغیر فازی، 3، 5، 7 یا 9 مجموعه استفاده می‌شود [5]. با داشتن شماره ژن، تفسیر مقدار ژن مدنظر در کروموزوم که با Gene(k) نشان داده می‌شود، با فرمول شماره 2 مشخص می‌شود.


که در آن yl معرف تالی قانون Lام و Al, m مجموعه فازی برای ویژگی mام از قانون lام را مشخص می‌کند. الگوریتم ژنتیک ازطریق تکرار مراحل در میان نسل‌ها راه‌حل بهینه را می‌یابد. هر نسل شامل چندین کروموزوم است.
جمعیت اولیه 300 فرد و شرط توقف الگوریتم رسیدن به تعداد نسل 1000 انتخاب شده است (این مقدار در منابعی ذکر شده است [8 ،1]. جهت کاهش تأثیر انتخاب‌های تصادفی، هر اجرای الگوریتم 10 دور تکرار می‌شود. نرخ بازترکیب 0/8 و نرخ جهش 0/5 انتخاب شده است. تناسب هر فرد برابر با صحت قانون فازی موجود در کروموزوم است که توسط سیستم خبره فازی محاسبه می‌شود. جمعیت اولیه به‌صورت تصادفی‌یکنواخت ایجاد می‌شود.
پس از ایجاد هر فرد، اعتبار کروموزوم بررسی می‌شود و کروموزوم هایی که دارای برچسب کلاسی یکسان در تمام قوانین هستند، به‌عنوان نامعتبر شناخته می‌شوند. در صورت یکی بودن تمام برچسب‌ها به‌طور تصادفی یکی از آن‌ها تغییر می‌کند. همچنین اگر حالت تمام ویژگی‌ها «بی‌اثر» باشد نیز کروموزوم نامعتبر است. در صورتی که کمتر از 2 ویژگی دارای حالت غیربی‌اثر باشد، به‌طور تصادفی الگوریتم مقدار یکی از ویژگی‌های بی‌اثر را به حالتی به‌جز حالت بی‌اثر تغییر می‌دهد.
عملگر بازترکیب از میان 12 عملگر شامل بازترکیب سه‌والدی، گسسته، اکتشافی، هموار، میانگین، نیمه‌یکنواخت، یکنواخت اکتشافی، تک‌نقطه‌ای‌، دو‌نقطه‌ای، یکنواخت، درهم‌ریزی و جایگزین کاهش‌یافته و عملگر جهش از میان 8 عملگر شامل جهش مکمل، یکنواخت، درجی‌، معکوس‌سازی مرکزی‌، کریپ‌، جابه‌جایی‌، تراورز و عملگر جهش ترواس انتخاب شده است. این عملگرها متداول‌ترین عملگرهایی مورد‌استفاده در کاربردهای ژنتیک هستند [15]. تابع انتخاب در این مقاله تابع‌های رنک‌بندی و تصادفی است. تابع رنک‌بندی به نحوی پیاده‌سازی شده است که در صورت برابر بودن تناسب افراد، اولویت با فردی باشد که در مجموعه قوانین خود تعداد حالت‌های «بی‌اثر» بیشتری داشته باشد. در ابتدا 60 درصد افراد با تابع تصادفی و 40 درصد باقی‌مانده توسط تابع رنک‌بندی انتخاب می‌شوند. با گذشت نسل‌ها، میزان افرادی که به‌طور تصادفی برای عملیات جهش یا بازترکیب انتخاب می‌شوند هر 10 نسل به میزان 5 درصد کاهش می‌یابد تا درصد انتخاب با تابع رنک‌بندی افزایش یابد تا به این ترتیب شانس انتخاب افرادی که صحت بالاتری دارند بیشتر شود. اما این مقدار هیچ‌گاه زیر 0/1 نخواهد شد. 
پیاده‌سازی روش پیشنهادی در نرم‌افزار متلب 2017 و تحلیل آماری توسط نرم‌افزارSPSS  نسخه 16 اجرا شده است.
مقایسه کارایی الگوریتم و روش‌های موجود
به‌دلیل اینکه تمامی کارهای مورد‌بررسی در این مقاله از تمام 768 رکورد مجموعه داده پیما استفاده کردند و وجود داده‌های پرت را نادیده گرفتند و امکان پیاده‌سازی روش‌های ذکر‌شده به دلیل مشخص نبودن تمام پارامترها یا عدم دسترسی به سخت افزارهای ذکر‌شده در آن مقالات میسر نیست، شرایط اجرای الگوریتم‌ها متفاوت بوده و امکان مقایسه صحت سیستم‌ها فراهم نیست. اما مجموعه قوانین به‌دست‌آمده به‌لحاظ قابلیت تفسیرپذیری با مجموعه قوانین به‌دست‌آمده در این مقاله مقایسه می‌شود.
یافته‌ها
جدول شماره 1 توصیف متغیرهای مجموعه داده را برحسب آماره‌های توصیفی میانگین، انحراف معیار و بازه تغییرات در 2 گروه افراد فاقد و دارای دیابت نشان می‌دهد.


همچنین نتایج آزمون آماری تی برای بررسی رابطه معناداری متغیرها و داشتن دیابت، استفاده و مقدار 0/05 درصد به‌عنوان سطح معناداری در نظر گرفته شد. 
بهترین مجموعه قوانین به‌دست‌آمده حاصل از اجرای روش پیشنهادی، در حالتی که تعداد مجموعه قوانین از 2 تا 7 قانون متغیر است و برای هر ویژگی مستقل در مجموعه داده به ترتیب 3، 5 و 7 ترم زبانی در نظر گرفته شده است، در جدول شماره 2 نشان داده شده است.


پس از به دست آمدن بهترین مجموعه قوانین، تمام 81 قانون منفرد منتخب توسط الگوریتم پیشنهادی، به‌صورت منفرد روی مجموعه داده پیما ارزیابی و صحت هر قانون محاسبه شد. سپس در میان قوانینی که جهت تشخیص ابتلا به دیابت بودند، قوانین با ارزش اخباری مثبت بالاتر از 70 درصد و در میان قوانینی که جهت تشخیص عدم ابتلا به دیابت بودند قوانین با ارزش اخباری منفی بالاتر از 80 درصد انتخاب شدند. نتیجه این بررسی 4 قانون ذکر‌شده در جدول 3 است.


قانون شماره 1 و 2 از مجموعه قوانین انتخاب‌شده با 5 حالت برای هر ویژگی و قوانین 3 و 4 از مجموعه قوانین با 7 حاالت برای هر ویژگی بهترین عملکرد را از میان 81 قانون داشته‌اند. با توجه به مقادیر ذکر‌شده در تصویر شماره 2 برای ترم‌های زبانی هر متغیر و با توجه به قانون شماره 1، اگر تعداد دفعات بارداری بالا باشد، علی‌رغم نرمال بودن ضخامت پوست چین سه سر، شخص مبتلا به دیابت است. براساس قانون شماره 2، اگر ضخامت پوست چین سه سر بالا باشد، علی‌رغم نرمال بودن شاخص توده بدنی شخص دارای دیابت است. براساس قانون شماره 3، اگر تعداد دفعات بارداری بسیار پایین باشد و قند خون نیز بسیار پایین باشد، شخص دارای دیابت نیست. براساس قانون شماره 4، فردی که دارای عدم سابقه خانوادگی در دیابت است و دارای فشار خون بسیار پایین است، مبتلا به دیابت نیست. جدول شماره 4 نتیجه حاصل از ترکیب بهترین قوانین منفرد و خروجی مدل پیشنهادی را ارائه می‌دهد.


مقایسه با سایر روش‌ها
جدول شماره 5 مقایسه کارایی روش پیشنهادی را برحسب تعداد قوانین انتخاب‌شده در پایگاه قانون نهایی، تعداد ترم‌های زبانی برای توصیف هر متغیر، تابع عضویت فازی، مجموع تعداد شرط‌ها در قوانین، تعداد رکوردهای مورد‌استفاده برای ساخت مدل و صحت با برخی از روش‌های موجود و بررسی‌شده در پیشینه مطالعه نشان می‌دهد.


هرچند پژوهشی با ارائه تنها یک قانون کوچک‌ترین مجموعه قانون تشخیصی را ارائه می‌دهد [15]، اما مجموعه قانون مدل پیشنهادی تفسیرپذیری بالاتری دارد. در زیر قانون ارائه‌شده، علی‌رغم کارایی مناسب با توجه به روابط ضربی و توانی در ویژگی‌ها، جهت استفاده توسط کاربر انسانی مناسب نیست.
IF ([BMI+0.003×[DP FUNCTION×(SERUM INS × BMI + AGE × AGE + (PG CONCENTRATION× PREGNANCIES) × PREGNANCIES)]+0.65×PG CONCENTRATION]>111) Then Diabetic else not-Diabetic
بحث
در این مقاله به دلیل اهمیت استخراج قوانین دقیق و تفسیرپذیری آن‌ها در سیستم‌های همیار پزشکی، یک مدل استخراج قانون با استفاده از الگوریتم ترکیبی ژنتیک‌فازی و با هدف تعیین فشرده‌ترین مجموعه قوانین با صحت بالا ارائه و روی مجموعه داده دیابت پیما ارزیابی شد. همچنین جهت جلوگیری از پیچیدگی تنظیم پارامترهای الگوریتم ژنتیک و حذف آن‌ها بر کارایی مدل، یک ساختار کروموزومی جدید با قابلیت تنظیم خودکار عملگرهای جهش و بازترکیب ارائه شد. بهترین مجموعه قوانین برحسب 2 معیار قابلیت تفسیرپذیری و صحت بالا، مجموعه قانونی با 2 قانون، 4 مجموعه ترم فازی به ازای هر مقدم در قانون و متوسط طول 2 به ازای هر قانون بود که به صحت 79/05 درصد دست یافت. تابع عضویت به‌کار‌رفته برای مجموعه متغیرهای زبانی تابع مثلثی متقارن است که به دلیل ثابت بودن عرض تمامی توابع درک مفاهیم را توسط کاربر انسانی ساده‌تر می‌کند.
نتیجه ارزیابی روش پیشنهادی روی مجموعه داده دیابت پیما نشان می‌دهد که روش پیشنهادی قادر به تولید مجموعه قوانین فشرده همراه با صحت بالاست. در میان 81 قانون تولید‌شده 4 قانون منفرد ذکر‌شده در جدول شماره 3 بالاترین کارایی را داشته‌اند. این قوانین موارد زیر را نشان می‌دهند:
• با توجه به قانون‌های 1 و 4، تعداد دفعات بارداری عامل مهمی در ابتلا یا عدم ابتلا به دیابت است. به‌نحوی‌که تعداد دفعات بارداری پایین احتمال عدم ابتلا به دیابت و تعداد دفعات بارداری بالا شانس ابتلا به دیابت را به‌شدت افزایش می‌دهد. تأثیر پایین بودن تعداد دفعات بارداری در عدم ابتلا و بالا بودن آن در ابتلا به دیابت بیان شده است [2021 ,15]. 
• با توجه به قوانین 1 و 2، ضخامت پوست چین سه سر بالا نشانه مهمی از ابتلا به دیابت است. این ویژگی در هر 2 قانون مربوط به تشخیص ابتلا به دیابت انتخاب شده است. همچنین این قانون در مطالعات مختلف بیان شده است [2021]. 
• با توجه به قانون شماره 2، شاخص توده بدنی بالا علامتی از ابتلا به دیابت است. همچنین این قانون در مطالعات مختلف بیان شده است [20 ,9, 10 ,3].
• با توجه به قانون شماره 3، قند خون پایین نشانه سلامت شخص است. تأثیر ویژگی قند در مطالعات مختلفی بیان شده است [20 ,15 ،9, 10 ,4].
• با توجه به قانون شماره 4 فشار خون پایین نشانه عدم ابتلا به دیابت است. ارتباط فشار خون پایین و عدم ابتلا به دیابت در برخی مطالعات بیان شده است [21 ,20 ,9].
• با توجه به قانون شماره 4، عدم وجود دیابت در سابقه خانوادگی شخص عامل مهم دیگری در عدم ابتلا به دیابت است [21 ,20 ,15 ,9, 10].
نتایج آزمون تی جهت بررسی ارتباط معنادار متغیرها با متغیر وابسته که در جدول شماره 1 آمده است نشان‌دهنده وجود ارتباط میان تمام متغیرهای مستقل با متغیر وابسته است. با‌این‌حال، در قوانین به‌دست‌آمده توسط روش پیشنهادی در هیچ قانونی تمام متغیرها انتخاب نشده‌اند. این امر نشان می‌دهد ارتباط میان متغیرها خطی نبوده و درنتیجه با روش‌های ساده آماری قابل‌کشف نیستند. درنتیجه نیاز به استفاده از روش‌های یادگیری ماشین و داده‌کاوی است. 
با توجه به نتایج حاصله که شامل معیارهای طول قوانین، تعداد قوانین و توابع عضویت است این معیارها از مهم‌ترین شاخص‌های تفسیرپذیری قوانین توسط کاربر انسانی هستند [19 ،10 ،16 ،3] مدل پیشنهادی شامل یک قانون تشخیصی افراد بیمار و یک قانون تشخیصی افراد فاقد بیماری است که تفسیرپذیری بالا ارائه می‌دهد. همچنین با توجه به نتایج‌ به‌دست‌آمده از ارزیابی مدل روی مجموعه داده دیابت پیما مدل پیشنهادی با دست‌یابی به صحت 79/05، ارزش اخباری مثبت 70/83 و ارزش اخباری منفی 81/41 درصد ضمن کارایی مناسب و قابلیت اعتماد بالا به نتایج قوانین تشخیصی، می‌تواند به‌عنوان یک مدل عمومی امیدبخش در سایر کاربردهای دسته‌بندی داده‌های پزشکی مورد استفاده قرار بگیرد.
نتیجه‌گیری
استخراج قوانین از مجموعه داده‌ها در کاربردهای تشخیص پزشکی، یک حوزه مهم در کشف دانش است؛ سیستم‌های فازی به جهت تولید قوانین قابل‌تفسیر توسط انسان، به‌عنوان یک ابزار محبوب در این کاربرد شناخته می‌شوند. جهت طراحی خودکار سیستم‌های فازی از روی داده‌ها، الگوریتم ژنتیک توانایی بالایی از خود نشان داده است. به همین دلیل در این مقاله یک سیستم ژنتیک‌فازی استخراج قانون خودسازمانده برای کاربردهای تشخیصی پزشکی پیشنهاد شد. جهت ارزیابی مدل پیشنهادی از مجموعه داده دیابت پیما استفاده شد. ضمن ارائه مجموعه قوانین تشخیصی، بهترین قوانین منفرد تشخیصی افراد فاقد و مبتلا به دیابت ارائه شد. تعداد کم قوانین وکوتاه بودن آن‌ها ازجمله ویژگی‌های مهم قوانین پیشنهادی است که درکنار پیاده‌سازی سریع، می‌تواند توسط متخصصان به‌آسانی ارزیابی و به خاطر سپرده شود.
از محدودیت‌های پژوهش استفاده از داده‌های عمومی و عدم ارزیابی قوانین پیشنهادی توسط متخصصین بالینی است. هرچند با مقالات مشابه، قوانین ارزیابی شده‌اند. پیشنهاد می‌شود مدل پیشنهادی روی داده‌های محلی اجرا شده و هریک از قوانین استخراجی را متخصصین ارزیابی کنند.

ملاحظات اخلاقی
پیروی از اصول اخلاق پژوهش

با توجه به اینکه در این مطالعه از مجموعه داده دیابت پیما که یک مجموعه داده عمومی است استفاده شده است نیازی به اخذ کد اخلاق وجود نداشت.
حامی مالی
این مقاله مستخرج از طرح پژوهشی (کد: 400-01-00) در دانشگاه صنعتی خاتم الانبیاء بهبهان بوده است. 
مشارکت نویسندگان
ایده مقاله: امین گلاب‌پور؛ نگارش مقاله و بحث: فاطمه آهوز؛ پیاده‌سازی مدل، روش، و ارزیابی و درصد همکاری: تمام نویسندگان. 
تعارض منافع
بنابر اظهار نویسندگان این مقاله تعارض منافع ندارد.

References
1.Ishibuchi H, Nojima Y, Kuwajima I. Genetic rule selection as a postprocessing procedure in fuzzy data mining. Int Symp Evolv Fuzzy Syst; 2006. [DOI:10.1109/ISEFS.2006.251149]
2.Ahouz F, Golabpour A. A novel compact rule extractor based on genetic-fuzzy algorithm. Paper presented at: 10th International Conference on Computer and Knowledge Engineering (ICCKE); 29-30 October 2020, Mashhad, Iran. [DOI:10.1109/ICCKE50421.2020.9303613]

3.Gorzałczany MB, Rudziński F. Interpretable and accurate medical data classification–a multi-objective genetic-fuzzy optimization approach. Expert Syst Appl. 2017; 71:26-39. [DOI:10.1016/j.eswa.2016.11.017]

4.Mitra S, Hayashi Y. Neuro-fuzzy rule generation: Survey in soft computing framework. IEEE Trans Neural Netw. 2000; 11(3):748-68. [PMID]

5.Shi Y, Eberhart R, Chen Y. Implementation of evolutionary fuzzy systems. IEEE Trans Fuzzy Syst. 1999;7(2):109-19. [DOI:10.1109/91.755393]

6.Ahouz F, Golabpour A. A novel structure of highly interpretable fuzzy rules extraction. Front Health Inform. 2021; 10(1):53. [DOI:10.30699/fhi.v10i1.253]

7.Shortliffe EH, Wiederhold G, Fagan LM, Perreault LE. Medical Informatics: Computer Applications in Health Care and Biomedicine. New York: Springer; 2013. [Link]

8.Sujatha R, Ephzibah EP, Dharinya S, Uma Maheswari G, Mareeswari V, Pamidimarri V. Comparative study on dimensionality reduction for disease diagnosis using fuzzy classifier. Int J Eng Technol. 2018; 7(1):79-84.[DOI:10.14419/ijet.v7i1.8652]

9.Seera M, Lim CP. A hybrid intelligent system for medical data classification. Expert Syst Appl. 2014; 41(5):2239-49. [DOI:10.1016/j.eswa.2013.09.022]

10.Chang X, Lilly JH. Evolutionary design of a fuzzy classifier from data. IEEE Trans Syst Man Cybern B Cybern. 2004; 34(4):1894-906.  [PMID]

11.GaneshKumar P, Rani C, Devaraj D, Victoire TAA. Hybrid ant bee algorithm for fuzzy expert system based sample classification. IEEE ACM Trans Comput Biol Bioinformatics. 2014; 11(2):347-60. [PMID]

12.Pinto CMA, Carvalho ARM. Diabetes mellitus and TB co-existence: Clinical implications from a fractional order modelling. Appl Math Model. 2019; 68:219-43. [DOI:10.1016/j.apm.2018.11.029]

13.Abedini S, Jomehpour S, Fallahi S, Ghanbarnejad A, Nikparvar M. [The effect of virtual education of cardiovascular risk factors on the knowledge of general physicians (Persian)]. J Mod Med Inf Sci. 2020; 6(1):31-6. [DOI:10.29252/jmis.6.1.32]

14.Schulz LO, Chaudhari LS. High-risk populations: The pimas of Arizona and Mexico. Curr Obes Rep. 2015; 4(1):92-8. [PMID]

15.Ahouz F, Sadehvand M, Golabpour A. Extracting rules for diagnosis of diabetes using genetic programming. Int J Health Stud. 2019; 5(3):23-32. [DOI:10.22100/ijhs.v5i3.691]

16.Feng TC, Li THS, Kuo PH. Variable coded hierarchical fuzzy classification model using DNA coding and evolutionary programming. Appl Math Model. 2015; 39(23-24):7401-19. [DOI:10.1016/j.apm.2015.03.004]

17.Singh S, Singh S, Banga VK. Design of fuzzy logic system framework using evolutionary techniques. Soft Comput. 2020; 24(6):4455-68. [DOI:10.1007/s00500-019-04207-9]

18.López-Campos JA, Segade A, Fernández JR, Casarejos E, Vilán J. Behavior characterization of visco-hyperelastic models for rubber-like materials using genetic algorithms. Appl Math Model. 2019; 66:241-55. [DOI:10.1016/j.apm.2018.08.031]

19.Mansourypoor F, Asadi S. Development of a reinforcement learning-based evolutionary fuzzy rule-based system for diabetes diagnosis. Comput Biol Med. 2017; 91:337-52. [PMID]

20.Tan CH, Tan MS, Chang SW, Yap KS, Yap HJ, Wong SY. Genetic algorithm fuzzy logic for medical knowledge-based pattern classification. J Eng Sci Technol. 2018; 13:242-58. [Link]
21.Vaishali R, Sasikala R, Ramasubbareddy S, Remya S, Nalluri S. Genetic algorithm based feature selection and MOE Fuzzy classification algorithm on Pima Indians Diabetes dataset. International Conference on Computing Networking and Informatics (ICCNI); 29-30 October 2017; Lagos, Nigeria. [DOI:10.1109/ICCNI.2017.8123815]
نوع مطالعه: پژوهشي | موضوع مقاله: تخصصي
دریافت: 1400/5/8 | پذیرش: 1401/2/18 | انتشار: 1401/4/10

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به مجله اطلاع رسانی پزشکی نوین می‌باشد.

طراحی و برنامه نویسی: یکتاوب افزار شرق

© 2024 CC BY-NC 4.0 | Journal of Modern Medical Information Sciences

Designed & Developed by: Yektaweb