ÌÈÍÈÑÒÅÐÑÒÂÎ ÎÁÐÀÇÎÂÀÍÈß È ÍÀÓÊÈ
ÐÔ
Ôåäåðàëüíîå ãîñóäàðñòâåííîå
áþäæåòíîå îáðàçîâàòåëüíîå ó÷ðåæäåíèå
âûñøåãî îáðàçîâàíèÿ
«ÄÀÃÅÑÒÀÍÑÊÈÉ ÃÎÑÓÄÀÐÑÒÂÅÍÍÛÉ
ÓÍÈÂÅÐÑÈÒÅÒ»
Èíôîðìàòèêè è èíôîðìàöèîííûõ òåõíîëîãèé
ËÀÁÎÐÀÒÎÐÍÛÉ ÏÐÀÊÒÈÊÓÌ
Äëÿ áàêàëàâðîâ 2-ãî êóðñà ïî íàïðàâëåíèþ
«Ïðèêëàäíàÿ èíôîðìàòèêà â ýêîíîìèêå»
ïî äèñöèïëèíå
ÀÍÀËÈÒÈ×ÅÑÊÈÅ ÈÍÔÎÐÌÀÖÈÎÍÍÛÅ ÑÈÑÒÅÌÛ
Êàôåäðà Èíôîðìàöèîííûõ òåõíîëîãèé è ìîäåëèðîâàíèÿ ýêîíîìè÷åñêèõ
ïðîöåññîâ
ôàêóëüòåò Èíôîðìàòèêè è èíôîðìàöèîííûõ òåõíîëîãèé
Ðàçðàáîò÷èê:
ê.ý.í., äîöåíò êàôåäðû ÈÒèÌÝÏ Ðàáàäàíîâà Ð.Ì.
Îãëàâëåíèå
ËÀÁÎÐÀÒÎÐÍÛÅ
ÐÀÁÎÒÛ ÏÎ ÈÇÓ×ÅÍÈÞ ÂÎÇÌÎÆÍÎÑÒÅÉ ÀÍÀËÈÒÈ×ÅÑÊÎÉ ÏËÀÒÔÎÐÌÛ
Ëàáîðàòîðíàÿ
ðàáîòà ¹1. Çíàêîìñòâî ñ ÀÏ «Deductor
Ëàáîðàòîðíàÿ ðàáîòà ¹2. Ðåàëèçàöèÿ àëãîðèòìà ïîñòðîåíèÿ
Ëàáîðàòîðíàÿ
ðàáîòà ¹3. Ëîãèñòè÷åñêàÿ ðåãðåññèÿ è ROC-àíàëèç
Ëàáîðàòîðíàÿ
ðàáîòà ¹4. Ïðèìåíåíèå àëãîðèòìà êëàñòåðèçàöèè: ñàìîîðãàíèçóþùèåñÿ êàðòû
Êîõîíåíà
ËÀÁÎÐÀÒÎÐÍÛÅ
ÐÀÁÎÒÛ ÏÎ ÈÇÓ×ÅÍÈÞ ÈÀÑ «ÑÅÌÀÍÒÈ×ÅÑÊÈÉ ÀÐÕÈ»
Ëàáîðàòîðíàÿ
ðàáîòà ¹1. «Ñöåíàðèé ðàáîòû ïîëüçîâàòåëÿ ñ ìîäóëåì ïîèñêà «Èñêàòåëü»
Ëàáîðàòîðíàÿ
ðàáîòà ¹2. Äîáàâëåíèå äàííûõ â áàçû äàííûõ
Ëàáîðàòîðíàÿ
ðàáîòà ¹3. Ðàáîòà â âèòðèíå «Ñêâîçíîãî
ïîèñêà»
Ëàáîðàòîðíàÿ
ðàáîòà ¹4. Ïåðåíîñ äàííûõ èç ÀÐÌ
Ëàáîðàòîðíàÿ
ðàáîòà ¹5. Ïîñòðîåíèå ñåìàíòè÷åñêèõ ñåòåé
1.1.
Îñíîâíàÿ öåëü
Öåëüþ âûïîëíåíèÿ äàííîé ëàáîðàòîðíîé
ðàáîòû ÿâëÿåòñÿ:
-
ïîëó÷åíèå ïåðâîíà÷àëüíûõ ñâåäåíèé î âîçìîæíîñòÿõ
àíàëèòè÷åñêîé ïëàòôîðìû;
- èçó÷åíèå
îñíîâíûõ ìîäóëåé; ðàáîòà ñ ìàñòåðàìè èìïîðòà, ýêñïîðòà, îáðàáîòêè è
âèçóàëèçàöèè äàííûõ.
1.2.
Òåîðåòè÷åñêàÿ ÷àñòü
ÀÏ «Deductor» ïðèìåíèìà äëÿ ðåøåíèÿ áîëüøîãî ñïåêòðà çàäà÷, òàêèõ êàê
ñîçäàíèå àíàëèòè÷åñêîé îò÷åòíîñòè, ïðîãíîçèðîâàíèå, ïîèñê çàêîíîìåðíîñòåé è ïð.
Ìîæíî ñêàçàòü, ÷òî äàííàÿ ñèñòåìà ïðèìåíèìà â çàäà÷àõ, ãäå òðåáóåòñÿ
êîíñîëèäàöèÿ è îòîáðàæåíèå äàííûõ ðàçëè÷íûìè ñïîñîáàìè, ïîñòðîåíèå ìîäåëåé è
ïîñëåäóþùåå ïðèìåíåíèå ïîëó÷åííûõ ìîäåëåé
ê íîâûì äàííûì.
Ðàññìîòðèì
íåêîòîðûå çàäà÷è, ðåøàåìûå ÀÏ:
-
Ñèñòåìû
êîðïîðàòèâíîé îò÷åòíîñòè. Ãîòîâîå õðàíèëèùå äàííûõ è ãèáêèå ìåõàíèçìû
ïðåäîáðàáîòêè, î÷èñòêè, çàãðóçêè, âèçóàëèçàöèè ïîçâîëÿþò áûñòðî ñîçäàâàòü
çàêîí÷åííûå ñèñòåìû îò÷åòíîñòè â ñæàòûå ñðîêè.
- Îáðàáîòêà íåðåãëàìåíòèðîâàííûõ çàïðîñîâ. Êîíå÷íûé ïîëüçîâàòåëü ìîæåò ñ
ëåãêîñòüþ ïîëó÷èòü îòâåò íà âîïðîñû òèïà "Ñêîëüêî áûëî ïðîäàæ òîâàðà ïî
ãðóïïàì â Ìîñêîâñêóþ îáëàñòü çà
ïðîøëûé
ãîä ñ ðàçáèâêîé ïî ìåñÿöàì?" è ïðîñìîòðåòü ðåçóëüòàòû íàèáîëåå óäîáíûì äëÿ
íåãî ñïîñîáîì.
-
Àíàëèç
òåíäåíöèé è çàêîíîìåðíîñòåé, ïëàíèðîâàíèå, ðàíæèðîâàíèå. Ïðîñòîòà
èñïîëüçîâàíèÿ è èíòóèòèâíî ïîíÿòíàÿ ìîäåëü äàííûõ ïîçâîëÿåò âàì ïðîâîäèòü
àíàëèç ïî ïðèíöèïó «×òî, åñëè...?», ñîîòíîñèòü âàøè ãèïîòåçû ñî ñâåäåíèÿìè,
õðàíÿùèìèñÿ â áàçå äàííûõ, íàõîäèòü àíîìàëüíûå çíà÷åíèÿ, îöåíèâàòü ïîñëåäñòâèÿ
ïðèíÿòèÿ áèçíåñ-ðåøåíèé.
-
Ïðîãíîçèðîâàíèå.
Ïîñòðîèâ ìîäåëü íà èñòîðè÷åñêèõ ïðèìåðàõ, âû ìîæåòå èñïîëüçîâàòü åå äëÿ
ïðîãíîçèðîâàíèÿ ñèòóàöèè â áóäóùåì. Ïî ìåðå èçìåíåíèÿ ñèòóàöèè íåò
íåîáõîäèìîñòè ïåðåñòðàèâàòü âñå, íåîáõîäèìî âñåãî ëèøü äîîáó÷èòü ìîäåëü.
-
Óïðàâëåíèå
ðèñêàìè. Ðåàëèçîâàííûå â ñèñòåìå àëãîðèòìû äàþò âîçìîæíîñòü äîñòàòî÷íî òî÷íî îïðåäåëèòüñÿ ñ òåì, êàêèå
õàðàêòåðèñòèêè îáúåêòîâ è êàê âëèÿþò íà ðèñêè, áëàãîäàðÿ ÷åìó ìîæíî
ïðîãíîçèðîâàòü íàñòóïëåíèå ðèñêîâîãî ñîáûòèÿ è çàáëàãîâðåìåííî ïðèíèìàòü
íåîáõîäèìûå ìåðû ê ñíèæåíèþ ðàçìåðà âîçìîæíûõ íåáëàãîïðèÿòíûõ ïîñëåäñòâèé.
-
Àíàëèç
äàííûõ ìàðêåòèíãîâûõ è ñîöèîëîãè÷åñêèõ èññëåäîâàíèé. Àíàëèçèðóÿ
ñâåäåíèÿ î ïîòðåáèòåëÿõ, ìîæíî îïðåäåëèòü, êòî
ÿâëÿåòñÿ âàøèì êëèåíòîì è ïî÷åìó. Êàê èçìåíÿþòñÿ èõ ïðèñòðàñòèÿ â
çàâèñèìîñòè îò âîçðàñòà, îáðàçîâàíèÿ, ñîöèàëüíîãî ïîëîæåíèÿ, ìàòåðèàëüíîãî
ñîñòîÿíèÿ è ìíîæåñòâà äðóãèõ ïîêàçàòåëåé. Ïîíèìàíèå ýòîãî áóäåò ñïîñîáñòâîâàòü
ïðàâèëüíîìó ïîçèöèîíèðîâàíèþ âàøèõ ïðîäóêòîâ è ñòèìóëèðîâàíèþ ïðîäàæ.
-
Äèàãíîñòèêà.
Ìåõàíèçìû àíàëèçà, èìåþùèåñÿ â ñèñòåìå Deductor, ñ
óñïåõîì ïðèìåíÿþòñÿ â ìåäèöèíñêîé äèàãíîñòèêå è äèàãíîñòèêå ñëîæíîãî
îáîðóäîâàíèÿ. Íàïðèìåð, ìîæíî ïîñòðîèòü ìîäåëü íà îñíîâå ñâåäåíèé îá îòêàçàõ. Ïðè åå ïîìîùè áûñòðî ëîêàëèçîâàòü
ïðîáëåìû è íàõîäèòü ïðè÷èíû ñáîåâ.
-
Îáíàðóæåíèå
îáúåêòîâ íà îñíîâå íå÷åòêèõ êðèòåðèåâ. ×àñòî âñòðå÷àåòñÿ ñèòóàöèÿ, êîãäà íåîáõîäèìî îáíàðóæèòü
îáúåêò, îñíîâûâàÿñü íå íà òàêèõ ÷åòêèõ êðèòåðèÿõ,
êàê ñòîèìîñòü, òåõíè÷åñêèå õàðàêòåðèñòèêè ïðîäóêòà, à íà ðàçìûòûõ ôîðìóëèðîâêàõ, íàïðèìåð, íàéòè ïðîäóêòû,
ïîõîæèå íà âàøè ñ òî÷êè çðåíèÿ ïîòðåáèòåëÿ.
1.3.
Ïðàêòè÷åñêàÿ ÷àñòü
Ïîñëå çàïóñêà «Deductor Studio Academic» ïîÿâèòñÿ ãëàâíîå îêíî ïðîãðàììû.
Ãëàâíîå
îêíî ïîñëå çàïóñêà ïðîãðàììû Deductor Studio
Äëÿ íà÷àëà ðàáîòû íåîáõîäèìî ñîçäàòü
íîâûé ñöåíàðèé, âîñïîëüçóåìñÿ äëÿ ýòîãî ìàñòåðîì
èìïîðòà (êíîïêà â
ëåâîé ÷àñòè ãëàâíîãî îêíà ëèáî êëàâèøà F6).
Èìïîðò
äàííûõ âêëþ÷àåò â ñåáÿ:
-
âûáîð òèïà èñòî÷íèêà äàííûõ;
-
âûáîð ôàéëà èñòî÷íèêà äàííûõ;
-
óêàçàíèå ïàðàìåòðîâ èìïîðòà;
-
óêàçàíèå ïàðàìåòðîâ ñòîëáöîâ;
-
âûáîð ñïîñîáà îòîáðàæåíèÿ äàííûõ (ïðè âûáîðå
«Äèàãðàììû», «Ãèñòîãðàììû» èëè «OLAP-êóáà» ïîòðåáóåòñÿ äîïîëíèòåëüíî óêàçàòü ïàðàìåòðû
ïîñòðîåíèÿ);
- óêàçàíèå
èìåíè, ìåòêè è îïèñàíèÿ äàííûõ.
Âûïîëíèâ
âûøåóêàçàííûå äåéñòâèÿ ïî èìïîðòó äàííûõ, íà ïàíåëè «Ñöåíàðèè» ìû ïîëó÷èì íîâûé
óçåë, ñ çàäàííûìè èìåíåì, ìåòêîé è îïèñàíèåì.
Ïðèìåð ñîçäàíèÿ ñöåíàðèÿ, âêëàäêà «Ñòàòèñòèêà»
Èçó÷èì âîçìîæíîñòè
ìàñòåðà îáðàáîòêè
(êíîïêà â ëåâîé
÷àñòè ãëàâíîãî îêíà ëèáî êëàâèøà F7). Ïîñëå çàïóñêà ìàñòåðà îáðàáîòêè ïîÿâèòñÿ ñïèñîê âîçìîæíûõ ñïîñîáîâ îáðàáîòêè äàííûõ.
Ñïèñîê äîñòóïíûõ ñïîñîáîâ îáðàáîòêè äàííûõ
Âñå ñïîñîáû ðàçäåëåíû íà ÷åòûðå
îñíîâíûå ãðóïïû: î÷èñòêà äàííûõ, òðàíñôîðìàöèÿ äàííûõ, Data Mining, ïð. Êàæäûé ñïîñîá îáðàáîòêè èìååò íàçâàíèå è
êðàòêîå îïèñàíèå. Âûáîð ñïîñîáà çàâèñèò îò öåëåé îáðàáîòêè äàííûõ
(íàïðèìåð, ñîðòèðîâêà è ôèëüòðàöèÿ äàííûõ, ïîñòðîåíèå äåðåâà ðåøåíèé è ïð.).
Ìàñòåð âèçóàëèçàöèè ïîçâîëÿåò îïðåäåëèòü ñïîñîá îòîáðàæåíèÿ äàííûõ,
óêàçàòü ìåòêè è äîáàâèòü îïèñàíèå ê ïðîåêòó. Çàïóñòèòü åãî ìîæíî ñ ïîìîùüþ
êíîïêè ëèáî
êëàâèøåé F5.
Ãîòîâûé ïðîåêò ìîæíî ýêñïîðòèðîâàòü,
âîñïîëüçîâàâøèñü ìàñòåðîì ýêñïîðòà (êíîïêà îñíîâíîãî îêíà ëèáî êëàâèøà F8). Óêàçàâ ïàðàìåòðû,
ïðîåêò ìîæíî ïåðåíåñòè â îäèí èç äîñòóïíûõ ôîðìàòîâ.
1.4.
Çàäàíèå
1. Îïèøèòå
íàçíà÷åíèå è âîçìîæíîñòè ÀÏ «Deductor».
2.
Çàïóñòèòå
ïðîãðàììó «Deductor Studio Academic»,
îçíàêîìüòåñü ñ íàçíà÷åíèåì êíîïîê è êîíòåêñòíûì ìåíþ ãëàâíîãî îêíà ïðîãðàììû.
3. Âîñïîëüçóéòåñü ìàñòåðîì èìïîðòà äàííûõ
(èìïîðòèðóéòå ëþáîé ôàéë, íàïðèìåð èç C:\Program Files\ BaseGroup\ Deductor\ Samples\ *.txt ).
4.
Îçíàêîìüòåñü ñ äîñòóïíûìè ñïîñîáàìè îáðàáîòêè äàííûõ.
5. Èçó÷èòå
âîçìîæíîñòè ìàñòåðà âèçóàëèçàöèè è
ýêñïîðòà. Êàêèå ïàðàìåòðû äîñòóïíû äëÿ ìàñòåðà ýêñïîðòà äàííûõ?
6. Ñîçäàéòå îò÷åò.
2.1.
Îñíîâíàÿ öåëü
Èçó÷èòü àëãîðèòì «Ïîñòðîåíèå äåðåâà
ðåøåíèé» è íàó÷èòüñÿ îáðàáàòûâàòü ñ åãî ïîìîùüþ äàííûå.
2.2.
Òåîðåòè÷åñêàÿ ÷àñòü
Ñâîåâðåìåííàÿ ðàçðàáîòêà è ïðèíÿòèå ïðàâèëüíîãî
ðåøåíèÿ - ýòî îäíà èç
ãëàâíûõ çàäà÷ ðàáîòû
óïðàâëåí÷åñêîãî ïåðñîíàëà
îðãàíèçàöèè, ò.ê. íåîáäóìàííîå ðåøåíèå ìîæåò
äîðîãî îáîéòèñü êîìïàíèè. Çà÷àñòóþ íà ïðàêòèêå ðåçóëüòàò îäíîãî ðåøåíèÿ çàñòàâëÿåò íàñ ïðèíèìàòü ñëåäóþùåå
ðåøåíèå è ò. ä. Êîãäà æå íóæíî
ïðèíÿòü íåñêîëüêî ðåøåíèé â óñëîâèÿõ íåîïðåäåëåííîñòè, êîãäà êàæäîå ðåøåíèå
çàâèñèò îò èñõîäà ïðåäûäóùåãî, òî ïðèìåíÿþò
ñõåìó, íàçûâàåìóþ äåðåâîì ðåøåíèé.
Äåðåâî ðåøåíèé ýòî ãðàôè÷åñêîå
èçîáðàæåíèå ïðîöåññà ïðèíÿòèÿ ðåøåíèé, â
êîòîðîì îòðàæåíû àëüòåðíàòèâíûå ðåøåíèÿ, ñîîòâåòñòâóþùèå âåðîÿòíîñòè, è
âûèãðûøè äëÿ ëþáûõ êîìáèíàöèé àëüòåðíàòèâ.
Äåðåâî ðåøåíèé ïðåäñòàâëÿåò îäèí èç
ñïîñîáîâ ðàçáèåíèÿ ìíîæåñòâà äàííûõ íà êëàññû èëè êàòåãîðèè. Êîðåíü äåðåâà
íåÿâíî ñîäåðæèò âñå êëàññèôèöèðóåìûå äàííûå, à ëèñòüÿ îïðåäåëåííûå êëàññû ïîñëå
âûïîëíåíèÿ êëàññèôèêàöèè. Ïðîìåæóòî÷íûå óçëû äåðåâà ïðåäñòàâëÿþò ïóíêòû
ïðèíÿòèÿ ðåøåíèÿ î âûáîðå.
Ñòðóêòóðà äåðåâà ðåøåíèé
Ïîñòðîåíèå äåðåâà ðåøåíèé
Ïóñòü íàì çàäàíî íåêîòîðîå îáó÷àþùåå
ìíîæåñòâî T,
ñîäåðæàùåå îáúåêòû, êàæäûé èç êîòîðûõ õàðàêòåðèçóåòñÿ m àòðèáóòàìè, ïðè÷åì îäèí èç íèõ óêàçûâàåò íà
ïðèíàäëåæíîñòü îáúåêòà ê îïðåäåëåííîìó êëàññó.
Ïóñòü ÷åðåç {C1, C2, ... Ck} îáîçíà÷åíû êëàññû, òîãäà ñóùåñòâóþò 3 ñèòóàöèè:
- ìíîæåñòâî
T
ñîäåðæèò îäèí èëè áîëåå ïðèìåðîâ, îòíîñÿùèõñÿ ê îäíîìó êëàññó Ck. Òîãäà äåðåâî ðåøåíèé äëÿ Ò – ýòî ëèñò, îïðåäåëÿþùèé êëàññ Ck;
-
ìíîæåñòâî T íå
ñîäåðæèò íè îäíîãî ïðèìåðà, ò.å. ïóñòîå ìíîæåñòâî. Òîãäà ýòî ñíîâà ëèñò, è
êëàññ, àññîöèèðîâàííûé ñ ëèñòîì, âûáèðàåòñÿ èç äðóãîãî ìíîæåñòâà îòëè÷íîãî îò T, ñêàæåì,
èç ìíîæåñòâà, àññîöèèðîâàííîãî ñ ðîäèòåëåì;
-
ìíîæåñòâî T ñîäåðæèò ïðèìåðû, îòíîñÿùèåñÿ ê ðàçíûì êëàññàì.  ýòîì ñëó÷àå ñëåäóåò
ðàçáèòü ìíîæåñòâî T íà íåêîòîðûå ïîäìíîæåñòâà. Äëÿ
ýòîãî âûáèðàåòñÿ îäèí èç ïðèçíàêîâ, èìåþùèé äâà è áîëåå îòëè÷íûõ äðóã îò äðóãà çíà÷åíèé O1, O2, ... On. T ðàçáèâàåòñÿ íà ïîäìíîæåñòâà T1, T2, ... Tn, ãäå êàæäîå ïîäìíîæåñòâî Ti ñîäåðæèò âñå
ïðèìåðû, èìåþùèå çíà÷åíèå Oi äëÿ âûáðàííîãî
ïðèçíàêà. Ýòà ïðîöåäóðà áóäåò ðåêóðñèâíî ïðîäîëæàòüñÿ äî òåõ ïîð, ïîêà êîíå÷íîå
ìíîæåñòâî íå áóäåò ñîñòîÿòü èç
ïðèìåðîâ, îòíîñÿùèõñÿ ê îäíîìó è òîìó æå êëàññó.
Âûøåîïèñàííàÿ ïðîöåäóðà ëåæèò â îñíîâå
ìíîãèõ ñîâðåìåííûõ àëãîðèòìîâ ïîñòðîåíèÿ äåðåâà ðåøåíèé, ýòîò ìåòîä èçâåñòåí
åùå ïîä íàçâàíèåì «ðàçäåëåíèå è çàõâàò». Î÷åâèäíî, ÷òî ïðè èñïîëüçîâàíèè äàííîé
ìåòîäèêè ïîñòðîåíèå äåðåâà ðåøåíèé áóäåò ïðîèñõîäèòü ñâåðõó âíèç.
Îáëàñòè
ïðèìåíåíèÿ äåðåâà ðåøåíèé
Äåðåâî ðåøåíèé ÿâëÿåòñÿ ïðåêðàñíûì
èíñòðóìåíòîì â ñèñòåìàõ ïîääåðæêè ïðèíÿòèÿ ðåøåíèé, èíòåëëåêòóàëüíîãî àíàëèçà
äàííûõ (Data Mining).
 îáëàñòÿõ, ãäå âûñîêà öåíà îøèáêè, îíè ïîñëóæàò îòëè÷íûì ïîäñïîðüåì àíàëèòèêà
èëè ðóêîâîäèòåëÿ.
Äåðåâî ðåøåíèé óñïåøíî ïðèìåíÿåòñÿ äëÿ
ðåøåíèÿ ïðàêòè÷åñêèõ çàäà÷ â ñëåäóþùèõ îáëàñòÿõ:
- Áàíêîâñêîå äåëî. Îöåíêà
êðåäèòîñïîñîáíîñòè êëèåíòîâ áàíêà ïðè âûäà÷å
êðåäèòîâ.
-
Ïðîìûøëåííîñòü. Êîíòðîëü êà÷åñòâà ïðîäóêöèè
(âûÿâëåíèå äåôåêòîâ), èñïûòàíèÿ áåç ðàçðóøåíèé (íàïðèìåð, ïðîâåðêà êà÷åñòâà
ñâàðêè) è ò.ä.
-
Ìåäèöèíà. Äèàãíîñòèêà ðàçëè÷íûõ çàáîëåâàíèé.
- Ìîëåêóëÿðíàÿ áèîëîãèÿ. Àíàëèç
ñòðîåíèÿ àìèíîêèñëîò.
Ýòî äàëåêî íå ïîëíûé ñïèñîê îáëàñòåé,
ãäå ìîæíî èñïîëüçîâàòü äåðåâî ðåøåíèé, ò.ê. åùå ìíîãèå ïîòåíöèàëüíûå îáëàñòè
ïðèìåíåíèÿ íå èññëåäîâàíû.
2.3.
Ïðàêòè÷åñêàÿ ÷àñòü
Äëÿ çàãðóçêè äàííûõ ïðèìåðà èìïîðòèðóéòå ôàéë C:\Program
Files\BaseGroup\Deductor\Samples\CreditSample.txt
â ÀÏ «Deductor» ñ ïîìîùüþ ìàñòåðà èìïîðòà. Âñå ïàðàìåòðû èìïîðòà
ïðèìèòå óñòàíîâëåííûìè ïî óìîë÷àíèþ.  îêíå âûáîðà ñïîñîáà îòîáðàæåíèÿ äàííûõ
âûáåðèòå «Òàáëèöà», åñëè îí íå âûáðàí ïî óìîë÷àíèþ.
 ðåçóëüòàòå â îñíîâíîì îêíå ïîÿâèòñÿ
òàáëèöà, çàïîëíåííàÿ èç óêàçàííîãî ôàéëà.
Èòîã èìïîðòà äàííûõ
Çàïóñòèòå ìàñòåð îáðàáîòêè äàííûõ. Â ïîÿâèâøåìñÿ îêíå â ðàçäåëå Data Mining âûáåðåòå ìåòîä
îáðàáîòêè «Äåðåâî ðåøåíèé» è íàæìèòå «Äàëåå».
Ìàñòåð îáðàáîòêè äàííûõ
Íà âêëàäêå «Íàñòðîéêà çíà÷åíèÿ
ñòîëáöîâ» íåîáõîäèìî çàäàòü íàçíà÷åíèÿ ñòîëáöîâ äàííûõ. Ïî÷òè âñå ñòîëáöû
àâòîìàòè÷åñêè ïîëó÷èëè çíà÷åíèå «Âõîäíûå». Çíà÷åíèå ïîëÿ «Âûäàòü êðåäèò»,
êîòîðîå ïðèíèìàåò òîëüêî äâà çíà÷åíèÿ «Äà» èëè «Íåò», íåîáõîäèìî
óñòàíîâèòü â «Âûõîäíîå».
Òàêæå íåîáõîäèìî îáîçíà÷èòü
ñòîëáöû
«Êîä»
è «¹ ïàñïîðòà» êàê «Íåèñïîëüçóåìûå» (òàê êàê çíà÷åíèÿ ýòèõ ñòîëáöîâ óíèêàëüíû,
à ýòî íå ïîçâîëèò èõ êëàññèôèöèðîâàòü).
Îêíî íàñòðîéêè íàçíà÷åíèé ñòîëáöîâ
Äàëåå ñëåäóåò
îêíî íàñòðîéêè ðàçáèåíèÿ èñõîäíîãî ìíîæåñòâà äàííûõ íà ïîäìíîæåñòâà. Îñòàâüòå
ýòî îêíî áåç èçìåíåíèé è íàæìèòå êíîïêó «Äàëåå».
Ñëåäóþùèé ýòàï
– íàñòðîéêà ïàðàìåòðîâ îáó÷åíèÿ äåðåâà ðåøåíèé. Íåîáõîäèìî ó÷èòûâàòü, ÷òî ÷åì
áîëüøå çíà÷åíèå ïàðàìåòðà «Óðîâåíü
äîâåðèÿ, èñïîëüçóåìûé ïðè îòñå÷åíèè óçëîâ äåðåâà»,
òåì áîëüøå áóäåò äåðåâî ðåøåíèé â èòîãå.
Ñ ïîìîùüþ êíîïêè «Ïóñê» çàïóñêàåì
ïðîöåññ ïîñòðîåíèÿ äåðåâà ðåøåíèé. Ïî îêîí÷àíèè ïðîöåññà âû óâèäèòå ãðàôèê,
îòîáðàæàþùèé óðîâåíü ðàñïîçíàâàíèÿ äàííûõ, êîëè÷åñòâî óçëîâ ñîçäàííîãî äåðåâà è
ïðàâèë, ïîëó÷åííûõ â ðåçóëüòàòå îáðàáîòêè.
Ïðîöåññ ïîñòðîåíèÿ äåðåâà ðåøåíèé
 ïîñëåäóþùåì îêíå âûáîðà ñïîñîáà
îòîáðàæåíèÿ äàííûõ âûáåðèòå «Äåðåâî ðåøåíèé». À â ïîñëåäíåì îêíå ìàñòåðà
îáðàáîòêè, ïî æåëàíèþ, óêàæèòå èìÿ è
ìåòêó.
Ðåçóëüòàòîì âñåõ âûøåîïèñàííûõ äåéñòâèé
áóäåò ïîñòðîåííîå äåðåâî ðåøåíèé, êîòîðîå îòîáðàçèòñÿ â îñíîâíîì îêíå
ïðîãðàììû. Íà îñíîâàíèè ýòîãî ìåòîäà ìîæíî îòâåòèòü íà âîïðîñ «Äàâàòü ëè
÷åëîâåêó êðåäèò è åñëè äà, òî ïðè êàêèõ óñëîâèÿõ».
Ãîòîâîå äåðåâî ðåøåíèé
Èç
ïîëó÷åííîãî äåðåâà ìîæíî âûâåñòè ïðàâèëà âûäà÷è êðåäèòîâ.
Íàïðèìåð:
- Åñëè ñðîê
ïðîæèâàíèÿ â äàííîé ìåñòíîñòè ìåíüøå 6,5 ëåò, òî êðåäèò íå äàâàòü.
-
Åñëè ñðîê ïðîæèâàíèÿ â äàííîé
ìåñòíîñòè áîëüøå 6,5 ëåò, çàéì îáåñïå÷åí, âîçðàñò
áîëüøå 20,5 ëåò, íå èìååòñÿ
íåäâèæèìîñòü, íî èìååòñÿ áàíêîâñêèé ñ÷åò, òî êðåäèò äàâàòü.
2.4.
Çàäàíèå
1. Ïîñòðîéòå
äåðåâî ðåøåíèÿ äëÿ îïèñàííîãî âûøå ïðèìåðà. Ïîïðîáóéòå èñïîëüçîâàòü ðàçëè÷íûå
çíà÷åíèÿ ïàðàìåòðîâ îáó÷åíèÿ äåðåâà ðåøåíèÿ è ñðàâíèòå ïîëó÷åííûå äåðåâüÿ.
2.
Âûâåäèòå 5 ïðàâèë èç ïîñòðîåííîãî äåðåâà ðåøåíèé.
3. Ïðèâåäèòå
4-5 ïðèìåðîâ, äëÿ êîòîðûõ ìîæíî
èñïîëüçîâàòü ìåòîä îáðàáîòêè äåðåâî ðåøåíèé, ðåàëèçóéòå îäèí èç íèõ.
4. Ñîñòàâüòå îò÷åò.
3.1.
Îñíîâíàÿ öåëü
Íàó÷èòüñÿ îáðàáàòûâàòü äàííûå è
ïðîãíîçèðîâàòü ñîáûòèÿ, èñïîëüçóÿ âîçìîæíîñòè ëîãèñòè÷åñêîé ðåãðåññèè è ROC-àíàëèç.
3.2.
Òåîðåòè÷åñêàÿ ÷àñòü
Ëîãèñòè÷åñêàÿ
ðåãðåññèÿ — ìåòîä ïîñòðîåíèÿ
ëèíåéíîãî êëàññèôèêàòîðà, ïîçâîëÿþùèé îöåíèâàòü àïîñòåðèîðíûå âåðîÿòíîñòè
ïðèíàäëåæíîñòè îáúåêòîâ êëàññàì.
Âîîáùå, ðåãðåññèîííàÿ ìîäåëü
ïðåäíàçíà÷åíà äëÿ ðåøåíèÿ çàäà÷ ïðåäñêàçàíèÿ çíà÷åíèÿ íåïðåðûâíîé çàâèñèìîé
ïåðåìåííîé, ïðè óñëîâèè, ÷òî ýòà çàâèñèìàÿ ïåðåìåííàÿ ìîæåò ïðèíèìàòü çíà÷åíèÿ
íà èíòåðâàëå îò 0 äî 1.  ñèëó òàêîé ñïåöèôèêè åå ÷àñòî èñïîëüçóþò äëÿ
ïðåäñêàçàíèÿ âåðîÿòíîñòè íàñòóïëåíèÿ íåêîòîðîãî ñîáûòèÿ â çàâèñèìîñòè îò
çíà÷åíèé íåêîòîðîãî ÷èñëà ïðåäèêòîðîâ.
Ïðè
èçó÷åíèè ëèíåéíîé ðåãðåññèè ìû èññëåäóåì ìîäåëè âèäà
y = a + b1 x1 + b2 x2 +... + bn xn .
Çäåñü çàâèñèìàÿ ïåðåìåííàÿ y ÿâëÿåòñÿ íåïðåðûâíîé, è ìû
îïðåäåëÿåì íàáîð íåçàâèñèìûõ ïåðåìåííûõ xi è êîýôôèöèåíòû ïðè íèõ bi, êîòîðûå ïîçâîëèëè áû íàì ïðåäñêàçûâàòü ñðåäíåå
çíà÷åíèå y ñ ó÷åòîì íàáëþäàåìîé åå
èçìåí÷èâîñòè.
Âî ìíîãèõ ñèòóàöèÿõ, îäíàêî, y íå ÿâëÿåòñÿ íåïðåðûâíîé
âåëè÷èíîé, à ïðèíèìàåò âñåãî äâà âîçìîæíûõ çíà÷åíèÿ. Îáû÷íî åäèíèöåé â ýòîì
ñëó÷àå ïðåäñòàâëÿþò îñóùåñòâëåíèå êàêîãî-ëèáî ñîáûòèÿ (óñïåõ), à íóëåì - îòñóòñòâèå åãî ðåàëèçàöèè (íåóñïåõ).
Ñðåäíåå çíà÷åíèå y - îáîçíà÷åííîå ÷åðåç p, åñòü äîëÿ ñëó÷àåâ, â êîòîðûõ y ïðèíèìàåò çíà÷åíèå 1. Ìàòåìàòè÷åñêè ýòî ìîæíî çàïèñàòü
êàê p = P(y = 1) èëè p = P("Óñïåõ").
ROC-êðèâàÿ
èëè êðèâàÿ îøèáîê - ïîêàçûâàåò
çàâèñèìîñòü êîëè÷åñòâà âåðíî êëàññèôèöèðîâàííûõ ïîëîæèòåëüíûõ îáúåêòîâ (ïî îñè y) îò êîëè÷åñòâà íåâåðíî êëàññèôèöèðîâàííûõ
îòðèöàòåëüíûõ îáúåêòîâ (ïî îñè x).
 òåðìèíîëîãèè ROC - àíàëèçà ïåðâûå íàçûâàþòñÿ èñòèííî ïîëîæèòåëüíûì, âòîðûå – ëîæíî îòðèöàòåëüíûì ìíîæåñòâîì. Ïðè ýòîì ïðåäïîëàãàåòñÿ, ÷òî
ó êëàññèôèêàòîðà èìååòñÿ
íåêîòîðûé
ïàðàìåòð, âàðüèðóÿ êîòîðûé, ìû áóäåì ïîëó÷àòü òî
èëè èíîå ðàçáèåíèå íà äâà êëàññà. Ýòîò ïàðàìåòð ÷àñòî íàçûâàþò ïîðîãîì, èëè
òî÷êîé îòñå÷åíèÿ.  çàâèñèìîñòè îò íåãî áóäóò ïîëó÷àòüñÿ ðàçëè÷íûå âåëè÷èíû
îøèáîê I è II ðîäà.
Â
ëîãèñòè÷åñêîé ðåãðåññèè ïîðîã îòñå÷åíèÿ èçìåíÿåòñÿ îò 0 äî 1
– ýòî è
åñòü ðàñ÷åòíîå çíà÷åíèå óðàâíåíèÿ ðåãðåññèè. Áóäåì íàçûâàòü åãî ðåéòèíãîì.
Ââåä¸ì åù¸ íåñêîëüêî îïðåäåëåíèé:
TP (True Positives) – âåðíî êëàññèôèöèðîâàííûå ïîëîæèòåëüíûå ïðèìåðû
(òàê íàçûâàåìûå èñòèííî ïîëîæèòåëüíûå ñëó÷àè);
TN (True Negatives) – âåðíî êëàññèôèöèðîâàííûå îòðèöàòåëüíûå ïðèìåðû
(èñòèííî îòðèöàòåëüíûå ñëó÷àè);
FN (False Negatives) – ïîëîæèòåëüíûå ïðèìåðû, êëàññèôèöèðîâàííûå êàê
îòðèöàòåëüíûå (îøèáêà I ðîäà). Ýòî òàê íàçûâàåìûé
«ëîæíûé ïðîïóñê» – êîãäà èíòåðåñóþùåå íàñ ñîáûòèå îøèáî÷íî íå îáíàðóæèâàåòñÿ (ëîæíî îòðèöàòåëüíûå ïðèìåðû);
FP (False Positives) – îòðèöàòåëüíûå ïðèìåðû, êëàññèôèöèðîâàííûå êàê
ïîëîæèòåëüíûå (îøèáêà II ðîäà). Ýòî ëîæíîå îáíàðóæåíèå, ò.ê. ïðè îòñóòñòâèè ñîáûòèÿ îøèáî÷íî âûíîñèòñÿ
ðåøåíèå î åãî ïðèñóòñòâèè (ëîæíî ïîëîæèòåëüíûå
ñëó÷àè).
×òî ÿâëÿåòñÿ ïîëîæèòåëüíûì ñîáûòèåì, à
÷òî – îòðèöàòåëüíûì, çàâèñèò îò êîíêðåòíîé çàäà÷è. Íàïðèìåð, åñëè ìû
ïðîãíîçèðóåì âåðîÿòíîñòü íàëè÷èÿ çàáîëåâàíèÿ, òî ïîëîæèòåëüíûì èñõîäîì áóäåò
êëàññ «Áîëüíîé ïàöèåíò», îòðèöàòåëüíûì – «Çäîðîâûé ïàöèåíò». È íàîáîðîò, åñëè
ìû õîòèì îïðåäåëèòü âåðîÿòíîñòü òîãî, ÷òî ÷åëîâåê çäîðîâ, òî ïîëîæèòåëüíûì
èñõîäîì áóäåò êëàññ «Çäîðîâûé
ïàöèåíò», è òàê äàëåå.
Ïðè àíàëèçå ÷àùå îïåðèðóþò íå
àáñîëþòíûìè ïîêàçàòåëÿìè, à îòíîñèòåëüíûìè – äîëÿìè, âûðàæåííûìè â ïðîöåíòàõ:
Äîëÿ èñòèííî ïîëîæèòåëüíûõ ïðèìåðîâ (True Positives Rate):
TPR =
TP TP + FN
×100 %
Äîëÿ ëîæíî ïîëîæèòåëüíûõ ïðèìåðîâ (False Positives Rate):
FPR =
FP TN + FP
×100 %
Ââåäåì
åùå äâà îïðåäåëåíèÿ: ÷óâñòâèòåëüíîñòü è
ñïåöèôè÷íîñòü
ìîäåëè.
Èìè îïðåäåëÿåòñÿ îáúåêòèâíàÿ öåííîñòü ëþáîãî áèíàðíîãî êëàññèôèêàòîðà.
×óâñòâèòåëüíîñòü (Sensitivity) – äîëÿ èñòèííî ïîëîæèòåëüíûõ
ñëó÷àåâ:
Se = TPR =
TP TP + FN
×100 %
Ñïåöèôè÷íîñòü (Specificity) – äîëÿ èñòèííî îòðèöàòåëüíûõ
ñëó÷àåâ,
êîòîðûå áûëè ïðàâèëüíî èäåíòèôèöèðîâàíû ìîäåëüþ:
Sp =
TN TN + FP
×100 %
Ìîäåëü
ñ âûñîêîé ÷óâñòâèòåëüíîñòüþ ÷àñòî
äàåò èñòèííûé
ðåçóëüòàò ïðè íàëè÷èè ïîëîæèòåëüíîãî èñõîäà
(îáíàðóæèâàåò ïîëîæèòåëüíûå ïðèìåðû). Íàîáîðîò, ìîäåëü ñ âûñîêîé ñïåöèôè÷íîñòüþ
÷àùå äàåò èñòèííûé ðåçóëüòàò ïðè íàëè÷èè îòðèöàòåëüíîãî èñõîäà (îáíàðóæèâàåò
îòðèöàòåëüíûå ïðèìåðû).
ROC-êðèâàÿ
ïîëó÷àåòñÿ ñëåäóþùèì îáðàçîì:
1. Äëÿ
êàæäîãî çíà÷åíèÿ ïîðîãà îòñå÷åíèÿ, êîòîðîå ìåíÿåòñÿ îò 0 äî 1 ñ øàãîì dx (íàïðèìåð,
0,01), ðàññ÷èòûâàþòñÿ çíà÷åíèÿ ÷óâñòâèòåëüíîñòè Se è
ñïåöèôè÷íîñòè Sp. Â
êà÷åñòâå àëüòåðíàòèâû ïîðîãîì ìîæåò ÿâëÿòüñÿ êàæäîå ïîñëåäóþùåå çíà÷åíèå
ïðèìåðà â âûáîðêå.
2.
Ñòðîèòñÿ ãðàôèê çàâèñèìîñòè: ïî îñè y îòêëàäûâàåòñÿ ÷óâñòâèòåëüíîñòü Se, ïî îñè x – (100 %–Sp) (ñòî ïðîöåíòîâ ìèíóñ
ñïåöèôè÷íîñòü), èëè, ÷òî òî æå ñàìîå, FPR – äîëÿ ëîæíî
ïîëîæèòåëüíûõ ñëó÷àåâ.
×èñëåííûé ïîêàçàòåëü ïëîùàäè ïîä êðèâîé íàçûâàåòñÿ AUC (Area Under Curve). Ñ áîëüøèìè äîïóùåíèÿìè ìîæíî ñ÷èòàòü, ÷òî ÷åì áîëüøå ïîêàçàòåëü AUC, òåì ëó÷øåé ïðîãíîñòè÷åñêîé ñèëîé îáëàäàåò ìîäåëü. Îäíàêî ñëåäóåò çíàòü, ÷òî:
-
ïîêàçàòåëü AUC
ïðåäíàçíà÷åí ñêîðåå äëÿ ñðàâíèòåëüíîãî àíàëèçà íåñêîëüêèõ ìîäåëåé;
-
AUC íå ñîäåðæèò íèêàêîé èíôîðìàöèè î ÷óâñòâèòåëüíîñòè
è ñïåöèôè÷íîñòè ìîäåëè.
 ëèòåðàòóðå èíîãäà ïðèâîäèòñÿ
ñëåäóþùàÿ ýêñïåðòíàÿ øêàëà äëÿ çíà÷åíèé AUC, ïî êîòîðîé ìîæíî ñóäèòü î êà÷åñòâå ìîäåëè:
-
îòëè÷íîå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,9-1,0;
-
î÷åíü õîðîøåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,8-0,9;
-
õîðîøåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,7-0,8;
-
ñðåäíåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,6-0,7;
-
íåóäîâëåòâîðèòåëüíîå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,5-0,6.
Èäåàëüíàÿ ìîäåëü îáëàäàåò 100 % ÷óâñòâèòåëüíîñòüþ è ñïåöèôè÷íîñòüþ. Îäíàêî íà ïðàêòèêå äîáèòüñÿ ýòîãî íåâîçìîæíî, áîëåå òîãî, íåâîçìîæíî îäíîâðåìåííî ïîâûñèòü è ÷óâñòâèòåëüíîñòü, è ñïåöèôè÷íîñòü ìîäåëè. Êîìïðîìèññ íàõîäèòñÿ ñ ïîìîùüþ ïîðîãà îòñå÷åíèÿ, ò.ê. ïîðîãîâîå çíà÷åíèå âëèÿåò íà ñîîòíîøåíèå Se è Sp. Ìîæíî ãîâîðèòü î çàäà÷å íàõîæäåíèÿ îïòèìàëüíîãî ïîðîãà îòñå÷åíèÿ.
3.3.
Ïðàêòè÷åñêàÿ ÷àñòü
Èñïîëüçóÿ ìàñòåð èìïîðòà è ôàéë ñ äàííûìè, íàïðèìåð, C:\ProgramFiles\BaseGroup\Deductor\Samples\CreditSample.txt, ñîçäàéòå íîâûé ñöåíàðèé è èìïîðòèðóéòå äàííûå.
 ìàñòåðå îáðàáîòêè âûáåðèòå ñïîñîá îáðàáîòêè
«Ëîãèñòè÷åñêàÿ
ðåãðåññèÿ».
Âûáîð ìåòîäà «Ëîãèñòè÷åñêàÿ ðåãðåññèÿ»
Ïðåæäå ÷åì íà÷íåòñÿ îáðàáîòêà äàííûõ,
íåîáõîäèìî ïðîâåñòè íîðìàëèçàöèþ ïîëåé è íàñòðîèòü îáó÷àþùóþ âûáîðêó.
Íîðìàëèçàöèÿ
ïîëåé ïðîâîäèòñÿ ñ öåëü
ïðåîáðàçîâàíèÿ äàííûõ ê âèäó, ïîäõîäÿùåìó äëÿ îáðàáîòêè ñðåäñòâàìè ÀÏ «Deductor». Íàïðèìåð, ïðè ïîñòðîåíèè íåéðîííîé ñåòè, ëèíåéíîé ìîäåëè ïðîãíîçèðîâàíèÿ
èëè ñàìîîðãàíèçóþùèõñÿ êàðò «Âõîäÿùèå»
äàííûå
äîëæíû èìåòü ÷èñëîâîé òèï (ò.å. íåïðåðûâíûé
õàðàêòåð), à èõ çíà÷åíèÿ äîëæíû áûòü ðàñïðåäåëåíû â îïðåäåëåííîì äèàïàçîíå. Â
ýòîì ñëó÷àå ïðè íîðìàëèçàöèè äèñêðåòíûå äàííûå ïðåîáðàçóþòñÿ â íàáîð
íåïðåðûâíûõ çíà÷åíèé.
Íàñòðîéêà
íîðìàëèçàöèè ïîëåé âûçûâàåòñÿ ñ ïîìîùüþ
êíîïêè
«Íàñòðîéêà íîðìàëèçàöèè» â íèæíåé ëåâîé ÷àñòè îêíà
«Íàñòðîéêà íàçíà÷åíèÿ ñòîëáöîâ».
Âûçîâ îêíà íàñòðîéêè íîðìàëèçàöèè
 îêíå «Íàñòðîéêà íîðìàëèçàöèè äàííûõ» ñëåâà ïðèâåäåí ïîëíûé ñïèñîê âõîäíûõ è âûõîäíûõ ïîëåé. Ïðè ýòîì êàæäîå ïîëå ïîìå÷åíî çíà÷êîì, îáîçíà÷àþùèì âèä íîðìàëèçàöèè:
-
ëèíåéíàÿ
- ëèíåéíàÿ íîðìàëèçàöèÿ èñõîäíûõ çíà÷åíèé;
-
óíèêàëüíûå
çíà÷åíèÿ - ïðåîáðàçîâàíèå óíèêàëüíûõ çíà÷åíèé â èõ èíäåêñû;
-
áèòîâàÿ
ìàñêà - ïðåîáðàçîâàíèå äèñêðåòíûõ çíà÷åíèé â áèòîâóþ ìàñêó.
 ïðàâîé ÷àñòè îêíà äëÿ âûäåëåííîãî
ïîëÿ îòîáðàæàþòñÿ ïàðàìåòðû íîðìàëèçàöèè.
Îêíî íàñòðîéêè íîðìàëèçàöèè äàííûõ
Äëÿ ÷èñëîâûõ
(íåïðåðûâíûõ) ïîëåé ñ ëèíåéíîé íîðìàëèçàöèåé äîïîëíèòåëüíûå ïàðàìåòðû
íåäîñòóïíû. Â ïîëÿõ
«Ìèíèìóì» è
«Ìàêñèìóì» ñåêöèè «Äèàïàçîí çíà÷åíèé» ìîæíî ïîñìîòðåòü
ìèíèìàëüíîå è ìàêñèìàëüíîå çíà÷åíèÿ ýòîãî ïîëÿ.
Äëÿ äèñêðåòíûõ
ïîëåé ìîãóò áûòü èñïîëüçîâàíû äâà âèäà íîðìàëèçàöèè - óíèêàëüíûå çíà÷åíèÿ è áèòîâàÿ ìàñêà.
Åñëè äèñêðåòíûå çíà÷åíèÿ ïðåîáðàçóþòñÿ
â áèòîâóþ ìàñêó (ò.å. êàæäîìó óíèêàëüíîìó çíà÷åíèþ ñòàâèòñÿ â ñîîòâåòñòâèå
óíèêàëüíàÿ áèòîâàÿ êîìáèíàöèÿ), òî âîçìîæíû äâà ñïîñîáà òàêîãî ïðåîáðàçîâàíèÿ,
âûáèðàåìûå èç ñïèñêà «Ñïîñîá êîäèðîâàíèÿ»:
1. Ïîçèöèÿ
áèòà - ïîëå â ýòîì ñëó÷àå
ïðåäñòàâëÿåòñÿ â âèäå n áèòîâ,
ãäå n - ÷èñëî óíèêàëüíûõ çíà÷åíèé â
ïîëå. Êàæäûé áèò ñîîòâåòñòâóåò îäíîìó çíà÷åíèþ.  1 óñòàíàâëèâàåòñÿ òîëüêî áèò,
ñîîòâåòñòâóþùèé òåêóùåìó çíà÷åíèþ, ïðèíèìàåìîìó ïîëåì, âñå îñòàëüíûå áèòû ðàâíû 0. Ýòîò ñïîñîá êîäèðîâàíèÿ èñïîëüçóåòñÿ ïðè ìàëîì ÷èñëå óíèêàëüíûõ çíà÷åíèé.
2. Êîìáèíàöèÿ
áèòîâ - êàæäîìó óíèêàëüíîìó çíà÷åíèþ
ñîîòâåòñòâóåò ñâîÿ êîìáèíàöèÿ áèòîâ â äâîè÷íîì
âèäå.
Íàñòðîéêà îáó÷àþùåé âûáîðêè - ðàçáèåíèå
îáó÷àþùåé âûáîðêè íà äâà ìíîæåñòâà - îáó÷àþùåå
è òåñòîâîå - äëÿ ïîñòðîåíèÿ ëèíåéíîé
ìîäåëè.
Ïðèìåð íàñòðîéêè îáó÷àþùåé âûáîðêè
Îáó÷àþùåå
ìíîæåñòâî - âêëþ÷àåò
çàïèñè, êîòîðûå áóäóò èñïîëüçîâàòüñÿ â êà÷åñòâå âõîäíûõ äàííûõ, à òàêæå
ñîîòâåòñòâóþùèå æåëàåìûå âûõîäíûå çíà÷åíèÿ.
Òåñòîâîå
ìíîæåñòâî - òàêæå
âêëþ÷àåò çàïèñè, ñîäåðæàùèå âõîäíûå è æåëàåìûå âûõîäíûå çíà÷åíèÿ, íî
èñïîëüçóåìîå íå äëÿ îáó÷åíèÿ ìîäåëè, à äëÿ ïðîâåðêè åãî ðåçóëüòàòîâ.
Ïðèìå÷àíèå.
Oáó÷åíèå ìîæåò ñ áîëüøîé äîëåé âåðîÿòíîñòè ñ÷èòàòüñÿ óñïåøíûì, åñëè ïðîöåíò
ðàñïîçíàííûõ ïðèìåðîâ íà îáó÷àþùåì è òåñòîâîì ìíîæåñòâàõ äîñòàòî÷íî âåëèê.
Ñëåäóþùèé ýòàï – íàñòðîéêà ïàðàìåòðîâ
îñòàíîâêè îáó÷åíèÿ, êîòîðàÿ âêëþ÷àåò îïðåäåëåíèå ìàêñèìàëüíîãî ÷èñëà èòåðàöèé
(çàäàííàÿ òî÷íîñòü), çàäàíèå ôóíêöèè ïðàâäîïîäîáèÿ, ïîðîãà îòñå÷åíèÿ è
äîïóñòèìîñòü îøèáêè.
Íàñòðîéêà ïàðàìåòðîâ îñòàíîâêè îáó÷åíèÿ
Èòîãîì
ïðîâåäåíèÿ ðåãðåññèîííîãî àíàëèçà áóäåò ïîñòðîåííàÿ ROC-êðèâàÿ.
3.4.
Çàäàíèå
1. Ñ ïîìîùüþ ìàñòåðà èìïîðòà îòêðîéòå ôàéë (íàïðèìåð, C:\ProgramFiles\BaseGroup\Deductor\Samples\ CreditSample.txt).
2.
 ìàñòåðå
îáðàáîòêè âûáåðèòå «Ëîãèñòè÷åñêàÿ ðåãðåññèÿ».
3. Ïðîâåäèòå íàñòðîéêó íîðìàëèçàöèè ïîëåé.
4. Íàñòðîéòå îáó÷àþùóþ âûáîðêó.
5. Ïðîàíàëèçèðóéòå ïîëó÷åííûå äàííûå.
6. Ñîçäàéòå îò÷åò.
4.1.
Îñíîâíàÿ öåëü
Íàó÷èòüñÿ èñïîëüçîâàòü ìåòîä îáðàáîòêè äàííûõ
«Ñàìîîðãàíèçóþùèåñÿ êàðòû Êîõîíåíà».
Èìïîðòèðóéòå â ÀÏ «Deductor» èñõîäíûå äàííûå èç ôàéëà C:\Program\Files\BaseGroup\Deductor\Samples\CreditSample.txt.
Ïðîöåññ ïîñòðîåíèÿ êàðòû Êîõîíåíà
ñîñòîèò èç 10 ýòàïîâ. Äàëåå ðàññìîòðèì ýòè ýòàïû ïîäðîáíåå.
Çàòåì çàïóñòèòå ìàñòåð îáðàáîòêè, â êîòîðîì â ðàçäåëå «Data Mining» âûáåðåòå ñïîñîá îáðàáîòêè äàííûõ «Êàðòà Êîõîíåíà», íàæìèòå «Äàëåå».
 îêíå íàñòðîéêè íàçíà÷åíèÿ ñòîëáöîâ
íåîáõîäèìî îáîçíà÷èòü ñòîëáöû «Êîä» è «¹ ïàñïîðòà» êàê «Íåèñïîëüçóåìûå» (òàê
êàê çíà÷åíèÿ ýòèõ ñòîëáöîâ óíèêàëüíû, à ýòî íå ïîçâîëèò èõ êëàññèôèöèðîâàòü ïî
îáùèì ïðèçíàêàì). Îïðåäåëèòå ïîëå «Äàâàòü êðåäèò» êàê «Âûõîäíîå».
Ïðèìåð íàñòðîéêè íàçíà÷åíèé ñòîëáöîâ
Íàñòðîéêó îáó÷àþùåé âûáîðêè è ïàðàìåòðîâ êàðòû Êîõîíåíà ìîæíî îñòàâèòü áåç èçìåíåíèé.
Íàñòðîéêà ïàðàìåòðîâ êàðòû Êîõîíåíà
Íàñòðîéòå ïàðàìåòðû îñòàíîâêè îáó÷åíèÿ, óêàçàâ óðîâåíü äîïóñòèìîé ïîãðåøíîñòè,
åñëè îí áóäåò ïðåâûøåí, àíàëèç äàííîãî
ìíîæåñòâà áóäåò ïðåêðàùåí. Ìîæíî îñòàâèòü çíà÷åíèÿ «ïî óìîë÷àíèþ».
Íàñòðîéêà ïàðàìåòðîâ îñòàíîâêè îáó÷åíèÿ
Íàñòðîéêó
ïàðàìåòðîâ îáó÷åíèÿ òàêæå îñòàâüòå áåç èçìåíåíèé.
Äàëåå çàïóñòèòå ïðîöåññ ïîñòðîåíèÿ êàðòû Êîõîíåíà, íàæàâ êíîïêó «Ïóñê».
Èòîã ïîñòðîåíèÿ êàðòû Êîõîíåíà
Íà âêëàäêå «Âûáîð ñïîñîáà îòîáðàæåíèÿ
äàííûõ» ïîñòàâüòå ãàëî÷êó íàïðîòèâ ïóíêòà «Ñàìîîðãàíèçóþùàÿñÿ êàðòà Êîõîíåíà».
Òåïåðü íåîáõîäèìî ïðîâåñòè íàñòðîéêó
îòîáðàæåíèÿ êàðòû: îòìåòüòå ðàçäåëû «Äàâàòü êðåäèò» è «Êëàñòåðû» è äðóãèå
ðàçäåëû ïî æåëàíèþ.
Íàñòðîéêà îòîáðàæåíèé êàðòû Êîõîíåíà
Äàëåå
çàäàéòå èìÿ, ìåòêó è îïèñàíèå êàðòû (ïî æåëàíèþ).
 ðåçóëüòàòå ïîëó÷àòñÿ êàðòû Êîõîíåíà, ïîäîáíûå èçîáðàæåííûì íà ðèñóíêå.
Ïðèìåðû êàðò Êîõîíåíà
Ùåëêíóâ ëåâîé êëàâèøåé ìûøè ïî ëþáîìó
øåñòèóãîëüíèêó íà ëþáîé êàðòå, âûäåëÿòñÿ ñîîòâåòñòâóþùèå åìó ÿ÷åéêè íà
îñòàëüíûõ êàðòàõ, â òîì ÷èñëå íà êàðòàõ «Äàâàòü êðåäèò» è «Êëàñòåðû». Ïðè ýòîì
íà øêàëàõ â íèæíåé ÷àñòè êàðò îòîáðàçÿòñÿ çíà÷åíèÿ ñîîòâåòñòâóþùèõ ïàðàìåòðîâ.
4.2.
Çàäàíèå
1.
Âûïîëíèòå îïèñàííûå âûøå äåéñòâèÿ ïî ïîñòðîåíèþ
êàðò Êîõîíåíà. Ïðîàíàëèçèðóéòå ðåçóëüòàòû, ÷òî ìîæíî
ñêàçàòü î âåðîÿòíîñòè âîçâðàòà êðåäèòà
äëÿ ãðóïï 2, 3 è 4?
2.
Èñïîëüçóÿ ðàçëè÷íûå îòîáðàæåíèÿ êàðòû Êîõîíåíà, ïîñòðîéòå 3-4
ïðàâèëà âûäà÷è êðåäèòîâ.
3. Îòâåòüòå íà âîïðîñû:
- äëÿ
÷åãî èñïîëüçóþòñÿ êàðòû Êîõîíåíà?
- ïî
êàêîìó ïðèíöèïó ïðîèñõîäèò ïåðåíîñ ìíîãîìåðíîãî ïðîñòðàíñòâà íà ïðîñòðàíñòâî
ìåíüøåé ðàçìåðíîñòè?
4. Ïîäãîòîâüòå îò÷åò.
1.1.
Îñíîâíàÿ öåëü
Íàó÷èòüñÿ ðàáîòàòü ñ ìîäóëåì ïîèñêà
«Èñêàòåëü», ñîçäàâàòü àâòîìàòè÷åñêèå çàäàíèÿ, èçó÷èòü ÿçûê çàïðîñîâ ìîäóëÿ.
1.2.
Ïîÿñíåíèÿ ê âûïîëíåíèþ ðàáîòû
Ïðåæäå ÷åì ïðèñòóïèòü ê ïîèñêó
èíôîðìàöèè, íåîáõîäèìî îïðåäåëèòü ðàìêè èññëåäóåìîé îáëàñòè, ïîñòàâèòü
êîíêðåòíûå öåëè èññëåäîâàíèÿ è ñôîðìóëèðîâàòü âîïðîñû. Åñòåñòâåííî, ÷òî íå
âàæíîé èíôîðìàöèè íåò, è çàðàíåå íå èçâåñòíî, â êàêîé èç èññëåäóåìûõ îáëàñòåé
áóäåò íàéäåí îòâåò. Íî ïîèñê âî âñåõ îáëàñòÿõ
ñðàçó ïðèâåäåò ê íàêîïëåíèþ ëèøíåé èíôîðìàöèè, íå êàñàþùåéñÿ èññëåäîâàíèÿ.
Òîëüêî çàðàíåå óñòàíîâëåííûå ðàìêè ïîìîãóò íàèáîëåå ýôôåêòèâíî ñïëàíèðîâàòü
ïðîöåññ ïîèñêà.
Ðàññìîòðèì îñíîâíûå ôóíêöèè
«Ñåìàíòè÷åñêîãî àðõèâà»:
-
àâòîìàòè÷åñêèé ñáîð òåìàòè÷åñêîé èíôîðìàöèè èç
ñåòè Èíòåðíåò;
-
àâòîìàòè÷åñêîå ñîçäàíèå áàçû òåêñòîâûõ äîêóìåíòîâ;
-
îáðàáîòêà òåìàòè÷åñêèõ çàïðîñîâ ê ïîèñêîâûì ñàéòàì (Yandex, Google è äð.).
Ýëåìåíòû îêíà ìîäóëÿ «Èñêàòåëü».
Ðàáî÷åå îêíî ïðîãðàììû «Èñêàòåëü»:
1 – ìåíþ
ìîäóëÿ; 2 – âûáîð ïîèñêà â Google; 3 – âûáîð ïîèñêà â Yandex;
4 –
ñòðîêà ââîäà ïîèñêîâîãî çàïðîñà; 5 –
èñêëþ÷àòü ïóñòûå ññûëêè; 6 – ïîêàçûâàòü ïóñòûå ññûëêè; 7 – ïîêàçûâàòü ôðàãìåíò ñòðîêè, ãäå
íàéäåí ïîèñêîâûé çàïðîñ; 8 - ïîêàçûâàòü âåñü òåêñò Èíòåðíåò-
-ñòðàíèöû;
9 – çàãðóçèòü çàïðîñ èç ôàéëà; 10 –
ñîõðàíèòü íàéäåííûå ðåçóëüòàòû â ôàéë; 11
- ñîõðàíèòü íàéäåííûå ðåçóëüòàòû â áàçó; 12 - íàñòðîéêà ìîäóëÿ; 13 -
âûçîâ ñïðàâêè; 14 - âûïîëíèòü ïîèñê;
15 - îñòàíîâèòü ïîèñê; 16 - ñïèñîê êëþ÷åâûõ âûðàæåíèé; 17 - ñîõðàíèòü âíåñåííûå èçìåíåíèÿ â òåêñò ñòàòüè; 18 -
âûðåçàòü èç òåêñòà
âûäåëåííûé ôðàãìåíò; 19 - êîïèðîâàòü âûäåëåííûé ôðàãìåíò òåêñòà; 20 - âñòàâèòü èç áóôåðà îáìåíà â òåêñò; 21 - ïîèñê/ïîäñâåòêà
âûðàæåíèé â òåêñòå ñòàòüè
Ýëåìåíòû ìåíþ «Ôàéë».