ÌÈÍÈÑÒÅÐÑÒÂÎ ÎÁÐÀÇÎÂÀÍÈß È ÍÀÓÊÈ ÐÔ

Ôåäåðàëüíîå ãîñóäàðñòâåííîå áþäæåòíîå îáðàçîâàòåëüíîå ó÷ðåæäåíèå  âûñøåãî îáðàçîâàíèÿ

«ÄÀÃÅÑÒÀÍÑÊÈÉ ÃÎÑÓÄÀÐÑÒÂÅÍÍÛÉ ÓÍÈÂÅÐÑÈÒÅÒ»

Èíôîðìàòèêè è èíôîðìàöèîííûõ òåõíîëîãèé

 

 

 

 

ËÀÁÎÐÀÒÎÐÍÛÉ ÏÐÀÊÒÈÊÓÌ

 

Äëÿ áàêàëàâðîâ 2-ãî êóðñà ïî íàïðàâëåíèþ

«Ïðèêëàäíàÿ èíôîðìàòèêà â ýêîíîìèêå»

ïî äèñöèïëèíå

ÀÍÀËÈÒÈ×ÅÑÊÈÅ ÈÍÔÎÐÌÀÖÈÎÍÍÛÅ ÑÈÑÒÅÌÛ

 

Êàôåäðà Èíôîðìàöèîííûõ òåõíîëîãèé è ìîäåëèðîâàíèÿ ýêîíîìè÷åñêèõ ïðîöåññîâ 

ôàêóëüòåò Èíôîðìàòèêè è èíôîðìàöèîííûõ òåõíîëîãèé

       

 

Ðàçðàáîò÷èê: ê.ý.í., äîöåíò êàôåäðû ÈÒèÌÝÏ Ðàáàäàíîâà Ð.Ì.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Îãëàâëåíèå

ËÀÁÎÐÀÒÎÐÍÛÅ ÐÀÁÎÒÛ  ÏÎ ÈÇÓ×ÅÍÈÞ ÂÎÇÌÎÆÍÎÑÒÅÉ ÀÍÀËÈÒÈ×ÅÑÊÎÉ ÏËÀÒÔÎÐÌÛ... 2

«DEDUCTOR». 2

Ëàáîðàòîðíàÿ ðàáîòà ¹1. Çíàêîìñòâî ñ ÀÏ «Deductor. 2

Ëàáîðàòîðíàÿ ðàáîòà ¹2. Ðåàëèçàöèÿ àëãîðèòìà ïîñòðîåíèÿ. 6

äåðåâà ðåøåíèé. 6

Ëàáîðàòîðíàÿ ðàáîòà ¹3. Ëîãèñòè÷åñêàÿ ðåãðåññèÿ è ROC-àíàëèç. 14

Ëàáîðàòîðíàÿ ðàáîòà ¹4. Ïðèìåíåíèå àëãîðèòìà êëàñòåðèçàöèè: ñàìîîðãàíèçóþùèåñÿ êàðòû Êîõîíåíà. 22

ËÀÁÎÐÀÒÎÐÍÛÅ  ÐÀÁÎÒÛ ÏÎ ÈÇÓ×ÅÍÈÞ ÈÀÑ «ÑÅÌÀÍÒÈ×ÅÑÊÈÉ ÀÐÕÈ». 27

Ëàáîðàòîðíàÿ ðàáîòà ¹1. «Ñöåíàðèé ðàáîòû ïîëüçîâàòåëÿ ñ ìîäóëåì ïîèñêà «Èñêàòåëü»  27

Ëàáîðàòîðíàÿ ðàáîòà ¹2. Äîáàâëåíèå äàííûõ â áàçû äàííûõ. 36

Ëàáîðàòîðíàÿ ðàáîòà ¹3. Ðàáîòà â âèòðèíå  «Ñêâîçíîãî ïîèñêà». 42

Ëàáîðàòîðíàÿ ðàáîòà ¹4. Ïåðåíîñ äàííûõ èç ÀÐÌ... 52

«Îïåðàòîð» â «Àíàëèòèê». 52

Ëàáîðàòîðíàÿ ðàáîòà ¹5. Ïîñòðîåíèå ñåìàíòè÷åñêèõ ñåòåé. 58

 

 

 

ËÀÁÎÐÀÒÎÐÍÛÅ ÐÀÁÎÒÛ  ÏÎ ÈÇÓ×ÅÍÈÞ ÂÎÇÌÎÆÍÎÑÒÅÉ ÀÍÀËÈÒÈ×ÅÑÊÎÉ ÏËÀÒÔÎÐÌÛ

«DEDUCTOR»

 

Ëàáîðàòîðíàÿ ðàáîòà ¹1. Çíàêîìñòâî ñ ÀÏ «Deductor

 

1.1.   Îñíîâíàÿ öåëü

 

Öåëüþ âûïîëíåíèÿ äàííîé ëàáîðàòîðíîé ðàáîòû ÿâëÿåòñÿ:

-       ïîëó÷åíèå     ïåðâîíà÷àëüíûõ     ñâåäåíèé     î     âîçìîæíîñòÿõ àíàëèòè÷åñêîé ïëàòôîðìû;

-       èçó÷åíèå îñíîâíûõ ìîäóëåé; ðàáîòà ñ ìàñòåðàìè èìïîðòà, ýêñïîðòà, îáðàáîòêè è âèçóàëèçàöèè äàííûõ.

 

1.2.   Òåîðåòè÷åñêàÿ ÷àñòü

 

ÀÏ «Deductor» ïðèìåíèìà äëÿ ðåøåíèÿ áîëüøîãî ñïåêòðà çàäà÷, òàêèõ êàê ñîçäàíèå àíàëèòè÷åñêîé îò÷åòíîñòè, ïðîãíîçèðîâàíèå, ïîèñê çàêîíîìåðíîñòåé è ïð. Ìîæíî ñêàçàòü, ÷òî äàííàÿ ñèñòåìà ïðèìåíèìà â çàäà÷àõ, ãäå òðåáóåòñÿ êîíñîëèäàöèÿ è îòîáðàæåíèå äàííûõ ðàçëè÷íûìè ñïîñîáàìè, ïîñòðîåíèå ìîäåëåé è ïîñëåäóþùåå ïðèìåíåíèå ïîëó÷åííûõ  ìîäåëåé ê íîâûì äàííûì.

Ðàññìîòðèì íåêîòîðûå çàäà÷è,  ðåøàåìûå ÀÏ:

-  Ñèñòåìû êîðïîðàòèâíîé îò÷åòíîñòè. Ãîòîâîå õðàíèëèùå äàííûõ è ãèáêèå ìåõàíèçìû ïðåäîáðàáîòêè, î÷èñòêè, çàãðóçêè, âèçóàëèçàöèè ïîçâîëÿþò áûñòðî ñîçäàâàòü çàêîí÷åííûå ñèñòåìû îò÷åòíîñòè â ñæàòûå ñðîêè.

-  Îáðàáîòêà íåðåãëàìåíòèðîâàííûõ çàïðîñîâ. Êîíå÷íûé ïîëüçîâàòåëü ìîæåò ñ ëåãêîñòüþ ïîëó÷èòü îòâåò íà âîïðîñû òèïà "Ñêîëüêî áûëî ïðîäàæ òîâàðà ïî ãðóïïàì  â Ìîñêîâñêóþ  îáëàñòü   çà


ïðîøëûé ãîä ñ ðàçáèâêîé ïî ìåñÿöàì?" è ïðîñìîòðåòü ðåçóëüòàòû íàèáîëåå óäîáíûì äëÿ íåãî ñïîñîáîì.

-  Àíàëèç òåíäåíöèé è çàêîíîìåðíîñòåé, ïëàíèðîâàíèå, ðàíæèðîâàíèå. Ïðîñòîòà èñïîëüçîâàíèÿ è èíòóèòèâíî ïîíÿòíàÿ ìîäåëü äàííûõ ïîçâîëÿåò âàì ïðîâîäèòü àíàëèç ïî ïðèíöèïó «×òî, åñëè...?», ñîîòíîñèòü âàøè ãèïîòåçû ñî ñâåäåíèÿìè, õðàíÿùèìèñÿ â áàçå äàííûõ, íàõîäèòü àíîìàëüíûå çíà÷åíèÿ, îöåíèâàòü ïîñëåäñòâèÿ ïðèíÿòèÿ áèçíåñ-ðåøåíèé.

-  Ïðîãíîçèðîâàíèå. Ïîñòðîèâ ìîäåëü íà èñòîðè÷åñêèõ ïðèìåðàõ, âû ìîæåòå èñïîëüçîâàòü åå äëÿ ïðîãíîçèðîâàíèÿ ñèòóàöèè â áóäóùåì. Ïî ìåðå èçìåíåíèÿ ñèòóàöèè íåò íåîáõîäèìîñòè ïåðåñòðàèâàòü âñå, íåîáõîäèìî âñåãî ëèøü äîîáó÷èòü ìîäåëü.

-  Óïðàâëåíèå ðèñêàìè. Ðåàëèçîâàííûå â ñèñòåìå àëãîðèòìû äàþò âîçìîæíîñòü äîñòàòî÷íî òî÷íî îïðåäåëèòüñÿ ñ òåì, êàêèå õàðàêòåðèñòèêè îáúåêòîâ è êàê âëèÿþò íà ðèñêè, áëàãîäàðÿ ÷åìó ìîæíî ïðîãíîçèðîâàòü íàñòóïëåíèå ðèñêîâîãî ñîáûòèÿ è çàáëàãîâðåìåííî ïðèíèìàòü íåîáõîäèìûå ìåðû ê ñíèæåíèþ ðàçìåðà âîçìîæíûõ íåáëàãîïðèÿòíûõ ïîñëåäñòâèé.

-  Àíàëèç äàííûõ ìàðêåòèíãîâûõ è ñîöèîëîãè÷åñêèõ èññëåäîâàíèé. Àíàëèçèðóÿ ñâåäåíèÿ î ïîòðåáèòåëÿõ, ìîæíî îïðåäåëèòü, êòî  ÿâëÿåòñÿ âàøèì êëèåíòîì è ïî÷åìó. Êàê èçìåíÿþòñÿ èõ ïðèñòðàñòèÿ â çàâèñèìîñòè îò âîçðàñòà, îáðàçîâàíèÿ, ñîöèàëüíîãî ïîëîæåíèÿ, ìàòåðèàëüíîãî ñîñòîÿíèÿ è ìíîæåñòâà äðóãèõ ïîêàçàòåëåé. Ïîíèìàíèå ýòîãî áóäåò ñïîñîáñòâîâàòü ïðàâèëüíîìó ïîçèöèîíèðîâàíèþ âàøèõ ïðîäóêòîâ è ñòèìóëèðîâàíèþ ïðîäàæ.

-  Äèàãíîñòèêà. Ìåõàíèçìû àíàëèçà, èìåþùèåñÿ â ñèñòåìå Deductor, ñ óñïåõîì ïðèìåíÿþòñÿ â ìåäèöèíñêîé äèàãíîñòèêå è äèàãíîñòèêå ñëîæíîãî îáîðóäîâàíèÿ. Íàïðèìåð, ìîæíî ïîñòðîèòü ìîäåëü íà îñíîâå ñâåäåíèé îá îòêàçàõ. Ïðè åå ïîìîùè áûñòðî ëîêàëèçîâàòü ïðîáëåìû è íàõîäèòü ïðè÷èíû ñáîåâ.

-  Îáíàðóæåíèå îáúåêòîâ íà îñíîâå íå÷åòêèõ êðèòåðèåâ. ×àñòî âñòðå÷àåòñÿ ñèòóàöèÿ, êîãäà íåîáõîäèìî îáíàðóæèòü îáúåêò, îñíîâûâàÿñü íå íà òàêèõ ÷åòêèõ êðèòåðèÿõ, êàê ñòîèìîñòü, òåõíè÷åñêèå õàðàêòåðèñòèêè ïðîäóêòà, à íà ðàçìûòûõ  ôîðìóëèðîâêàõ, íàïðèìåð, íàéòè ïðîäóêòû, ïîõîæèå íà âàøè ñ òî÷êè çðåíèÿ ïîòðåáèòåëÿ.

 

1.3.      Ïðàêòè÷åñêàÿ ÷àñòü

 

Ïîñëå çàïóñêà «Deductor Studio Academic» ïîÿâèòñÿ ãëàâíîå îêíî ïðîãðàììû.


Ãëàâíîå îêíî ïîñëå çàïóñêà ïðîãðàììû Deductor Studio

 

Äëÿ íà÷àëà ðàáîòû íåîáõîäèìî ñîçäàòü íîâûé ñöåíàðèé, âîñïîëüçóåìñÿ äëÿ ýòîãî ìàñòåðîì èìïîðòà (êíîïêà  â ëåâîé ÷àñòè ãëàâíîãî îêíà ëèáî êëàâèøà F6).

Èìïîðò äàííûõ âêëþ÷àåò â ñåáÿ:

-       âûáîð òèïà èñòî÷íèêà äàííûõ;

-       âûáîð ôàéëà èñòî÷íèêà äàííûõ;

-       óêàçàíèå ïàðàìåòðîâ èìïîðòà;

-       óêàçàíèå ïàðàìåòðîâ ñòîëáöîâ;

-       âûáîð      ñïîñîáà      îòîáðàæåíèÿ      äàííûõ      (ïðè      âûáîðå

«Äèàãðàììû», «Ãèñòîãðàììû» èëè «OLAP-êóáà» ïîòðåáóåòñÿ äîïîëíèòåëüíî óêàçàòü ïàðàìåòðû ïîñòðîåíèÿ);

-       óêàçàíèå èìåíè, ìåòêè è îïèñàíèÿ äàííûõ.

Âûïîëíèâ âûøåóêàçàííûå äåéñòâèÿ ïî èìïîðòó äàííûõ, íà ïàíåëè «Ñöåíàðèè» ìû ïîëó÷èì íîâûé óçåë, ñ çàäàííûìè èìåíåì, ìåòêîé è îïèñàíèåì.


 

Ïðèìåð ñîçäàíèÿ ñöåíàðèÿ, âêëàäêà «Ñòàòèñòèêà»

 

Èçó÷èì  âîçìîæíîñòè  ìàñòåðà  îáðàáîòêè  (êíîïêà    â ëåâîé ÷àñòè ãëàâíîãî îêíà ëèáî êëàâèøà F7). Ïîñëå çàïóñêà ìàñòåðà îáðàáîòêè ïîÿâèòñÿ ñïèñîê âîçìîæíûõ ñïîñîáîâ îáðàáîòêè äàííûõ.

Ñïèñîê äîñòóïíûõ ñïîñîáîâ îáðàáîòêè äàííûõ


Âñå ñïîñîáû ðàçäåëåíû íà ÷åòûðå îñíîâíûå ãðóïïû: î÷èñòêà äàííûõ, òðàíñôîðìàöèÿ äàííûõ, Data Mining, ïð. Êàæäûé ñïîñîá îáðàáîòêè èìååò íàçâàíèå è êðàòêîå îïèñàíèå.  Âûáîð  ñïîñîáà çàâèñèò îò öåëåé îáðàáîòêè äàííûõ (íàïðèìåð, ñîðòèðîâêà è ôèëüòðàöèÿ äàííûõ, ïîñòðîåíèå äåðåâà ðåøåíèé è ïð.).

Ìàñòåð âèçóàëèçàöèè ïîçâîëÿåò îïðåäåëèòü ñïîñîá îòîáðàæåíèÿ äàííûõ, óêàçàòü ìåòêè è äîáàâèòü îïèñàíèå ê ïðîåêòó. Çàïóñòèòü åãî ìîæíî ñ ïîìîùüþ êíîïêè  ëèáî êëàâèøåé F5.

Ãîòîâûé ïðîåêò ìîæíî ýêñïîðòèðîâàòü, âîñïîëüçîâàâøèñü ìàñòåðîì ýêñïîðòà   (êíîïêà   îñíîâíîãî îêíà ëèáî êëàâèøà F8). Óêàçàâ ïàðàìåòðû, ïðîåêò ìîæíî ïåðåíåñòè â îäèí èç äîñòóïíûõ ôîðìàòîâ.

 

1.4.   Çàäàíèå

 

1.    Îïèøèòå íàçíà÷åíèå è âîçìîæíîñòè ÀÏ «Deductor».

2.    Çàïóñòèòå     ïðîãðàììó          «Deductor     Studio     Academic», îçíàêîìüòåñü ñ íàçíà÷åíèåì êíîïîê è êîíòåêñòíûì ìåíþ ãëàâíîãî îêíà ïðîãðàììû.

3.    Âîñïîëüçóéòåñü ìàñòåðîì èìïîðòà äàííûõ (èìïîðòèðóéòå ëþáîé ôàéë, íàïðèìåð èç C:\Program Files\ BaseGroup\ Deductor\ Samples\ *.txt ).

4.    Îçíàêîìüòåñü ñ äîñòóïíûìè ñïîñîáàìè îáðàáîòêè äàííûõ.

5.    Èçó÷èòå âîçìîæíîñòè ìàñòåðà âèçóàëèçàöèè è  ýêñïîðòà. Êàêèå ïàðàìåòðû äîñòóïíû äëÿ ìàñòåðà ýêñïîðòà äàííûõ?

6.    Ñîçäàéòå îò÷åò.

 

Ëàáîðàòîðíàÿ ðàáîòà ¹2. Ðåàëèçàöèÿ àëãîðèòìà ïîñòðîåíèÿ

äåðåâà ðåøåíèé

 

2.1.   Îñíîâíàÿ öåëü

 

Èçó÷èòü àëãîðèòì «Ïîñòðîåíèå äåðåâà ðåøåíèé» è íàó÷èòüñÿ îáðàáàòûâàòü ñ åãî ïîìîùüþ äàííûå.

 

2.2.   Òåîðåòè÷åñêàÿ ÷àñòü

 

Ñâîåâðåìåííàÿ ðàçðàáîòêà è ïðèíÿòèå ïðàâèëüíîãî ðåøåíèÿ - ýòî îäíà     èç     ãëàâíûõ     çàäà÷     ðàáîòû     óïðàâëåí÷åñêîãî  ïåðñîíàëà


îðãàíèçàöèè, ò.ê. íåîáäóìàííîå ðåøåíèå ìîæåò äîðîãî îáîéòèñü êîìïàíèè. Çà÷àñòóþ íà ïðàêòèêå ðåçóëüòàò îäíîãî  ðåøåíèÿ çàñòàâëÿåò íàñ ïðèíèìàòü ñëåäóþùåå ðåøåíèå è ò. ä. Êîãäà æå íóæíî ïðèíÿòü íåñêîëüêî ðåøåíèé â óñëîâèÿõ íåîïðåäåëåííîñòè, êîãäà êàæäîå ðåøåíèå çàâèñèò îò èñõîäà ïðåäûäóùåãî, òî ïðèìåíÿþò  ñõåìó, íàçûâàåìóþ äåðåâîì ðåøåíèé.

Äåðåâî ðåøåíèé ýòî ãðàôè÷åñêîå èçîáðàæåíèå ïðîöåññà  ïðèíÿòèÿ ðåøåíèé, â êîòîðîì îòðàæåíû àëüòåðíàòèâíûå ðåøåíèÿ, ñîîòâåòñòâóþùèå âåðîÿòíîñòè, è âûèãðûøè äëÿ ëþáûõ êîìáèíàöèé àëüòåðíàòèâ.

Äåðåâî ðåøåíèé ïðåäñòàâëÿåò îäèí èç ñïîñîáîâ ðàçáèåíèÿ ìíîæåñòâà äàííûõ íà êëàññû èëè êàòåãîðèè. Êîðåíü äåðåâà íåÿâíî ñîäåðæèò âñå êëàññèôèöèðóåìûå äàííûå, à ëèñòüÿ îïðåäåëåííûå êëàññû ïîñëå âûïîëíåíèÿ êëàññèôèêàöèè. Ïðîìåæóòî÷íûå óçëû äåðåâà ïðåäñòàâëÿþò ïóíêòû ïðèíÿòèÿ ðåøåíèÿ î âûáîðå.


Ñòðóêòóðà äåðåâà ðåøåíèé

 

Ïîñòðîåíèå äåðåâà ðåøåíèé

 

Ïóñòü íàì çàäàíî íåêîòîðîå îáó÷àþùåå ìíîæåñòâî T, ñîäåðæàùåå îáúåêòû, êàæäûé èç êîòîðûõ õàðàêòåðèçóåòñÿ m àòðèáóòàìè, ïðè÷åì îäèí èç íèõ óêàçûâàåò íà ïðèíàäëåæíîñòü îáúåêòà ê îïðåäåëåííîìó êëàññó.

Ïóñòü ÷åðåç {C1, C2, ... Ck} îáîçíà÷åíû êëàññû, òîãäà ñóùåñòâóþò 3 ñèòóàöèè:

-   ìíîæåñòâî T ñîäåðæèò îäèí èëè áîëåå ïðèìåðîâ, îòíîñÿùèõñÿ ê îäíîìó êëàññó Ck. Òîãäà äåðåâî ðåøåíèé äëÿ Ò – ýòî ëèñò, îïðåäåëÿþùèé êëàññ Ck;


-   ìíîæåñòâî T íå ñîäåðæèò íè îäíîãî ïðèìåðà, ò.å. ïóñòîå ìíîæåñòâî. Òîãäà ýòî ñíîâà ëèñò, è êëàññ, àññîöèèðîâàííûé ñ ëèñòîì, âûáèðàåòñÿ èç äðóãîãî ìíîæåñòâà îòëè÷íîãî îò T, ñêàæåì, èç ìíîæåñòâà, àññîöèèðîâàííîãî ñ ðîäèòåëåì;

-   ìíîæåñòâî T ñîäåðæèò ïðèìåðû, îòíîñÿùèåñÿ ê ðàçíûì êëàññàì.  ýòîì ñëó÷àå ñëåäóåò ðàçáèòü ìíîæåñòâî T íà íåêîòîðûå ïîäìíîæåñòâà. Äëÿ ýòîãî âûáèðàåòñÿ îäèí èç ïðèçíàêîâ, èìåþùèé äâà è áîëåå îòëè÷íûõ äðóã îò äðóãà çíà÷åíèé O1, O2, ... On. T ðàçáèâàåòñÿ íà ïîäìíîæåñòâà T1, T2, ... Tn, ãäå êàæäîå ïîäìíîæåñòâî  Ti ñîäåðæèò âñå ïðèìåðû, èìåþùèå çíà÷åíèå Oi äëÿ âûáðàííîãî ïðèçíàêà. Ýòà ïðîöåäóðà áóäåò ðåêóðñèâíî ïðîäîëæàòüñÿ äî òåõ ïîð, ïîêà êîíå÷íîå ìíîæåñòâî íå áóäåò ñîñòîÿòü èç ïðèìåðîâ, îòíîñÿùèõñÿ ê îäíîìó è òîìó æå êëàññó.

Âûøåîïèñàííàÿ ïðîöåäóðà ëåæèò â îñíîâå ìíîãèõ ñîâðåìåííûõ àëãîðèòìîâ ïîñòðîåíèÿ äåðåâà ðåøåíèé, ýòîò ìåòîä èçâåñòåí åùå ïîä íàçâàíèåì «ðàçäåëåíèå è çàõâàò». Î÷åâèäíî, ÷òî ïðè èñïîëüçîâàíèè äàííîé ìåòîäèêè ïîñòðîåíèå äåðåâà ðåøåíèé áóäåò ïðîèñõîäèòü ñâåðõó âíèç.

 

Îáëàñòè ïðèìåíåíèÿ äåðåâà ðåøåíèé

 

Äåðåâî ðåøåíèé ÿâëÿåòñÿ ïðåêðàñíûì èíñòðóìåíòîì â ñèñòåìàõ ïîääåðæêè ïðèíÿòèÿ ðåøåíèé, èíòåëëåêòóàëüíîãî àíàëèçà äàííûõ (Data Mining).  îáëàñòÿõ, ãäå âûñîêà öåíà îøèáêè, îíè ïîñëóæàò îòëè÷íûì ïîäñïîðüåì àíàëèòèêà èëè ðóêîâîäèòåëÿ.

Äåðåâî ðåøåíèé óñïåøíî ïðèìåíÿåòñÿ äëÿ ðåøåíèÿ ïðàêòè÷åñêèõ çàäà÷ â ñëåäóþùèõ îáëàñòÿõ:

-       Áàíêîâñêîå äåëî. Îöåíêà êðåäèòîñïîñîáíîñòè êëèåíòîâ áàíêà ïðè âûäà÷å êðåäèòîâ.

-       Ïðîìûøëåííîñòü. Êîíòðîëü êà÷åñòâà ïðîäóêöèè (âûÿâëåíèå äåôåêòîâ), èñïûòàíèÿ áåç ðàçðóøåíèé (íàïðèìåð, ïðîâåðêà êà÷åñòâà ñâàðêè) è ò.ä.

-       Ìåäèöèíà. Äèàãíîñòèêà ðàçëè÷íûõ çàáîëåâàíèé.

-       Ìîëåêóëÿðíàÿ áèîëîãèÿ. Àíàëèç ñòðîåíèÿ àìèíîêèñëîò.

Ýòî äàëåêî íå ïîëíûé ñïèñîê îáëàñòåé, ãäå ìîæíî èñïîëüçîâàòü äåðåâî ðåøåíèé, ò.ê. åùå ìíîãèå ïîòåíöèàëüíûå îáëàñòè ïðèìåíåíèÿ íå èññëåäîâàíû.


2.3.   Ïðàêòè÷åñêàÿ ÷àñòü

 

Äëÿ çàãðóçêè äàííûõ ïðèìåðà èìïîðòèðóéòå ôàéë C:\Program Files\BaseGroup\Deductor\Samples\CreditSample.txt â ÀÏ «Deductor» ñ ïîìîùüþ ìàñòåðà èìïîðòà. Âñå ïàðàìåòðû èìïîðòà ïðèìèòå óñòàíîâëåííûìè ïî óìîë÷àíèþ.  îêíå âûáîðà ñïîñîáà îòîáðàæåíèÿ äàííûõ âûáåðèòå «Òàáëèöà», åñëè îí íå âûáðàí ïî óìîë÷àíèþ.

 ðåçóëüòàòå â îñíîâíîì îêíå ïîÿâèòñÿ òàáëèöà, çàïîëíåííàÿ èç óêàçàííîãî ôàéëà.


Èòîã èìïîðòà äàííûõ

 

Çàïóñòèòå ìàñòåð îáðàáîòêè äàííûõ. Â ïîÿâèâøåìñÿ îêíå â ðàçäåëå Data Mining âûáåðåòå ìåòîä îáðàáîòêè «Äåðåâî ðåøåíèé» è íàæìèòå «Äàëåå».


Ìàñòåð îáðàáîòêè äàííûõ

 

Íà âêëàäêå «Íàñòðîéêà çíà÷åíèÿ ñòîëáöîâ» íåîáõîäèìî çàäàòü íàçíà÷åíèÿ ñòîëáöîâ äàííûõ. Ïî÷òè âñå ñòîëáöû àâòîìàòè÷åñêè ïîëó÷èëè çíà÷åíèå «Âõîäíûå». Çíà÷åíèå ïîëÿ «Âûäàòü êðåäèò», êîòîðîå ïðèíèìàåò òîëüêî äâà çíà÷åíèÿ «Äà» èëè «Íåò», íåîáõîäèìî óñòàíîâèòü  â  «Âûõîäíîå».  Òàêæå  íåîáõîäèìî  îáîçíà÷èòü  ñòîëáöû

«Êîä» è «¹ ïàñïîðòà» êàê «Íåèñïîëüçóåìûå» (òàê êàê çíà÷åíèÿ ýòèõ ñòîëáöîâ óíèêàëüíû, à ýòî íå ïîçâîëèò èõ êëàññèôèöèðîâàòü).


Îêíî íàñòðîéêè íàçíà÷åíèé ñòîëáöîâ

 

Äàëåå ñëåäóåò îêíî íàñòðîéêè ðàçáèåíèÿ èñõîäíîãî ìíîæåñòâà äàííûõ íà ïîäìíîæåñòâà. Îñòàâüòå ýòî îêíî áåç èçìåíåíèé è  íàæìèòå êíîïêó «Äàëåå».

Ñëåäóþùèé ýòàï – íàñòðîéêà ïàðàìåòðîâ îáó÷åíèÿ äåðåâà ðåøåíèé. Íåîáõîäèìî ó÷èòûâàòü, ÷òî ÷åì áîëüøå  çíà÷åíèå ïàðàìåòðà «Óðîâåíü äîâåðèÿ, èñïîëüçóåìûé ïðè îòñå÷åíèè óçëîâ äåðåâà», òåì áîëüøå áóäåò äåðåâî ðåøåíèé â èòîãå.

Ñ ïîìîùüþ êíîïêè «Ïóñê» çàïóñêàåì ïðîöåññ ïîñòðîåíèÿ äåðåâà ðåøåíèé. Ïî îêîí÷àíèè ïðîöåññà âû óâèäèòå ãðàôèê, îòîáðàæàþùèé óðîâåíü ðàñïîçíàâàíèÿ äàííûõ, êîëè÷åñòâî óçëîâ ñîçäàííîãî äåðåâà è ïðàâèë, ïîëó÷åííûõ â ðåçóëüòàòå îáðàáîòêè.


Ïðîöåññ ïîñòðîåíèÿ äåðåâà ðåøåíèé

 

 ïîñëåäóþùåì îêíå âûáîðà ñïîñîáà îòîáðàæåíèÿ äàííûõ âûáåðèòå «Äåðåâî ðåøåíèé». À â ïîñëåäíåì îêíå  ìàñòåðà îáðàáîòêè, ïî æåëàíèþ,  óêàæèòå èìÿ è ìåòêó.

Ðåçóëüòàòîì âñåõ âûøåîïèñàííûõ äåéñòâèé áóäåò ïîñòðîåííîå äåðåâî ðåøåíèé, êîòîðîå îòîáðàçèòñÿ â îñíîâíîì îêíå ïðîãðàììû. Íà îñíîâàíèè ýòîãî ìåòîäà ìîæíî îòâåòèòü íà âîïðîñ «Äàâàòü ëè ÷åëîâåêó êðåäèò è åñëè äà, òî ïðè êàêèõ óñëîâèÿõ».


Ãîòîâîå äåðåâî ðåøåíèé

 

Èç ïîëó÷åííîãî äåðåâà ìîæíî âûâåñòè ïðàâèëà âûäà÷è êðåäèòîâ.

Íàïðèìåð:

-       Åñëè ñðîê ïðîæèâàíèÿ â äàííîé ìåñòíîñòè ìåíüøå 6,5 ëåò, òî êðåäèò íå äàâàòü.

-       Åñëè ñðîê ïðîæèâàíèÿ â äàííîé ìåñòíîñòè áîëüøå 6,5 ëåò, çàéì îáåñïå÷åí, âîçðàñò áîëüøå 20,5  ëåò, íå èìååòñÿ íåäâèæèìîñòü, íî èìååòñÿ áàíêîâñêèé ñ÷åò, òî êðåäèò äàâàòü.

 

2.4.   Çàäàíèå

 

1.    Ïîñòðîéòå äåðåâî ðåøåíèÿ äëÿ îïèñàííîãî âûøå ïðèìåðà. Ïîïðîáóéòå èñïîëüçîâàòü ðàçëè÷íûå çíà÷åíèÿ ïàðàìåòðîâ îáó÷åíèÿ äåðåâà ðåøåíèÿ è ñðàâíèòå ïîëó÷åííûå äåðåâüÿ.

2.    Âûâåäèòå 5 ïðàâèë èç ïîñòðîåííîãî äåðåâà ðåøåíèé.

3.    Ïðèâåäèòå 4-5 ïðèìåðîâ, äëÿ êîòîðûõ ìîæíî èñïîëüçîâàòü ìåòîä îáðàáîòêè äåðåâî ðåøåíèé, ðåàëèçóéòå îäèí èç íèõ.

4.    Ñîñòàâüòå îò÷åò.


Ëàáîðàòîðíàÿ ðàáîòà ¹3. Ëîãèñòè÷åñêàÿ ðåãðåññèÿ è ROC-àíàëèç

 

3.1.   Îñíîâíàÿ öåëü

 

Íàó÷èòüñÿ îáðàáàòûâàòü äàííûå è ïðîãíîçèðîâàòü ñîáûòèÿ, èñïîëüçóÿ âîçìîæíîñòè ëîãèñòè÷åñêîé ðåãðåññèè è ROC-àíàëèç.

 

3.2.   Òåîðåòè÷åñêàÿ ÷àñòü

 

Ëîãèñòè÷åñêàÿ ðåãðåññèÿ — ìåòîä ïîñòðîåíèÿ ëèíåéíîãî êëàññèôèêàòîðà, ïîçâîëÿþùèé îöåíèâàòü àïîñòåðèîðíûå âåðîÿòíîñòè ïðèíàäëåæíîñòè îáúåêòîâ êëàññàì.

Âîîáùå, ðåãðåññèîííàÿ ìîäåëü ïðåäíàçíà÷åíà äëÿ ðåøåíèÿ çàäà÷ ïðåäñêàçàíèÿ çíà÷åíèÿ íåïðåðûâíîé çàâèñèìîé ïåðåìåííîé, ïðè óñëîâèè, ÷òî ýòà çàâèñèìàÿ ïåðåìåííàÿ ìîæåò ïðèíèìàòü çíà÷åíèÿ íà èíòåðâàëå îò 0 äî 1.  ñèëó òàêîé ñïåöèôèêè åå ÷àñòî èñïîëüçóþò äëÿ ïðåäñêàçàíèÿ âåðîÿòíîñòè íàñòóïëåíèÿ íåêîòîðîãî ñîáûòèÿ â çàâèñèìîñòè îò çíà÷åíèé íåêîòîðîãî ÷èñëà ïðåäèêòîðîâ.

Ïðè èçó÷åíèè ëèíåéíîé ðåãðåññèè ìû èññëåäóåì ìîäåëè âèäà

y = a + b1 x1  + b2 x2  +... + bn xn .

Çäåñü çàâèñèìàÿ ïåðåìåííàÿ y ÿâëÿåòñÿ íåïðåðûâíîé, è ìû îïðåäåëÿåì íàáîð íåçàâèñèìûõ ïåðåìåííûõ xi è êîýôôèöèåíòû ïðè íèõ bi, êîòîðûå ïîçâîëèëè áû íàì ïðåäñêàçûâàòü ñðåäíåå çíà÷åíèå y ñ ó÷åòîì íàáëþäàåìîé åå èçìåí÷èâîñòè.

Âî ìíîãèõ ñèòóàöèÿõ, îäíàêî, y íå ÿâëÿåòñÿ íåïðåðûâíîé âåëè÷èíîé, à ïðèíèìàåò âñåãî äâà âîçìîæíûõ çíà÷åíèÿ. Îáû÷íî åäèíèöåé â ýòîì ñëó÷àå ïðåäñòàâëÿþò îñóùåñòâëåíèå êàêîãî-ëèáî ñîáûòèÿ (óñïåõ), à íóëåì - îòñóòñòâèå åãî ðåàëèçàöèè (íåóñïåõ).

Ñðåäíåå çíà÷åíèå y - îáîçíà÷åííîå ÷åðåç p, åñòü äîëÿ ñëó÷àåâ, â êîòîðûõ y ïðèíèìàåò çíà÷åíèå 1. Ìàòåìàòè÷åñêè ýòî ìîæíî çàïèñàòü êàê p = P(y = 1) èëè p = P("Óñïåõ").

ROC-êðèâàÿ èëè êðèâàÿ îøèáîê - ïîêàçûâàåò çàâèñèìîñòü êîëè÷åñòâà âåðíî êëàññèôèöèðîâàííûõ ïîëîæèòåëüíûõ îáúåêòîâ (ïî îñè y) îò êîëè÷åñòâà íåâåðíî êëàññèôèöèðîâàííûõ îòðèöàòåëüíûõ îáúåêòîâ (ïî îñè x).

 òåðìèíîëîãèè ROC - àíàëèçà ïåðâûå íàçûâàþòñÿ èñòèííî ïîëîæèòåëüíûì, âòîðûå – ëîæíî îòðèöàòåëüíûì ìíîæåñòâîì. Ïðè ýòîì   ïðåäïîëàãàåòñÿ,   ÷òî   ó   êëàññèôèêàòîðà   èìååòñÿ   íåêîòîðûé


ïàðàìåòð, âàðüèðóÿ êîòîðûé, ìû áóäåì ïîëó÷àòü òî èëè èíîå ðàçáèåíèå íà äâà êëàññà. Ýòîò ïàðàìåòð ÷àñòî íàçûâàþò ïîðîãîì, èëè òî÷êîé îòñå÷åíèÿ.  çàâèñèìîñòè îò íåãî áóäóò ïîëó÷àòüñÿ ðàçëè÷íûå âåëè÷èíû îøèáîê I è II ðîäà.

 ëîãèñòè÷åñêîé ðåãðåññèè ïîðîã îòñå÷åíèÿ èçìåíÿåòñÿ îò 0 äî  1

   ýòî è åñòü ðàñ÷åòíîå çíà÷åíèå óðàâíåíèÿ ðåãðåññèè. Áóäåì íàçûâàòü åãî ðåéòèíãîì.

Ââåä¸ì åù¸ íåñêîëüêî îïðåäåëåíèé:

TP (True Positives) – âåðíî êëàññèôèöèðîâàííûå ïîëîæèòåëüíûå ïðèìåðû (òàê íàçûâàåìûå èñòèííî ïîëîæèòåëüíûå ñëó÷àè);

TN (True Negatives) – âåðíî êëàññèôèöèðîâàííûå îòðèöàòåëüíûå ïðèìåðû (èñòèííî îòðèöàòåëüíûå ñëó÷àè);

FN (False Negatives) – ïîëîæèòåëüíûå ïðèìåðû, êëàññèôèöèðîâàííûå êàê îòðèöàòåëüíûå (îøèáêà I ðîäà). Ýòî òàê íàçûâàåìûé «ëîæíûé ïðîïóñê» – êîãäà èíòåðåñóþùåå íàñ ñîáûòèå îøèáî÷íî íå îáíàðóæèâàåòñÿ (ëîæíî îòðèöàòåëüíûå ïðèìåðû);

FP (False Positives) – îòðèöàòåëüíûå ïðèìåðû, êëàññèôèöèðîâàííûå êàê ïîëîæèòåëüíûå (îøèáêà II ðîäà). Ýòî ëîæíîå îáíàðóæåíèå, ò.ê. ïðè îòñóòñòâèè ñîáûòèÿ îøèáî÷íî âûíîñèòñÿ ðåøåíèå î åãî ïðèñóòñòâèè (ëîæíî ïîëîæèòåëüíûå ñëó÷àè).

×òî ÿâëÿåòñÿ ïîëîæèòåëüíûì ñîáûòèåì, à ÷òî – îòðèöàòåëüíûì, çàâèñèò îò êîíêðåòíîé çàäà÷è. Íàïðèìåð, åñëè ìû ïðîãíîçèðóåì âåðîÿòíîñòü íàëè÷èÿ çàáîëåâàíèÿ, òî ïîëîæèòåëüíûì èñõîäîì áóäåò êëàññ «Áîëüíîé ïàöèåíò», îòðèöàòåëüíûì – «Çäîðîâûé ïàöèåíò». È íàîáîðîò, åñëè ìû õîòèì îïðåäåëèòü âåðîÿòíîñòü òîãî, ÷òî ÷åëîâåê çäîðîâ, òî ïîëîæèòåëüíûì èñõîäîì áóäåò êëàññ «Çäîðîâûé ïàöèåíò», è òàê äàëåå.

Ïðè àíàëèçå ÷àùå îïåðèðóþò íå àáñîëþòíûìè ïîêàçàòåëÿìè, à îòíîñèòåëüíûìè – äîëÿìè, âûðàæåííûìè â ïðîöåíòàõ:

Äîëÿ èñòèííî ïîëîæèòåëüíûõ ïðèìåðîâ (True Positives Rate):


TPR =


TP TP + FN


×100 %


Äîëÿ ëîæíî ïîëîæèòåëüíûõ ïðèìåðîâ (False Positives Rate):


FPR =


FP TN + FP


×100  %


Ââåäåì åùå äâà îïðåäåëåíèÿ: ÷óâñòâèòåëüíîñòü è  ñïåöèôè÷íîñòü

ìîäåëè. Èìè îïðåäåëÿåòñÿ îáúåêòèâíàÿ öåííîñòü ëþáîãî áèíàðíîãî êëàññèôèêàòîðà.


×óâñòâèòåëüíîñòü (Sensitivity) – äîëÿ èñòèííî ïîëîæèòåëüíûõ ñëó÷àåâ:


Se = TPR =


TP TP + FN


×100 %


Ñïåöèôè÷íîñòü   (Specificity)      äîëÿ   èñòèííî   îòðèöàòåëüíûõ

ñëó÷àåâ, êîòîðûå áûëè ïðàâèëüíî èäåíòèôèöèðîâàíû ìîäåëüþ:


Sp =


TN TN + FP


×100 %


Ìîäåëü   ñ   âûñîêîé   ÷óâñòâèòåëüíîñòüþ   ÷àñòî   äàåò èñòèííûé

ðåçóëüòàò ïðè íàëè÷èè ïîëîæèòåëüíîãî èñõîäà (îáíàðóæèâàåò ïîëîæèòåëüíûå ïðèìåðû). Íàîáîðîò, ìîäåëü ñ âûñîêîé ñïåöèôè÷íîñòüþ ÷àùå äàåò èñòèííûé ðåçóëüòàò ïðè íàëè÷èè îòðèöàòåëüíîãî èñõîäà (îáíàðóæèâàåò îòðèöàòåëüíûå ïðèìåðû).

ROC-êðèâàÿ ïîëó÷àåòñÿ ñëåäóþùèì îáðàçîì:

1.   Äëÿ êàæäîãî çíà÷åíèÿ ïîðîãà îòñå÷åíèÿ, êîòîðîå ìåíÿåòñÿ îò 0 äî 1 ñ øàãîì dx (íàïðèìåð, 0,01), ðàññ÷èòûâàþòñÿ çíà÷åíèÿ ÷óâñòâèòåëüíîñòè Se è ñïåöèôè÷íîñòè Sp.  êà÷åñòâå àëüòåðíàòèâû ïîðîãîì ìîæåò ÿâëÿòüñÿ êàæäîå ïîñëåäóþùåå çíà÷åíèå ïðèìåðà â âûáîðêå.

2.         Ñòðîèòñÿ ãðàôèê çàâèñèìîñòè: ïî îñè y îòêëàäûâàåòñÿ ÷óâñòâèòåëüíîñòü Se, ïî îñè x – (100 %Sp) (ñòî ïðîöåíòîâ ìèíóñ ñïåöèôè÷íîñòü), èëè, ÷òî òî æå ñàìîå, FPR – äîëÿ ëîæíî ïîëîæèòåëüíûõ ñëó÷àåâ.

×èñëåííûé ïîêàçàòåëü ïëîùàäè ïîä êðèâîé íàçûâàåòñÿ AUC (Area Under Curve). Ñ áîëüøèìè äîïóùåíèÿìè ìîæíî ñ÷èòàòü, ÷òî ÷åì áîëüøå ïîêàçàòåëü AUC, òåì ëó÷øåé ïðîãíîñòè÷åñêîé ñèëîé îáëàäàåò ìîäåëü. Îäíàêî ñëåäóåò çíàòü, ÷òî:

-       ïîêàçàòåëü AUC ïðåäíàçíà÷åí ñêîðåå äëÿ ñðàâíèòåëüíîãî àíàëèçà íåñêîëüêèõ ìîäåëåé;

-       AUC íå ñîäåðæèò íèêàêîé èíôîðìàöèè î ÷óâñòâèòåëüíîñòè è ñïåöèôè÷íîñòè ìîäåëè.

 ëèòåðàòóðå èíîãäà ïðèâîäèòñÿ ñëåäóþùàÿ ýêñïåðòíàÿ øêàëà äëÿ çíà÷åíèé AUC, ïî êîòîðîé ìîæíî ñóäèòü î êà÷åñòâå ìîäåëè:

-   îòëè÷íîå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,9-1,0;

-   î÷åíü õîðîøåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,8-0,9;

-   õîðîøåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,7-0,8;

-   ñðåäíåå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,6-0,7;

-   íåóäîâëåòâîðèòåëüíîå êà÷åñòâî ìîäåëè – èíòåðâàë AUC 0,5-0,6.


Èäåàëüíàÿ ìîäåëü îáëàäàåò 100 % ÷óâñòâèòåëüíîñòüþ è ñïåöèôè÷íîñòüþ. Îäíàêî íà ïðàêòèêå äîáèòüñÿ ýòîãî íåâîçìîæíî, áîëåå òîãî, íåâîçìîæíî îäíîâðåìåííî ïîâûñèòü è ÷óâñòâèòåëüíîñòü, è ñïåöèôè÷íîñòü ìîäåëè. Êîìïðîìèññ íàõîäèòñÿ ñ ïîìîùüþ ïîðîãà îòñå÷åíèÿ, ò.ê. ïîðîãîâîå çíà÷åíèå âëèÿåò íà ñîîòíîøåíèå Se è Sp. Ìîæíî ãîâîðèòü î çàäà÷å íàõîæäåíèÿ îïòèìàëüíîãî  ïîðîãà îòñå÷åíèÿ.

 

3.3.   Ïðàêòè÷åñêàÿ ÷àñòü

 

Èñïîëüçóÿ  ìàñòåð  èìïîðòà  è  ôàéë    ñ  äàííûìè,     íàïðèìåð, C:\ProgramFiles\BaseGroup\Deductor\Samples\CreditSample.txt, ñîçäàéòå íîâûé ñöåíàðèé è èìïîðòèðóéòå äàííûå.

       ìàñòåðå      îáðàáîòêè       âûáåðèòå      ñïîñîá      îáðàáîòêè

«Ëîãèñòè÷åñêàÿ ðåãðåññèÿ».


Âûáîð ìåòîäà «Ëîãèñòè÷åñêàÿ ðåãðåññèÿ»

 

Ïðåæäå ÷åì íà÷íåòñÿ îáðàáîòêà äàííûõ, íåîáõîäèìî ïðîâåñòè íîðìàëèçàöèþ ïîëåé è íàñòðîèòü îáó÷àþùóþ âûáîðêó.

Íîðìàëèçàöèÿ ïîëåé ïðîâîäèòñÿ ñ öåëü ïðåîáðàçîâàíèÿ äàííûõ ê âèäó, ïîäõîäÿùåìó äëÿ îáðàáîòêè ñðåäñòâàìè ÀÏ «Deductor». Íàïðèìåð, ïðè ïîñòðîåíèè íåéðîííîé ñåòè, ëèíåéíîé ìîäåëè ïðîãíîçèðîâàíèÿ èëè  ñàìîîðãàíèçóþùèõñÿ êàðò «Âõîäÿùèå» äàííûå


äîëæíû èìåòü ÷èñëîâîé òèï (ò.å. íåïðåðûâíûé õàðàêòåð), à èõ çíà÷åíèÿ äîëæíû áûòü ðàñïðåäåëåíû â îïðåäåëåííîì äèàïàçîíå.  ýòîì ñëó÷àå ïðè íîðìàëèçàöèè äèñêðåòíûå äàííûå ïðåîáðàçóþòñÿ â íàáîð íåïðåðûâíûõ çíà÷åíèé.

Íàñòðîéêà íîðìàëèçàöèè ïîëåé âûçûâàåòñÿ ñ ïîìîùüþ    êíîïêè

«Íàñòðîéêà íîðìàëèçàöèè» â íèæíåé ëåâîé ÷àñòè îêíà «Íàñòðîéêà íàçíà÷åíèÿ ñòîëáöîâ».


Âûçîâ îêíà íàñòðîéêè íîðìàëèçàöèè

 

 îêíå «Íàñòðîéêà íîðìàëèçàöèè äàííûõ» ñëåâà ïðèâåäåí ïîëíûé ñïèñîê âõîäíûõ è âûõîäíûõ ïîëåé. Ïðè ýòîì êàæäîå ïîëå ïîìå÷åíî çíà÷êîì, îáîçíà÷àþùèì âèä íîðìàëèçàöèè:

-            ëèíåéíàÿ - ëèíåéíàÿ íîðìàëèçàöèÿ èñõîäíûõ çíà÷åíèé;

-            óíèêàëüíûå çíà÷åíèÿ - ïðåîáðàçîâàíèå óíèêàëüíûõ  çíà÷åíèé â èõ èíäåêñû;

-            áèòîâàÿ ìàñêà - ïðåîáðàçîâàíèå äèñêðåòíûõ çíà÷åíèé â áèòîâóþ ìàñêó.

 ïðàâîé ÷àñòè îêíà äëÿ âûäåëåííîãî ïîëÿ îòîáðàæàþòñÿ ïàðàìåòðû íîðìàëèçàöèè.


Îêíî íàñòðîéêè íîðìàëèçàöèè äàííûõ

 

Äëÿ ÷èñëîâûõ (íåïðåðûâíûõ) ïîëåé ñ ëèíåéíîé íîðìàëèçàöèåé äîïîëíèòåëüíûå   ïàðàìåòðû   íåäîñòóïíû.      ïîëÿõ   «Ìèíèìóì»  è

«Ìàêñèìóì»    ñåêöèè    «Äèàïàçîí   çíà÷åíèé»    ìîæíî    ïîñìîòðåòü ìèíèìàëüíîå è ìàêñèìàëüíîå çíà÷åíèÿ ýòîãî ïîëÿ.

Äëÿ äèñêðåòíûõ ïîëåé ìîãóò áûòü èñïîëüçîâàíû äâà âèäà íîðìàëèçàöèè - óíèêàëüíûå çíà÷åíèÿ è áèòîâàÿ ìàñêà.

Åñëè äèñêðåòíûå çíà÷åíèÿ ïðåîáðàçóþòñÿ â áèòîâóþ ìàñêó (ò.å. êàæäîìó óíèêàëüíîìó çíà÷åíèþ ñòàâèòñÿ â ñîîòâåòñòâèå óíèêàëüíàÿ áèòîâàÿ êîìáèíàöèÿ), òî âîçìîæíû äâà ñïîñîáà òàêîãî ïðåîáðàçîâàíèÿ, âûáèðàåìûå èç ñïèñêà «Ñïîñîá êîäèðîâàíèÿ»:

1.     Ïîçèöèÿ áèòà - ïîëå â ýòîì ñëó÷àå ïðåäñòàâëÿåòñÿ â âèäå n áèòîâ, ãäå n - ÷èñëî óíèêàëüíûõ çíà÷åíèé â ïîëå. Êàæäûé áèò ñîîòâåòñòâóåò îäíîìó çíà÷åíèþ.  1 óñòàíàâëèâàåòñÿ òîëüêî áèò, ñîîòâåòñòâóþùèé òåêóùåìó çíà÷åíèþ, ïðèíèìàåìîìó ïîëåì, âñå îñòàëüíûå áèòû ðàâíû 0. Ýòîò ñïîñîá êîäèðîâàíèÿ èñïîëüçóåòñÿ ïðè ìàëîì ÷èñëå óíèêàëüíûõ çíà÷åíèé.

2.     Êîìáèíàöèÿ áèòîâ - êàæäîìó óíèêàëüíîìó çíà÷åíèþ ñîîòâåòñòâóåò ñâîÿ êîìáèíàöèÿ áèòîâ â äâîè÷íîì âèäå.

Íàñòðîéêà îáó÷àþùåé âûáîðêè - ðàçáèåíèå îáó÷àþùåé âûáîðêè íà äâà ìíîæåñòâà - îáó÷àþùåå è òåñòîâîå - äëÿ ïîñòðîåíèÿ ëèíåéíîé ìîäåëè.


Ïðèìåð íàñòðîéêè îáó÷àþùåé âûáîðêè

 

Îáó÷àþùåå ìíîæåñòâî - âêëþ÷àåò çàïèñè, êîòîðûå áóäóò èñïîëüçîâàòüñÿ â êà÷åñòâå âõîäíûõ äàííûõ, à òàêæå ñîîòâåòñòâóþùèå æåëàåìûå âûõîäíûå çíà÷åíèÿ.

Òåñòîâîå ìíîæåñòâî - òàêæå âêëþ÷àåò çàïèñè, ñîäåðæàùèå âõîäíûå è æåëàåìûå âûõîäíûå çíà÷åíèÿ, íî èñïîëüçóåìîå íå äëÿ îáó÷åíèÿ ìîäåëè, à äëÿ ïðîâåðêè åãî ðåçóëüòàòîâ.

Ïðèìå÷àíèå. Oáó÷åíèå ìîæåò ñ áîëüøîé äîëåé âåðîÿòíîñòè ñ÷èòàòüñÿ óñïåøíûì, åñëè ïðîöåíò ðàñïîçíàííûõ ïðèìåðîâ íà îáó÷àþùåì è òåñòîâîì ìíîæåñòâàõ äîñòàòî÷íî âåëèê.

Ñëåäóþùèé ýòàï – íàñòðîéêà ïàðàìåòðîâ îñòàíîâêè îáó÷åíèÿ, êîòîðàÿ âêëþ÷àåò îïðåäåëåíèå ìàêñèìàëüíîãî ÷èñëà èòåðàöèé (çàäàííàÿ òî÷íîñòü), çàäàíèå ôóíêöèè ïðàâäîïîäîáèÿ, ïîðîãà îòñå÷åíèÿ è äîïóñòèìîñòü îøèáêè.


Íàñòðîéêà ïàðàìåòðîâ îñòàíîâêè îáó÷åíèÿ

 

Èòîãîì ïðîâåäåíèÿ ðåãðåññèîííîãî àíàëèçà áóäåò ïîñòðîåííàÿ ROC-êðèâàÿ.

 

3.4.   Çàäàíèå

 

1.   Ñ ïîìîùüþ ìàñòåðà èìïîðòà îòêðîéòå ôàéë (íàïðèìåð, C:\ProgramFiles\BaseGroup\Deductor\Samples\ CreditSample.txt).

2.      ìàñòåðå îáðàáîòêè âûáåðèòå «Ëîãèñòè÷åñêàÿ ðåãðåññèÿ».

3.     Ïðîâåäèòå íàñòðîéêó íîðìàëèçàöèè ïîëåé.

4.     Íàñòðîéòå îáó÷àþùóþ âûáîðêó.

5.     Ïðîàíàëèçèðóéòå ïîëó÷åííûå äàííûå.

6.     Ñîçäàéòå îò÷åò.


Ëàáîðàòîðíàÿ ðàáîòà ¹4. Ïðèìåíåíèå àëãîðèòìà êëàñòåðèçàöèè: ñàìîîðãàíèçóþùèåñÿ êàðòû Êîõîíåíà

 

4.1.   Îñíîâíàÿ öåëü

 

Íàó÷èòüñÿ        èñïîëüçîâàòü        ìåòîä        îáðàáîòêè        äàííûõ

«Ñàìîîðãàíèçóþùèåñÿ êàðòû Êîõîíåíà».

 

Èìïîðòèðóéòå â ÀÏ «Deductor» èñõîäíûå äàííûå èç ôàéëà C:\Program\Files\BaseGroup\Deductor\Samples\CreditSample.txt.

Ïðîöåññ ïîñòðîåíèÿ êàðòû Êîõîíåíà ñîñòîèò èç 10 ýòàïîâ. Äàëåå ðàññìîòðèì ýòè ýòàïû ïîäðîáíåå.

Çàòåì çàïóñòèòå ìàñòåð îáðàáîòêè, â êîòîðîì â ðàçäåëå «Data Mining» âûáåðåòå ñïîñîá îáðàáîòêè äàííûõ «Êàðòà Êîõîíåíà», íàæìèòå «Äàëåå».

 îêíå íàñòðîéêè íàçíà÷åíèÿ ñòîëáöîâ íåîáõîäèìî îáîçíà÷èòü ñòîëáöû «Êîä» è «¹ ïàñïîðòà» êàê «Íåèñïîëüçóåìûå» (òàê êàê çíà÷åíèÿ ýòèõ ñòîëáöîâ óíèêàëüíû, à ýòî íå ïîçâîëèò èõ êëàññèôèöèðîâàòü ïî îáùèì ïðèçíàêàì). Îïðåäåëèòå ïîëå «Äàâàòü êðåäèò» êàê «Âûõîäíîå».

Ïðèìåð íàñòðîéêè íàçíà÷åíèé ñòîëáöîâ

 

Íàñòðîéêó îáó÷àþùåé âûáîðêè è ïàðàìåòðîâ êàðòû Êîõîíåíà ìîæíî îñòàâèòü áåç èçìåíåíèé.


Íàñòðîéêà ïàðàìåòðîâ êàðòû Êîõîíåíà

 

Íàñòðîéòå    ïàðàìåòðû   îñòàíîâêè   îáó÷åíèÿ,    óêàçàâ    óðîâåíü äîïóñòèìîé  ïîãðåøíîñòè,  åñëè  îí  áóäåò  ïðåâûøåí, àíàëèç äàííîãî


ìíîæåñòâà    áóäåò    ïðåêðàùåí.    Ìîæíî    îñòàâèòü    çíà÷åíèÿ    «ïî óìîë÷àíèþ».


Íàñòðîéêà ïàðàìåòðîâ îñòàíîâêè îáó÷åíèÿ

 

Íàñòðîéêó ïàðàìåòðîâ îáó÷åíèÿ òàêæå îñòàâüòå áåç èçìåíåíèé.

Äàëåå çàïóñòèòå ïðîöåññ ïîñòðîåíèÿ êàðòû Êîõîíåíà, íàæàâ êíîïêó «Ïóñê».


Èòîã ïîñòðîåíèÿ êàðòû Êîõîíåíà


Íà âêëàäêå «Âûáîð ñïîñîáà îòîáðàæåíèÿ äàííûõ» ïîñòàâüòå ãàëî÷êó íàïðîòèâ ïóíêòà «Ñàìîîðãàíèçóþùàÿñÿ êàðòà Êîõîíåíà».

Òåïåðü íåîáõîäèìî ïðîâåñòè íàñòðîéêó îòîáðàæåíèÿ êàðòû: îòìåòüòå ðàçäåëû «Äàâàòü êðåäèò» è «Êëàñòåðû» è äðóãèå ðàçäåëû ïî æåëàíèþ.


Íàñòðîéêà îòîáðàæåíèé êàðòû Êîõîíåíà

 

Äàëåå çàäàéòå èìÿ, ìåòêó è îïèñàíèå êàðòû (ïî æåëàíèþ).

 

 ðåçóëüòàòå ïîëó÷àòñÿ êàðòû Êîõîíåíà, ïîäîáíûå èçîáðàæåííûì íà ðèñóíêå.


Ïðèìåðû êàðò Êîõîíåíà

Ùåëêíóâ ëåâîé êëàâèøåé ìûøè ïî ëþáîìó øåñòèóãîëüíèêó íà ëþáîé êàðòå, âûäåëÿòñÿ ñîîòâåòñòâóþùèå åìó ÿ÷åéêè íà îñòàëüíûõ êàðòàõ, â òîì ÷èñëå íà êàðòàõ «Äàâàòü êðåäèò» è «Êëàñòåðû». Ïðè ýòîì íà øêàëàõ â íèæíåé ÷àñòè êàðò îòîáðàçÿòñÿ çíà÷åíèÿ ñîîòâåòñòâóþùèõ ïàðàìåòðîâ.

 

4.2.   Çàäàíèå

 

1.    Âûïîëíèòå îïèñàííûå âûøå äåéñòâèÿ ïî ïîñòðîåíèþ êàðò Êîõîíåíà. Ïðîàíàëèçèðóéòå ðåçóëüòàòû, ÷òî ìîæíî ñêàçàòü î âåðîÿòíîñòè  âîçâðàòà êðåäèòà äëÿ ãðóïï 2, 3 è 4?

2.    Èñïîëüçóÿ ðàçëè÷íûå îòîáðàæåíèÿ êàðòû Êîõîíåíà, ïîñòðîéòå 3-4 ïðàâèëà âûäà÷è êðåäèòîâ.

3.    Îòâåòüòå íà âîïðîñû:

-      äëÿ ÷åãî èñïîëüçóþòñÿ êàðòû Êîõîíåíà?

-      ïî êàêîìó ïðèíöèïó ïðîèñõîäèò ïåðåíîñ ìíîãîìåðíîãî ïðîñòðàíñòâà íà ïðîñòðàíñòâî ìåíüøåé ðàçìåðíîñòè?

4.    Ïîäãîòîâüòå îò÷åò.


ËÀÁÎÐÀÒÎÐÍÛÅ  ÐÀÁÎÒÛ ÏÎ ÈÇÓ×ÅÍÈÞ ÈÀÑ «ÑÅÌÀÍÒÈ×ÅÑÊÈÉ ÀÐÕÈ»

 

 

Ëàáîðàòîðíàÿ ðàáîòà ¹1. «Ñöåíàðèé ðàáîòû ïîëüçîâàòåëÿ ñ ìîäóëåì ïîèñêà «Èñêàòåëü»

 

 

1.1.   Îñíîâíàÿ öåëü

 

Íàó÷èòüñÿ ðàáîòàòü ñ ìîäóëåì ïîèñêà «Èñêàòåëü», ñîçäàâàòü àâòîìàòè÷åñêèå çàäàíèÿ, èçó÷èòü ÿçûê çàïðîñîâ ìîäóëÿ.

 

1.2.   Ïîÿñíåíèÿ ê âûïîëíåíèþ ðàáîòû

 

Ïðåæäå ÷åì ïðèñòóïèòü ê ïîèñêó èíôîðìàöèè, íåîáõîäèìî îïðåäåëèòü ðàìêè èññëåäóåìîé îáëàñòè, ïîñòàâèòü êîíêðåòíûå öåëè èññëåäîâàíèÿ è ñôîðìóëèðîâàòü âîïðîñû. Åñòåñòâåííî, ÷òî íå âàæíîé èíôîðìàöèè íåò, è çàðàíåå íå èçâåñòíî, â êàêîé èç èññëåäóåìûõ îáëàñòåé áóäåò íàéäåí îòâåò. Íî ïîèñê âî âñåõ îáëàñòÿõ ñðàçó ïðèâåäåò ê íàêîïëåíèþ ëèøíåé èíôîðìàöèè, íå êàñàþùåéñÿ èññëåäîâàíèÿ. Òîëüêî çàðàíåå óñòàíîâëåííûå ðàìêè ïîìîãóò  íàèáîëåå ýôôåêòèâíî ñïëàíèðîâàòü ïðîöåññ ïîèñêà.

Ðàññìîòðèì îñíîâíûå ôóíêöèè «Ñåìàíòè÷åñêîãî àðõèâà»:

-         àâòîìàòè÷åñêèé ñáîð òåìàòè÷åñêîé èíôîðìàöèè èç ñåòè Èíòåðíåò;

-         àâòîìàòè÷åñêîå ñîçäàíèå áàçû òåêñòîâûõ äîêóìåíòîâ;

-         îáðàáîòêà òåìàòè÷åñêèõ çàïðîñîâ ê ïîèñêîâûì  ñàéòàì (Yandex, Google è äð.).


Ýëåìåíòû îêíà ìîäóëÿ «Èñêàòåëü».


Ðàáî÷åå îêíî ïðîãðàììû «Èñêàòåëü»:

1 – ìåíþ ìîäóëÿ; 2 – âûáîð ïîèñêà â Google; 3 – âûáîð ïîèñêà â Yandex;

4 – ñòðîêà ââîäà ïîèñêîâîãî çàïðîñà; 5 – èñêëþ÷àòü ïóñòûå ññûëêè; 6 – ïîêàçûâàòü ïóñòûå ññûëêè; 7 – ïîêàçûâàòü ôðàãìåíò ñòðîêè, ãäå íàéäåí ïîèñêîâûé çàïðîñ; 8 -  ïîêàçûâàòü âåñü òåêñò Èíòåðíåò-

-ñòðàíèöû; 9 – çàãðóçèòü çàïðîñ èç ôàéëà; 10 – ñîõðàíèòü íàéäåííûå ðåçóëüòàòû â ôàéë; 11 - ñîõðàíèòü íàéäåííûå ðåçóëüòàòû â áàçó; 12 - íàñòðîéêà ìîäóëÿ; 13 - âûçîâ ñïðàâêè; 14 - âûïîëíèòü ïîèñê;

15 - îñòàíîâèòü ïîèñê; 16 - ñïèñîê êëþ÷åâûõ âûðàæåíèé; 17 - ñîõðàíèòü âíåñåííûå èçìåíåíèÿ â òåêñò ñòàòüè; 18 - âûðåçàòü èç òåêñòà

âûäåëåííûé ôðàãìåíò; 19 - êîïèðîâàòü âûäåëåííûé ôðàãìåíò òåêñòà; 20 - âñòàâèòü èç áóôåðà îáìåíà â òåêñò; 21 - ïîèñê/ïîäñâåòêà

âûðàæåíèé â òåêñòå ñòàòüè

 

Ýëåìåíòû ìåíþ «Ôàéë».