Digi Műhely | Adatok használata, védelme, elemzése

Gépi tanulási algoritmusok interpretációját segítő eszközök R vagy Python nyelven

Kutatást vezette: Gáspár Csaba

PDP: Partial Dependence Plot

A PDP alkalmas arra, hogy a célváltozó és a vizsgált változó közötti kapcsolatot szemléltesse, megmutassa az adott változó értékeit és ezen értékek esetén a várható predikciót vagy a predikció változását. Ezen interpretációk kapcsán sokszor nem is az előrejelzés minél nagyobb pontossága az elsődleges cél, hanem hogy az adott adatvagyon feldolgozásával újfajta összefüggést, újfajta tudást hozzunk napvilágra.

Az interpretációt segítő Advanced PDP rajzoló csomag tulajdonságai (Python csomag implementációja):

  • Partial Dependency Plot-ok készítése,
  • A PDP eredmények megjelenítése a képernyőn, valamint mappába történő kimentése (SVG fájlformátum támogatása, a diagramok vizuális megjelenítése testre szabható, tetszőleges színkombinációk választhatóak; kategorikus változók esetén tengely feliratok elhelyezése lehetséges),
  • Modell feature importance értéket számít a program, majd diagramot készít: a PDP ábrákat képes fájlba kimenteni fontosság szerinti sorrendben, tehát nem csak a diagramban ábrázolja az „importance” faktort, hanem a mentés során is fontossági sorrendben ment, melynek eredményeképp hátrébb kerülnek a kevésbé fontos változók,
  • exportálási lehetőségek: eredmények kimentése Excel táblázatba (1 sheet – 1 feature); Excel diagram készítése az eredményekből; eredmények mentése PowerPoint táblázatba (1 slide – 1 feature ábra).
Példák a Python csomag használatára

 

A csomag implementálása megtörtént, készen van. Az átadása workshopon 2021. 05. 06-án egy közös futtatással, MNB környezetben történt.

Kulcsszavak: Partial Dependency Plot; gépi tanulási algoritmusok, python