Uniwersytet Jagielloński Collegium Medicum Zakład bioinformatyki i telemedycyny

Mgr Andrzej Stanisz

Publikacje

 

 Statystyki podstawowe

 

 

 

Autor: Andrzej Stanisz
Wydawca: StatSoft Polska
Wydanie: Kraków, 2016
ISBN: 978-83-88724-73-2 
Liczba stron: 708

 

 

 

Nowa publikacja A. Stanisza - cenionego autora trzytomowej publikacji „Przystępny kursu statystyki”. Książka jest przeznaczona dla wszystkich zainteresowanych stosowaniem regresji logistycznej – przybliża jej podstawy teoretyczne oraz prezentuje przykłady zastosowań. Regresja logistyczna to metoda wykorzystywana do modelowania zjawisk opisywanych za pomocą zmiennych typu jakościowego. Znajduje zastosowanie w wielu dziedzinach badań empirycznych m.in.: medycynie, biologii, socjologii i ekonomii. Zawarta w książce duża liczba przykładowych analiz pozwala lepiej zrozumieć sposób modelowania interesujących badacza powiązań oraz pomaga w poprawnej interpretacji wyników analizy. Wszystkie zamieszczone w książce przykłady zostały opracowane z wykorzystaniem programu Statistica.

 

 

 

Spis treści:

 

WSTĘP

ROZDZIAŁ I
Nieformalne wprowadzenie do regresji logistycznej  
   
1. Cele                            
2. Wprowadzenie                        
3. Rodzaje analizowanych danych                
4. Jakim językiem mówimy?                  
5. Przykładowe zbiory danych                 

ROZDZIAŁ II                                                  
Modele regresji
                       
1. Cele                            
2. Wprowadzenie                        
3. Modele regresji wielorakiej                
4. Zmienne jakościowe w analizie regresji          
5. Interakcje w modelach regresji wielorakiej        
6. Założenia modelu                      
7. Analiza reszt – metody identyfikacji wartości odstających
8. Strategia budowy modelu                  

ROZDZIAŁ III                                                  
Ogólna postać modelu regresji logistycznej    
     
1. Cele                            
2. Wprowadzenie                        
3. Postać modelu regresji logistycznej            
4. Formaty plików danych                  
5. Regresja logistyczna w pakiecie Statistica        
6. Interpretacja współczynników modelu            
7. Estymacja modelu metodą największej wiarygodności      

ROZDZIAŁ IV                                                  
Weryfikacja modelu logistycznego  
           
1. Cele                            
2. Wprowadzenie                        
3. Weryfikacja istotności zmiennych            
4. Ocena dopasowania modelu                  
5. Miary dopasowania – Pseudo R2              
6. Kryteria informacyjne                   

ROZDZIAŁ V                                                    
Szczególne przypadki modelu logistycznego    
     
1. Cele                            
2. Wprowadzenie                        
3. Model regresji logistycznej z jedną dychotomiczną zmienną niezależną                      
4. Model regresji logistycznej z jedną wielowartościową jakościową zmienną niezależną                
5. Model regresji logistycznej z ciągłą zmienną niezależną  
6. Razem czy osobno? Model regresji logistycznej z kilkoma zmiennymi niezależnymi               

ROZDZIAŁ VI                                                  
Ocena jakości predykcji    
               
1. Cele                            
2. Wprowadzenie                        
3. Miary czułości i specyfi czności              
4. Krzywa ROC                        
5. Pole pod krzywą ROC                    
6. Krzywa ROC w pakiecie Statistica              
7. Podsumowanie                        

ROZDZIAŁ VII                                                  
Interakcje w regresji logistycznej        
     
1. Cele                            
2. Wprowadzenie                        
3. Interakcje w modelach regresji logistycznej        
4. Interakcje 2 zmiennych dychotomicznych          
5. Interakcje zmiennej dychotomicznej i nominalnej o wielu poziomach                      
6. Interakcje zmiennej dychotomicznej i ciągłej        
7. Interakcje zmiennej nominalnej i ciągłej          
8. Dodatkowe rozważania                    

ROZDZIAŁ VIII                                                
Diagnostyka modelu    
                 
1. Cele                            
2. Wprowadzenie                        
3. Współliniowość                      
4. Przypadki odstające i wpływowe              
5. Nadmierne rozproszenie (overdispersion)          
6. Podsumowanie                        

ROZDZIAŁ IX                                                  
Strategia budowy modelu    
               
1. Cele                            
2. Wprowadzenie                        
3. Strategia budowy modelu logistycznego          
4. Przykłady zastosowania regresji logistycznej w badaniach socjologicznych                  

ROZDZIAŁ X                                                    
Model logistyczny wielomianowy    
           
1. Cele                            
2. Wprowadzenie                        
3. Model wielomianowy o 3 poziomach              
4. Wielomianowy model o dowolnej liczbie poziomów      
5. Podejście oparte na stochastycznej użyteczności      
6. Niezależność od niezwiązanych alternatyw          

ROZDZIAŁ XI                                                  
Model logistyczny porządkowy  
             
1. Cele                            
2. Wprowadzenie                        
3. Model proporcjonalnych szans                
4. Założenie proporcjonalnych szans              
5. Interpretacja modelu za pomocą zmiennych ukrytych     

ROZDZIAŁ XII                                                  
Inne typy modeli    
                                         
1. Cele                            
2. Wprowadzenie                        
3. Modele probitowe                      
4. Modele log-log dopełnienie                
5. Regresja Poissona                     

DODATEK A                                                    
Regresja logistyczna w module Estymacja nieliniowa      

DODATEK B                                                    
Rozkłady zmiennych losowych  
               
1. Wprowadzenie                        
2. Rozkłady ciągłe                      
3. Rozkłady dyskretne                     

BIBLIOGRAFIA                         

 

--------------------

 Statystyki podstawowe

 

Pozycja ta jest kolejnym (już trzecim) wydaniem cieszącej się ogromną popularnością książki, która stanowi udaną próbę połączenia klasycznego wykładu teoretycznych podstaw statystyki z różnymi obszarami jej medycznych zastosowań przy użyciu pakietu STATISTICA.

Przykładowe zagadnienia merytoryczne oraz przytaczane dane empiryczne czynią ją szczególnie atrakcyjną dla przedstawicieli nauk biomedycznych. Autor wykorzystał swoje wieloletnie doświadczenie w opracowywaniu danych pochodzących z tej dziedziny oraz prowadzeniu kursów statystyki.

Niewątpliwą zaletą tej książki, powodującą znaczne poszerzenie kręgu zainteresowanych czytelników jest wykorzystanie programu STATISTICA jako narzędzia do przeprowadzania obliczeń statystycznych oraz tworzenia czytelnych wykresów, ułatwiających interpretacje wyników przeprowadzanych analiz. Ksiązka jest ilustrowana wieloma wykresami z programu STATISTICA oraz ułatwiającymi Czytelnikowi poznawanie programu zrzutami ekranowymi. Należy jednak podkreślić, że książka nie jest dokumentacją do programu STATISTICA - zostały w niej wykorzystane tylko wybrane opcje analiz statystycznych.

Dużym plusem jest zamieszczenie obszernego (zawierającego około 1000 pozycji) angielsko-polskiego zestawienia terminów statystycznych, stosowanych zarówno w publikacjach fachowych z zakresu statystyki medycznej, jak również pojawiających się w komputerowych pakietach statystycznych.

Obecne wydanie zostało unowocześnione i gruntownie zmodyfikowane. Najważniejsze zmiany to:

  • gruntowna likwidacja usterek zauważonych w poprzednim wydaniu podręcznika,
  • dodanie nowych rozdziałów oraz rozbudowa i równoczesna aktualizacja większości rozdziałów książki,
  • wymiana opisów i zrzutów ekranowych i dostosowanie ich do aktualnej wersji pakietu STATISTICA.

Dodatkowo Czytelnicy mogą skorzystać z danych wykorzystanych w prezentowanych w książce przykładach.

Książkę polecamy nie tylko przedstawicielom nauk medycznych i biologicznych. Korzystać z niej mogą wszyscy pragnący poznać podstawy statystyki oraz praktycznie wykorzystywać doskonały pakiet STATISTICA PL.

----------

 Modele liniowe i nieliniowe

 

Publikacja jest drugim wydaniem, gruntownie poprawionym i rozbudowanym, cieszącej się ogromną popularnością książki, poświęconym zaawansowanym metodom statystycznej analizy danych. Jest ona naturalną kontynuacją tomu 1.: "Przystępnego kursu statystyki. Statystyki podstawowe", lecz może być czytana niezależnie.

Autor książki stara się przybliżyć Czytelnikom bardziej zaawansowane metody analiz statystycznych związane z zagadnieniem modelowania współzależności pomiędzy zmiennymi. Jako pierwsze zostały omówione klasyczne techniki analizy regresji, analiza reszt oraz problematyka budowy modeli. Następnie Autor zajął się zagadnieniem regresji nieliniowej. Osobny rozdział został poświęcony regresji logistycznej. Najwięcej miejsca zajmują metody analizy wariancji. Po wprowadzeniu do zagadnienia planowania doświadczeń zostały kolejno omówione najczęściej stosowane układy doświadczalne oraz sposoby opracowania ich wyników. Pewnego rodzaju podsumowaniem omówionych metod jest rozdział poświęcony prezentacji tzw. ogólnego modelu liniowego. W ostatnim rozdziale Autor prezentuje najbardziej ogólne podejście do zagadnień modelowania współzależności pomiędzy zmiennymi, opierające się na uogólnionym modelu liniowym. Są to metody pozwalające na statystyczny opis powiązań między zmiennymi, w przypadku gdy rozkład zmiennej zależnej odbiega od normalnego (lub zmienna zależna ma charakter jakościowy).

Książka zawiera wiele ciekawych przykładów oraz dużą ilość praktycznych wskazówek. Przykładowe zagadnienia merytoryczne oraz przytaczane dane empiryczne czynią ją szczególnie atrakcyjną dla przedstawicieli nauk biomedycznych, ale książka jest adresowana nie tylko do nich. Korzystać z niej mogą wszyscy pragnący poznać metody analizy regresji i analizy wariancji oraz praktycznie wykorzystywać pakiet STATISTICA, który pojawia się w książce jako narzędzie do przeprowadzania obliczeń statystycznych oraz tworzenia wykresów ułatwiających interpretacje wyników przeprowadzanych analiz. Książka jest ilustrowana wieloma wykresami oraz zrzutami ekranowymi z programu STATISTICA. Należy jednak podkreślić, że książka nie jest dokumentacją do programu STATISTICA - zostały w niej przedstawione tylko wybrane opcje analiz statystycznych.

Dodatkowo Czytelnicy mogą skorzystać z danych wykorzystanych w prezentowanych w książce przykładach.

 

---------

 

Analizy wielowymiarowe

 

Książka jest kontynuacją tomu 1: Statystyki podstawowe i tomu 2: Modele liniowe i nieliniowe, lecz może być również czytana niezależnie od nich.

Autor postawił sobie za cel przedstawienie wybranych metod wielowymiarowej statystycznej analizy danych, które według jego opinii są najczęściej wykorzystywane przy opracowywaniu wyników badań biomedycznych. Metody te pozwalają analizować zjawiska, które są opisywane za pomocą wielu cech. Jako pierwsza została omówiona analiza korelacji kanonicznych. Służy ona do badania powiązań między dwoma zespołami cech i może być traktowana jako rozszerzenie analizy regresji wielorakiej. W drugiej kolejności Autor opisuje analizę dyskryminacyjną, która umożliwia znajdywanie reguł przynależności obiektów opisywanych przez wiele zmiennych do znanych z góry grup w oparciu o liniową funkcję dyskryminacyjną. Przykładem zastosowania tej metody może być próba klasyfikacji nowej rośliny do jednego ze znanych gatunków kwiatów. Następnie zostały zaprezentowane techniki analizy skupień, służące również do klasyfikacji obiektów wielowymiarowych do pewnych nieznanych wcześniej grup lub klas, przy czym liczba wyodrębnionych klas jest na ogół umowna. Kolejne dwie zaprezentowane metody: analiza składowych głównych i analiza czynnikowa służą do redukcji struktury obserwacji wielowymiarowych. Celem tych metod jest wykrywanie pewnych wspólnych, nieznanych czynników odpowiedzialnych za istnienie zależności pomiędzy zmiennymi. W wielu przypadkach obserwowalne zmienne można przedstawić w postaci funkcji mniejszej liczby "ukrytych" zmiennych zwanych czynnikami lub składowymi. Jeśli postać tych funkcji jest prosta i liczba czynników stosunkowo niewielka to można uzyskać w ten sposób oszczędniejszy opis struktury badanych zależności. Następną przedstawioną metodą jest analiza log-liniowa, która pozwala badaczowi na lepsze zrozumienie powiązań zachodzących w obrębie zbioru wielu zmiennych jakościowych. Analiza jest przeprowadzana w oparciu o dane zestawione w tabeli wielodzielczej. Kolejną techniką, również służącą do analizy tablic wielodzielczych jest analiza korespondencji. Jej celem jest odtworzenie odległości pomiędzy punktami reprezentującmi wiersze i kolumny tabeli wielodzielczej w przestrzeni o mniejszej liczbie wymiarów, przy jednoczesnym zachowaniu jak największej ilości pierwotnej informacji. Jako ostatnie zostały omówione techniki występujące pod łączną nazwą: analiza przeżycia. Przedstawiono tablice trwania życia, analizę rozkładów przeżycia, metody estymacji funkcji przeżycia metodą Kaplana-Meiera oraz techniki porównywania krzywych przeżycia w dwóch lub większej liczbie grup. Omówiono także regresję Coxa, umożliwiającą modelowanie wpływu zmiennych ilościowych i jakościowych na czasy przeżycia. Dodatkowo książka zawiera omówienie zagadnienia pomiaru w medycynie oraz opis wybranych technik eksploracji danych i edytora graficznego.

W książce zaprezentowano wiele ciekawych przykładów oraz podano dużą ilość praktycznych wskazówek. Przykładowe zagadnienia merytoryczne oraz przytaczane dane empiryczne czynią ją szczególnie atrakcyjną dla przedstawicieli nauk biomedycznych, ale książka jest adresowana nie tylko do nich. Korzystać z niej mogą wszyscy pragnący poznać metody analizy regresji i analizy wariancji oraz praktycznie wykorzystywać pakiet STATISTICA, który pojawia się w książce jako narzędzie do przeprowadzania obliczeń statystycznych oraz tworzenia wykresów ułatwiających interpretacje wyników przeprowadzanych analiz. Książka jest ilustrowana wieloma wykresami oraz zrzutami ekranowymi z programu STATISTICA. Należy jednak podkreślić, że książka nie jest dokumentacją do programu STATISTICA - zostały w niej przedstawione tylko wybrane opcje analiz statystycznych.

 

 

------------

W. Trąbka, J. Kopydłowski, A. Stanisz, Symulacja komputerowa sieci neuropodobnej wykrywającej maksima lokalne sygnału wejściowego. Biocybernetyka i cybernetyka medyczna 1984.

Stanisz A., Matematyczny model choroby autoimmunologicznej (The mathematical model of autoimmune disease), I Krajowa Konferencja Modelowanie cybernetyczne w biologii i medycynie, Kraków, 1984,47 – 59.

A. Stanisz, W. Trąbka, Z. Wiśniowski, J. Trąbka, J. Meus. – Wyniki zastosowania informatycznego systemu profilaktyki zdrowotnej w badaniu dużych populacji. Część I, Zdrowie Publiczne, t.99, nr 5 1988.

A. Stanisz, W. Trąbka, Z. Wiśniowski, J. Trąbka, J. Meus. – Wyniki zastosowania informatycznego systemu profilaktyki zdrowotnej w badaniu dużych populacji. Część II, Zdrowie Publiczne, t. 99, nr 6 1988.

Stanisz A., Matematyczny model optymalizujący specyfikę odpowiedzi immunologicznej. II Krajowa Konferencja „Komputery w medycynie” Łódź, 1991, 504 – 510.

Stanisz A., Bazy danych w medycynie. W Informatyka medyczna, pod red. J. Trąbki. Skrypt. Wyd. I. AM, Kraków, 1992, 89 – 102.

Stanisz A., Matematyczny model immunosupresji spowodowanej oddziaływaniem nowotworu na organizm. III Krajowa Konferencja „Komputery w medycynie” Łódź, 1994, 198 - 203.

Stanisz A., Matematyczny model immunosupresji spowodowanej oddziaływaniem nowotworu na organizm. Polish Journal of Immunology, 1994, 19, 369 – 377.

Stanisz A., The mathematical model of autoimmune disease. I Krajowa Konferencja Zastosowań Matematyki w Biologii i Medycynie, Zakopane, 1995, 56 –61.

Stanisz A., Generalized Interaction Model of Immune System, który został opublikowany (po zrecenzowaniu jako publikacja) w materiałach II Krajowej Konferencji Zastosowań Matematyki w Biologii i Medycynie, Zakopane, 1996, 83 – 88.

Stanisz A.: A mathematical model of the enhanced immune response of the body. (Matematyczny model odpowiedzi immunologicznej ze wzmocnieniem). IV National Conf. On Application of Mathematics in Biology and Medicine, Zwierzyniec,1998,
133 – 137.

Stanisz A., Przystępny kurs statystyki w oparciu o program STATISTICA na przykładach z medycyny, Kraków StatSoft Polska, tom I, str. 362, 1998 r.

Stanuisz A., Kurs statystyki dla prowadzących badania naukowe. artykuły (łącznie 37) publikowanych na łamach Medycyny Praktycznej stanowiących podręcznik podstaw biostatystyki. Artykuły po opracowaniu mają być wydane w postaci książki,. Medycyna Praktyczna, Kraków, cykl artykułów od 7-8(89-90) 1998 do 9 (139) 2002.

Stanisz A., Statystyczna interpretacja wyników analizy w materiale biologicznym,referatplenarny wygłoszony na Sympozjum “Postęp w zakresie oznaczania leków w materiale biologicznym i interpretacja wyników” Poznań wrzesień 2000.

Stanisz A., Przystępny kurs statystyki z wykorzystaniem programu STATISTICA na przykładach z medycyny, tom II, StatSoft Polska, Kraków, 2000, str. 408.

Stanisz A., Zaawansowane metody statystyczne, i redakcja Skrypt– Biostatystyka, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków, 2005. Praca zespołowa.

Stanisz A., Ocena błędów pomiarowych, rozdział w skrypcie Podstawy Informatyki Z Elementami Telemedycyny (red Martyniak J.), Wydawnictwo UJ, Kraków, 2005

Stanisz A., Przystępny kurs statystyki z zastosowaniem programu STATISTICA PL na przykładach z medycyny, tom I (2 wyd. zmienione ), StatSoft, Kraków, 2006.

Stanisz A., Przystępny kurs statystyki z zastosowaniem programu STATISTICA PL na przykładach z medycyny, tom II, StatSoft, Kraków, 2007.

Stanisz A., Przystępny kurs statystyki z zastosowaniem programu STATISTICA PL na przykładach z medycyny, tom III, StatSoft, Kraków, 2007.

Stanisz A., Co można wycisnąć z tych danych?, SeminariumPraktyczna Statystyka w Medycynie i Farmacji, Warszawa Marzec 2008, 73 - 92.

Stanisz A., Salapa K., Statistical Pathways - a method of visualization statistical rules., Bio-Algorithms and Med-Systems, Journal Edited by Medical College – Jagiellonian University, Vol. 5, No. 9, pp.127-131, 2009.

Stanisz A., Broniatowska E., Techniques of Nominal data analyses., Bio-Algorithms and Med-Systems, Journal Edited by Medical College – Jagiellonian University, Issue 2 (Sep 2012), pp. 237-255.

Zagadnienia badawcze

1. Wdrożenie i opracowanie metod proponowanych w eksploracji danych (DATA MINING) dla potrzeb nauk medycznych.

Realizacja projektu polega na implementacji i modyfikacji wybranych technik Data Mining w diagnostyce medycznej. Narzędzia sztucznej inteligencji i statystyki zostaną wykorzystane do odkrycia cennych informacji ukrytych w medycznych bazach danych. Analiza baz danych metodami Data Mining lub za pomocą sztucznych sieci neuronowych może przynieść interesujące rezultaty, dając niewielką liczbę reguł o wysokiej wartości diagnostycznej. Przy pomocy Data Mining możliwe jest również zbadanie funkcji nieznanych dotąd genów oraz stworzenie nowych leków, które umożliwiają prawidłowe leczenie.

2. Opracowanie analiz statystycznych dla badań medycznych w oparciu o kliniczne bazy danych.

3. Zastosowanie wielowymiarowej statystyki oraz wykorzystaniem sieci neuronowej do wybranych zagadnień klasyfikacji i prognozowania.

4. Modele regresji logistycznej i wielomianowej regresji logistycznej. Celem projektu jest budowa i zastosowanie modeli logistycznych w celu znalezienie czynników ryzyka w badaniach medycznych i epidemiologicznych. Planowane jest też opracowanie podręcznika dotyczącego budowy i zastosowania modeli regresji logistycznej.

5. Analiza danych z badań medycznych zestawionych w tabelach wielodzielczych.