skip to content

Procédure SPSS

 

1.      Pour réaliser une régression, choisissez Analyse, puis Regression et Linear.


 

2.      En cliquant sur insérez la variable dépendante dans la boite Dependent et la variable indépendante dans la boite Independent. Puisque vous réalisez une régression simple, vous ne placez qu'une variable dans la boite Independent.

3.      Vous laissez également la méthode d'analyse (Method) par défaut, c'est-à-dire le modèle Enter (Introduire) qui utilise toutes les variables choisies pour prédire la variable dépendante. Vous verrez les autres modèles plus en détails si vous suivez un cours de statistiques avancées.


4.    Vous pouvez choisir une variable de sélection (Selection variable) pour limiter l'analyse à un sous-échantillon formé par les participants ayant obtenu une ou des valeur(s) particulière(s) à cette même variable.

5.      Vous pouvez aussi spécifier une variable qui permettra d'identifier les points sur le graphique (Case Label).

6.   Enfin, vous pouvez choisir une variable numérique pondérée (WLS Weight) pour effectuer l'analyse des moindres carrés. Par cette analyse, les valeurs sont pondérées en fonction de leurs variances réciproques, ce qui implique que les observations avec de larges variances ont un impact moins important sur l'analyse que les observations associées à de petites variances.

7.      Pour procéder à l'analyse, cliquez sur .

 

Le bouton

Dans la régression linéaire simple, vous pouvez conserver les statistiques par défaut fournies par SPSS.

D'abord, vous obtiendrez les coefficients de régression estimés (Regression coefficients - estimates) qui permettent de reconstituer l'équation de la droite de régression.

Vous obtiendrez également un tableau basé sur la distribution F vous informant de la qualité du modèle (Model fit).

 

Les autres options fournies par le bouton Statistics sont les suivantes :

Intervalles de confiance (Confidence intervals) : cette option indique les intervalles de confiance pour les coefficients de régression.

Matrice de covariance (Covariance matrix) : cette option affiche une matrice de covariance, les coefficients de corrélation et les variances entre les coefficients de régression et les variables du modèle.

Changements du  R2 (R squared change) : cette option indique les changements du R2 lorsque l'on ajoute un (ou un ensemble de) prédicteurs. Cette mesure est très utile dans la régression multiple pour voir la contribution des nouveaux prédicteurs à la variance expliquée.

Statistiques descriptives (Descriptives) : cette option affiche non seulement un tableau qui inclut le nombre d'observations, la moyenne et l'écart-type de chaque variable, mais aussi une matrice de corrélation entre les variables inclues dans le modèle.

Corrélations et corrélations partielles (Part and partial correlations) : cette mesure effectue une corrélation de Pearson entre la variable dépendante et la variable indépendante. Elle effectue une deuxième corrélation en contrôlant l'effet des autres variables indépendantes (dans la régression multiple). Finalement, toujours pour la régression multiple, elle réalise une corrélation partielle entre la variable indépendante et la variable dépendante. Cette corrélation est basée sur la variance qui n'est pas expliquée par les autres variables indépendantes. 

Mesure de la colinéarité (Colinearity diagnostics) : la régression multiple est basée sur la prémisse d'absence de multicolinéarité entre les variables indépendantes (ces variables ne doivent pas être fortement corrélées entre elles). Cette mesure vérifie donc cette prémisse.

Durbin-Watson : la régression multiple exige aussi l'indépendance des résiduels. Cette option permet de vérifier cette prémisse. Toutefois, SPSS ne fournit pas le degré de signification du test. Le chercheur doit donc décider si le résultat est suffisamment différent de deux pour dire qu'il ne respecte pas la prémisse.

Diagnostic des cas (Caseswise diagnostics) : cette option liste les valeurs observées de la variable dépendante, les valeurs prédites, la différence et la différence standardisée entre ces deux valeurs (les résiduels). Les valeurs peuvent être présentées pour l'ensemble des observations (All cases) ou pour les observations présentant des valeurs extrêmes (par défaut, qui se situent à plus de trois écart-types standardisés de la moyenne. On recommande de baisser ce seuil à deux, puisque généralement, les valeurs extrêmes se situent à deux écart-types et plus). Finalement, un tableau synthèse indique les valeurs minimales, maximales, la moyenne et l'écart-type des valeurs observées et des résiduels.

Cliquez sur  Continuepour revenir à la boite de dialogue principale.

 

Le bouton graphique

Ce bouton vous permet de réaliser plusieurs graphiques qui peuvent vous aider à vérifier certaines prémisses de la régression.

 

Les variables dans la boite de gauche se définissent comme suit :

DEPENDNT : variable dépendante

*ZPRED : valeur prédite standardisée de la variable dépendante basée sur le modèle.

*ZRESID : résiduel standardisé (différence standardisée entre les valeurs observées et les valeurs prédites par le modèle).

*DRESID : résiduels supprimés (différence entre la valeur prédite ajustée et la valeur observée).

*ADJPRED : valeurs prédites ajustées (valeur prédite pour un cas lorsque ce cas est retiré du modèle).

*SRESID : résiduel studentisé (résiduel non standardisé divisé par un estimé de son écart-type qui varie point par point).

*SDRESID : résiduel supprimé studentisé (résiduel supprimé divisé par son erreur standard).

Vous insérez donc les variables pour lesquelles vous voulez produire un graphique dans les boites X et Y. Vous pouvez réaliser plus d'un graphique en appuyant sur le bouton suivant (Next). Vous devez à ce moment introduire une variable dans les boites X et Y.

Si vous cochez l'option produire tous les graphiques partiels (Produce all partial plots), vous obtiendrez les graphiques pour les résiduels ou les observations de la variable dépendante en fonction de chaque variable indépendante (bien entendu, cette option est plus pertinente pour la régression multiple).

Vous pouvez également obtenir l'histogramme des résiduels standardisés (Histogram) et le graphique de normalité (Normal probability plots). Ces deux graphiques sont très utiles pour vérifier la prémisse de distribution normale des résiduels de la régression multiple.

Cliquez sur pour revenir à la boite de dialogue principale.

 

Le bouton d'enregistrement  Save

Il est possible de sauvegarder les valeurs calculées par le modèle de régression et d'en faire de nouvelles variables dans la base de données. Les options concernant les valeurs prédites et les résiduels ont été définis dans la section précédente.

 

L'encadré des distances offre trois tests qui permettent d'identifier les observations qui influencent fortement le modèle :

Distance de Mahalanobis : mesure la distance entre une observation et la moyenne des valeurs prédites. Le point de coupure indiquant une distance problématique dépend du nombre de prédicteurs et de la taille de l'échantillon. Il faut donc se référer à la table de Barnett et Lewis (1978).

Distance de Cook : statistique qui considère l'effet d'un cas sur l'ensemble du modèle. Les valeurs plus élevées que 1 doivent retenir l'attention du chercheur.

Leverag e: mesure de l'influence de la valeur observée de la variable dépendante sur les valeurs prédites. Cette valeur se calcule par le nombre de prédicteurs (k) + 1 divisé par le nombre de d'observations (n) et se situe entre 0 (aucune influence de l'observation sur la valeur prédite) et 1 (influence complète de l'observation sur la valeur prédite).

L'encadré des intervalles prédits (Prediction Intervals) permet de sauvegarder les valeurs minimales et maximales prédites pour l'ensemble du modèle (Mean) et ces mêmes valeurs pour chaque cas (Individual). L'intervalle de confiance est fixé à 95 %.

L'encadré des statistiques d'influence (Influence Statistics) permet d’obtenir :

DfBeta(s) : variation de la variable beta du coefficient de régression qui résulte de l'exclusion d'une observation. Une valeur est calculée pour chaque terme du modèle, incluant la constante.

Standardized DfBeta : variation de la variable beta standardisée.

DfFit : différence du degré d'ajustement du modèle qui représente le changement de la valeur prédite qui résulte du retrait d'une observation particulière.

Standardized DfFit : différence du degré d'ajustement du modèle standardisée.

Covariance ratio : ratio entre le déterminant de la matrice de covariance lorsqu'une observation est exclue du calcul du coefficient de régression et  le déterminant de la matrice de covariance lorsque toutes les observations sont inclues. Si le ratio est près de 1, l'observation n'influence pas significativement la matrice de covariance.

L'encadré des statistiques du coefficient : vous pouvez sauvegarder les coefficients de régression comme un nouvel ensemble de données (dataset). Cet ensemble sera disponible pour une utilisation ultérieure durant la même session, mais pas pour la session suivante à moins que vous ne les sauvegardiez par vous-mêmes. Vous pouvez également créer une nouvelle base de données (data file).

L'encadré exportation des informations du modèle dans un fichier XML (Export model information to XML file) : vous pouvez exporter les paramètres estimés du modèle et leur matrice de covariance dans un fichier spécifique. Vous pourrez utiliser les informations associées à ce modèle pour une autre base de données à partir des logiciels SmartScore et SPSS Server

Cliquez sur Continue pour revenir à la boite de dialogue principale.

 

Le bouton Options

La dernière boite de dialogue vous offre quelques autres options.

Le premier encadré concerne la régression multiple pas à pas (Stepping Method Criteria). Vous pouvez modifier le critère pour entrer des variables dans le modèle. Idéalement, vous conserver le choix par défaut (seuil de 0,05), mais vous pouvez également rendre votre modèle plus sévère et fixer ce seuil à 0,01.

Vous pouvez inclure ou retirer la constante (ordonnée à l'origine) de l'équation (Include constant in equation). Le retrait de la constante n'est pas vraiment conseillé.

Enfin, vous choisissez ce que vous désirez faire avec les valeurs manquantes. Vous pouvez conserver l'option par défaut et effectuer la régression en retirant les valeurs manquantes pour l'ensemble du modèle (exclude cases listwise) ou réaliser l'analyse pour les observations qui ont des données complètes pour les paires de variables corrélées (une variable indépendante et une variable dépendante : exclude cases pairwise). Puisque seulement deux variables sont mises en relation dans la régression simple, ça ne fait aucune différence. Enfin, vous pouvez également remplacer les valeurs manquantes par la moyenne. Ce n'est pas nécessairement le meilleur choix, puisque rien ne prouve que les valeurs manquantes se situeraient en réalité près de la moyenne. Idéalement, vous conservez l'option par défaut.

 

Cliquez sur  Continue pour revenir à la boite de dialogue principale.

 

 

Haut de page