Ouvrons les portes !
Pour un accès des filles à TOUS les internats de prépa
20
nov.
2009
3 comm.

Un peu loin de là où on organise, je me suis demandé comment je pouvais contribuer à l’action du collectif Ouvrons les Portes.

J’ai donc entrepris d’étudier l’impact de l’internat sur les études. J’ai écrit à la DEPP (Direction de l’Évaluation, de la Performance et la Prospective) pour obtenir des données notamment sur les résultats aux concours en fonction de la présence en internat, et sur le choix d’orientation en fonction de la possibilité d’avoir un internat.

Malheureusement il est difficile d’obtenir des informations pertinentes, en particulier parce que pratiquement toutes ces questions nécessitent de suivre une personne du lycée à la prépa, ou de la prépa aux Grandes Écoles. Autant de bases de données différentes, qu’il est difficile de croiser.

La seule variable indicatrice que j’ai pu trouver est finalement:
«Avoir un internat augmente-t-il les chances de passer en deuxième année de prépa plutôt que de se réorienter ?»

La DEPP m’a gentiment extrait un tableau totalisant les étudiants de prépa de 2007-2008 selon qu’ils sont passés en deuxième année ou se sont réorientés, en fonction de la filière de la prépa (ES, L ou S), du bac (ES, L, S, STI, STG, STT), du sexe, de la Profession ou Catégorie Socioprofessionnelle des parents (PCS), et du régime: interne ou externe.

On notera qu’un élève qui se sera inscrit en prépa et l’aura quittée au bout d’un mois compte comme «réorienté».

Les chiffres qui vont suivre viennent de l’analyse de ce document. Comme il n’est pas confidentiel, vous pouvez le télécharger ici.

Proportion de filles dans les internats

Une petite remarque préliminaire sur l’utilité de «Ouvrons les Portes»: on notera que la proportion de filles en internat est inférieure à la proportion de garçons, quels que soient la PCS, la filière et le bac passés, sauf pour le petit contingent des bac STG en filière économique, soit 70 internes au total, hommes et femmes confondus. Notons que ces seuls chiffres n’excluent pas la possibilité que les filles demandent moins souvent un internat même quand ils sont mixtes.

Très bref résumé des points marquants pour ceux qui n’ont pas le courage de lire ce que cela veut dire précisément

Je mets en évidence qu’être en internat augmente les chances de passer en seconde année plutôt que de se réorienter, toutes choses égales par ailleurs.

D’autre part, toujours toutes choses égales par ailleurs, les femmes ont beaucoup plus de risques que les hommes de se réorienter, mais spécifiquement dans la filière scientifique. Cet effet est absent dans les autres filières.

Sur la validité et le sens des chiffres qui vont suivre

Une très grosse réserve : ces chiffres ne tiennent pas compte des résultats au bac, puisqu’ils n’étaient pas disponibles dans le document de la DEPP (autre base de données).

Comme on peut s’attendre à ce que les étudiants avec de meilleurs résultats au bac aient plus de chances de passer en deuxième année, les valeurs estimées ci-dessous sont probablement surestimées. Plus particulièrement, la dépendance en sexe n’est sans doute pas affectée (corrélation très faible avec le résultat), celle en PCS probablement fortement surestimée, et celle qui nous intéresse le plus, la dépendance en internat, probablement modérément affectée: les résultats comptent pour l’affectation des chambres.

J’ai également accès au Panel de Lycéens 1995, soit 17000 parcours individuels depuis la sixième. Cela se traduit par environ 650 étudiants de prépa. Ce chiffre est beaucoup plus faible, et il y a des données manquantes rendant l’étude plus difficile, donc je ne pourrai pas aller au même niveau de détail. En revanche il y a aussi les résultats au bac, entre autres. Ce qui devrait permettre de vérifier si ces résultats peuvent expliquer à eux seuls les observations.
Je publierai un nouveau billet lorsque j’aurais l’impression d’en avoir tiré ce que je peux.

Je détaille la méthodologie à la fin.

Pour les tests, les p-valeurs signifient que, le choix de la méthode d’analyse étant décidé a priori, cette analyse livrera une conclusion fausse avec probabilité inférieure à la p-valeur.

J’ai ensuite analysé les données avec tous les modèles possibles, c’est-à-dire tous les choix de variables explicatives ou combinaisons de variables explicatives. J’ai choisi le modèle le plus adapté par une procédure automatique (BIC). Celle-ci est très conservatrice, c’est-à-dire que si elle considère une variable comme explicative, elle l’est très certainement. Justifications supplémentaires.

À l’intérieur d’un modèle, nous évaluons les effets de chaque facteur, toutes choses égales par ailleurs. Nous fournissons un intervalle de confiance individuel à 95%, et un intervalle de confiance simultané à 95%. Le premier veut dire qu’il y a au moins 95% de chances pour que le paramètre soit dans l’intervalle après l’application de la procédure, si le modèle est exact. Le second veut dire qu’il y a au moins 95% de chances pour que tous les paramètres soient simultanément dans leurs intervalles de confiance simultanés respectifs.

Nous pouvons utiliser l’intervalle individuel pour résumer l’effet de l’internat, puisque la question initiale concerne cet effet.
Pour les autres effets, il faut utiliser l’intervalle simultané, puisque nous n’avons pas de question précise, mais nous contentons d’observer ce que disent les données.

Ces effets sont exprimés en termes de variations sur les rapports de vraisemblance, c’est-à-dire la probabilité de se réorienter divisée par la probabilité de passer en seconde année. Ainsi, si ce rapport est de 1/10 (soit environ 9% de chances de se réorienter), une augmentation de 50% va faire passer ce rapport à 0,15, soit environ 13% de chances de se réorienter. Si ce rapport est de 1 (50% de chances de se réorienter), cette même augmentation de 50% va faire passer le rapport à 1,5 (60% de chances de se réorienter).

Le modèle sélectionné pour l’ensemble des données tient compte du régime (internat ou externat), de la composante linéaire de la PCS (c’est-à-dire qu’on gagne autant en passant de «défavorisé» à «intermédiaire» qu’en passant d’«intermédiaire» à «favorisé»), de la filière de la prépa (littéraire, économique ou scientifique), de si le bac correspond à la filière, du sexe, et des combinaisons filière/bac et filière/sexe.

Comme il est assez clair que la filière et le bac déterminent des populations très différentes, il est intéressant de les étudier individuellement. En particulier les filière scientifique, bac S, qui constituent une sous-population plus homogène, mais encore très nombreuse (21574 sur 38100). Le modèle sélectionné tient compte de la composante linéaire de la PCS, du régime et du sexe.

J’ai aussi étudié les populations plus réduites suivantes: filière économique, bac S (4326, modèle sélectionné dépend uniquement de si les parents sont d’un milieu défavorisé ou non), filière économique, bac ES (3923, modèle sélectionné rejette toutes les variables), filière littéraire, bac L (3678, modèle sélectionné dépend de la composante linéaire de la PCS et du régime), filière littéraire, bac ES (1336, modèle sélectionné rejette toutes les variables).

Effet de l’internat

Pour commencer, les tests montrent un effet positif de l’internat, qui serait au-delà de tout doute raisonnable si tous les facteurs avaient été pris en compte dans les données.

Les p-valeurs sont de 10-11 sur l’ensemble des données, 10-5 si on ne s’intéresse qu’aux bac S/ filière S, 10-8 en bac L, filière L et 1/2000 pour les bac S, filière ES. Nous sommes en dessous du seuil de significativité pour les bac ES, filière L, a priori car l’échantillon est réduit, le rapport des chances mesuré étant très proche du cas général. L’exception concerne les bac ES, filière ES, pour lesquels l’internat semble vraiment ne rien apporter.

Nous obtenons que le fait d’être externe, toutes choses égales par ailleurs, augmente le rapport de risque de ne pas passer en deuxième année d’entre 17% et 33%, estimé à 25% (intervalle simultané 8%-44%).

Si on observe uniquement les filière scientifique, bac S, l’influence est moins forte, l’augmentation étant entre 6% et 26%, estimé à 16% (intervalles simultané 1%-32%).

Les littéraires semblent par contre davantage dépendre de l’internat. Pour les filière littéraire, bac L, l’augmentation est comprise entre 26% et 80%, estimée à 50% (intervalle simultané 16%-94%).

Pour les filière économique, bac S, le régime n’est pas retenu comme variable explicative. Cela témoigne de la stratégie de sélection de modèles très conservatrice, puisque les tests donnent une p-valeur de 1/2000 pour l’affirmation «l’internat n’a pas d’effet, ni seul, ni en combinaison avec d’autres facteurs».

Pour les filière L, bac ES et filière ES, bac ES, aucun facteur explicatif n’est conservé par la procédure de sélection de modèles. Dans le premier cas, l’échantillon est aussi plus réduit.

Autres effets

Le régime n’est bien sûr pas le seul facteur agissant sur le passage en seconde année. Passons rapidement en revue ce que nous apprennent les modèles sélectionnés.

Ensemble des données

Sur l’ensemble des données, l’effet le plus étrange est l’influence du sexe. En effet, elle n’est pas significative dans les filières littéraires et économiques, mais être une femme augmente très fortement le risque de ne pas passer en deuxième année en filière scientifique.

Plus précisément, le rapport de vraisemblance augmente dans ce cas de 91% (intervalle simultané 61%-128%, intervalle individuel 77%-106%).

En filière littéraire, nous obtenons une estimation à -4% (baisse de 4%), avec un intervalle de confiance simultané -27%/+26%, et un intervalle individuel -15%/+8%. En économique, nous obtenons une estimation à +9% (baisse de 4%), avec un intervalle de confiance simultané -16%/+41%, et un intervalle individuel -3%/+22%.

Comme les estimations sont très différentes, ce n’est pas simplement parce que nous avons moins de données dans les filières économique et littéraire que dans la filière scientifique. Il faut donc trouver une autre explication. Peut-être la faible mixité de certaines classes de prépa scientifiques ?

Par ailleurs, être de milieu intermédiaire plutôt que favorisé, ou défavorisé plutôt qu’intermédiaire, augmente le rapport de vraisemblance de 25% (intervalle simultané 10%-41%, intervalle individuel 18%-32%).

Le fait d’avoir le bac général correspondant à sa filière est un avantage dans les filières littéraires et scientifiques, mais pas économique, correspondant à un meilleur taux de passage des étudiants disposant d’un bac S. Plus précisément, ne pas avoir de bac S dans une filière scientifique augmente le rapport de vraisemblance de 54% (intervalle simultané 4%/128%, intervalle individuel 30%/83%), ne pas avoir de bac L en filière littéraire l’augmente de 31% (intervalle simultané 4%/67%, intervalle individuel 19%/46%), ne pas avoir de bac ES en filière économique le fait baisser de 33% (intervalle simultané -48%/-14%, intervalle individuel -40%/-25%).

Il est plus difficile d’interpréter l’effet de la filière seule, comme elle apparaît à la fois combinée au sexe et au bac.

En sélectionnant filière et bac

En filière scientifique avec un bac S, deux autres facteurs sont à prendre en compte: la composante linéaire de la PCS et le sexe.

Ainsi, être de milieu intermédiaire plutôt que favorisé, ou défavorisé plutôt qu’intermédiaire, augmente le rapport de vraisemblance de 23% (intervalle simultané 9%-40%, intervalle individuel 14%-33%).

Être une femme augmente le rapport de vraisemblance de 92% (intervalle simultané 70%-118%, intervalle individuel 78%-108%).

On remarquera que l’estimation de l’effet du sexe est très proche de celle obtenue via le modèle global, mais que l’intervalle de confiance simultané est bien meilleur comme il y a moins d’effets à évaluer dans ce modèle, et que le sexe est ici un facteur d’ordre 1.

En filière économique avec un bac S, être de milieu défavorisé augmente le rapport de vraisemblance de 91% (intervalle simultané 36%/168%, intervalle individuel 45%/150%).

En filière littéraire avec un bac L, être de milieu intermédiaire plutôt que favorisé, ou défavorisé plutôt qu’intermédiaire, augmente le rapport de vraisemblance de 33% (intervalle simultané 8%-63%, intervalle individuel 15%-53%).

Méthodologie

Je compte publier les détails dans une revue idoine, après y avoir adjoint l’étude du Panel Lycéens.

L’étude a été réalisée sous R. Si quelqu’un en fait la demande, je peux lui fournir mon fichier R, mais je ne l’ai pas encore nettoyé.

Tous les pourcentages sont arrondis à l’entier le plus proche.

pour les tests le test exact conditionnel aux marginales pour les tables 2*2*k, accessible via la commande mantelhaen, avec l’option exact=TRUE. Il y a suffisamment de données pour que l’aspect discret de la distribution hypergéométrique ne fasse pas beaucoup baisser la puissance du test.

Les modèles parmi lesquels la sélection s’est effectuée sont tous les modèles de régression logistique à effets de tous les ordres, en gardant juste la contrainte de hiérarchie. C’est-à-dire que si «filière:Sexe» est un facteur explicatif, «filière» et «Sexe» en sont aussi. Par ailleurs, nous avons autorisé les traitements des PCS d’une part, et des filières et bacs d’autre part, de plusieurs manières différentes. Pour la PCS, qui comporte trois niveaux (défavorisé, intermédiaire, favorisé), ou bien elle fournissait deux degrés de liberté, ou bien un seul, la composante linéaire quand les niveaux sont codés -1, 0, et 1, ou bien un seul en groupant défavorisé et intermédiaire, ou bien un seul en groupant intermédiaire et favorisé. Pour la filière et le bac quand je travaillais avec toutes les données, elles étaient ou bien codées en commun par une variable FilBac, ou bien je gardais la filière et remplaçais le bac par une variable valant 1 si le bac est le bac général correspondant à la filière, et zéro sinon. Ceci permet de réduire le nombre de degrés de liberté.

Cette régression est accessible via la commande glm avec option family=binomial, ou via le paquet zelig, avec la commande du même nom et l’option model=logit.

Le critère de sélection de modèle utilisé est le BIC. En effet, c’est un critère spécialisé en identification plutôt qu’en prédiction. Comme nous essayons en l’occurrence de voir ce qu’il y a dans les données, et pas de prévoir les chances de passage de quelqu’un qui aurait telle ou telle caractéristique, ce critère est plus adapté qu’un critère comme AIC ou la plupart des pénalisations à la Birgé-Massart. Par ailleurs, son aspect conservateur implique peu de termes, donc une interprétation plus aisée.

Les intervalles de confiance donnés dans ce billet sont les intervalles asymptotiques. Il y a là suffisamment de données pour que ce ne soit pas un problème, comme le témoigne la faiblesse de la correction à l’estimation obtenue en utilisant l’option model=relogit sous zelig. Cette option élimine le premier ordre, en n-1, du biais du maximum de vraisemblance. L’erreur asymptotique sur la variance est du même ordre. Si on veut être tout à fait rigoureux, on peut appliquer la construction hongroise à la multinomiale correspondant aux cases de la table du modèle. Étant donné les équations vérifiées par l’estimateur de maximum de vraisemblance, nous avons la garantie que l’erreur est de l’ordre de l’inverse de la plus petite valeur des marginales correspondant aux niveaux que peuvent prendre la variable d’intérêt et la variable explicative dont on regarde le coefficient, avec une constante explicite.

Je laisse à un éventuel paranoïaque le soin de calculer la constante précise qui sortirait de l’application de ce théorème…

Jonas Kahn

Bookmark and Share

3 commentaires à “Quelques analyses chiffrées”

  • Tim :

    Merci Jonas pour cette analyse, la première aussi rigoureuse j’imagine… et le résultat « être une femme augmente très fortement le risque de ne pas passer en deuxième année en filière scientifique » justifie l’initiative d’Ouvrons Les Portes

  • Robin :

    Comme vous le dites, il est dommage de ne pas avoir les résultats au bac (ou une autre mesure du niveau des élèves à l’entrée en prépa) : on aurait tendance à imaginer que (dans les situations où il n’y a pas de discrimination hommes/femmes) les meilleurs élèves ont plus de chances de se voir attribuer une chambre d’internat ainsi qu’une moindre chance d’être réorientés, ce qui fait que la corrélation ne montre pas forcément un lien de cause à effet.

    Mais justement, la présence de discrimination peut peut-être aider à montrer que même à niveau d’entrée égal, l’internat favorise le passage en deuxième année. Je n’ai pas vu les données, mais j’imagine que les filles qui vont en prépa ont le même niveau d’entrée que les garçons et que la seule différence entre les deux catégories est la présence d’internat. Il pourrait être intéressant de vérifier que dans les lycées sans internat, filles et garçons ont les mêmes chances de passer en deuxième année.

  • Jonas :

    @Tim
    Merci!

    @Robin
    Oui, le sens de corrélation attendu est mentionné.
    Comme je l’ai écrit, je vais essayer de voir ce que je peux tirer de mes 660 cas. Ce seront bien sûr des tests grossiers et pas une analyse détaillée.

    Quant à l’histoire des filles qui passent moins en sciences (constatée sur l’analyse globale des données, pas testée spécifiquement; il faut donc que l’effet soit plutôt plus fort pour l’avoir vu), il est indépendant de l’internat. Ce que dit cette propension est qu’une fille interne a moins de chances de passer en seconde année qu’un garçon interne (de même PCS) et une fille externe qu’un garçon externe.

    Je ne peux pas faire d’analyse séparant lycées avec internat (mixte) de lycées sans internats, comme je ne dispose que de données agrégées, sauf pour mes 660 parcours individuels, mais cet échantillon est vraisemblablement trop faible pour tester une interaction.

  • Laisser un commentaire