Examen des méthodes de reconnaissance de formes existantes. La reconnaissance de formes

Envoyer votre bon travail dans la base de connaissances est simple. Utilisez le formulaire ci-dessous

Bon travail sur le site">

Les étudiants, étudiants diplômés, jeunes scientifiques qui utilisent la base de connaissances dans leurs études et leur travail vous seront très reconnaissants.

Posté sur http://www.allbest.ru/

Ministère de l'Éducation et des Sciences de la Fédération de Russie

Novossibirsk Université d'État Economie et Gestion "NINH"

Faculté des technologies de l'information

Département des technologies de l'information appliquées

dans la discipline Logique floue et réseaux de neurones

La reconnaissance de formes

Direction : Informatique de gestion (commerce électronique)

Nom complet de l'étudiant : Mazur Ekaterina Vitalievna

Vérifié par : Pavlova Anna Illarionovna

Novossibirsk 2016

  • Introduction
  • 1. Notion de reconnaissance
    • 1.1 Historique du développement
    • 1.2 Classification des méthodes de reconnaissance de formes
  • 2. Méthodes de reconnaissance de formes
  • 3. caractéristiques générales tâches de reconnaissance de formes et leurs types
  • 4. Problèmes et perspectives de développement de la reconnaissance de formes
    • 4.1 Application de la reconnaissance de formes dans la pratique
  • Conclusion

Introduction

Pendant longtemps, le problème de la reconnaissance des formes a été envisagé uniquement d'un point de vue biologique. Dans ce cas, seules des caractéristiques qualitatives ont été observées, ce qui ne permet pas de décrire le mécanisme de fonctionnement.

Le concept introduit par N. Wiener au début du 20e siècle cybernétique(la science des lois générales des processus de contrôle et de transmission de l'information dans les machines, les organismes vivants et la société), a permis d'introduire des méthodes quantitatives en matière de reconnaissance. Autrement dit, imaginer ce processus (essentiellement - un phénomène naturel) en utilisant des méthodes mathématiques.

La théorie de la reconnaissance des formes est l’une des principales branches de la cybernétique, tant en termes théoriques qu’appliqués. Ainsi, l'automatisation de certains processus implique la création de dispositifs capables de répondre à des caractéristiques changeantes environnement externe quelques réactions positives.

La base pour résoudre des problèmes de ce niveau sont les résultats théorie classique solutions statistiques. Dans ce cadre, des algorithmes ont été construits pour déterminer la classe dans laquelle un objet reconnu peut être classé.

Le but de ce travail est de se familiariser avec les concepts de la théorie de la reconnaissance de formes : en révéler les principales définitions, étudier l'histoire de son apparition et mettre en évidence les principales méthodes et principes de la théorie.

L'actualité du sujet réside dans le fait qu'à l'heure actuelle, la reconnaissance de formes est l'un des principaux domaines de la cybernétique. Ainsi, ces dernières années, il a trouvé une utilisation croissante : il simplifie l'interaction humaine avec un ordinateur et crée les conditions préalables à l'utilisation de divers systèmes. intelligence artificielle.

application de reconnaissance d'images

1. Concept de reconnaissance

Pendant longtemps, le problème de la reconnaissance n’a retenu l’attention que des scientifiques du domaine. mathématiques appliquées. En conséquence, les œuvres de R. Fischer, créées en 20s, a conduit à la formation de l'analyse discriminante - l'une des branches de la théorie et de la pratique de la reconnaissance de formes. DANS années 40 A. N. Kolmogorov et A. Ya. Khinchin se sont fixé pour objectif de séparer un mélange de deux distributions. Et en 50-60 ans années du XXe siècle sur la base de grande quantité travaux, la théorie des décisions statistiques est apparue. Dans le cadre de la cybernétique, une nouvelle direction a commencé à émerger, associée au développement de fondements théoriques et à la mise en œuvre pratique de mécanismes, ainsi que de systèmes conçus pour reconnaître des objets et des processus. La nouvelle discipline s'appelle « Reconnaissance de formes ».

La reconnaissance de formes(objets) est la tâche d'identifier un objet par son image (reconnaissance optique), son enregistrement audio (reconnaissance acoustique) ou d'autres caractéristiques. Image est un regroupement de classification qui permet de combiner un groupe d'objets selon certains critères. Les images ont caractéristique, se manifestant par le fait que la familiarisation avec un nombre fini de phénomènes d'un même ensemble permet de reconnaître un grand nombre de ses représentants. Dans la formulation classique du problème de reconnaissance, l’ensemble est divisé en parties.

L'une des définitions de base est également le concept multitudes. Dans un ordinateur, un ensemble est un ensemble d’éléments non répétitifs du même type. « Non répétitif » signifie qu'un élément d'un ensemble existe ou non. Un ensemble universel contient tous les éléments possibles ; un ensemble vide n’en contient aucun.

La technique d'attribution d'un élément à une image est appelée règle décisive. Un autre concept important est métrique- détermine la distance entre les éléments de l'ensemble. Plus cette distance est petite, plus les objets (symboles, sons, etc.) que l’on reconnaît sont similaires. Standardement, les éléments sont spécifiés sous la forme d'un ensemble de nombres et la métrique est spécifiée sous la forme d'une sorte de fonction. L'efficacité du programme dépend du choix de la représentation de l'image et de la mise en œuvre des métriques : le même algorithme de reconnaissance avec des métriques différentes fera des erreurs avec des fréquences différentes.

Entraînement généralement appelé le processus de développement dans un certain système de l'une ou l'autre réaction à des facteurs de signaux externes similaires à travers leur impact répété sur le système. Auto-apprentissage diffère de la formation en ce sens qu'ici, aucune information supplémentaire sur la réaction n'est fournie au système.

Des exemples de tâches de reconnaissance de formes sont :

Reconnaissance des lettres ;

Reconnaissance de codes-barres ;

Reconnaissance de plaque d'immatriculation ;

Reconnaissance de visages et autres données biométriques ;

Reconnaissance vocale, etc.

1.1 Histoire développement

Au milieu des années 1950, R. Penrose remettait en question le modèle du réseau neuronal du cerveau, soulignant le rôle important des effets de la mécanique quantique dans son fonctionnement. Sur cette base, F. Rosenblatt a développé un modèle d'apprentissage par reconnaissance Images visuelles, appelé perceptron.

Dessin1 - Circuit perceptron

De plus, diverses généralisations du perceptron ont été inventées et la fonction des neurones était compliquée : les neurones pouvaient non seulement multiplier les nombres d'entrée et comparer le résultat avec des valeurs seuils, mais aussi appliquer plus fonctions complexes. La figure 2 montre une de ces complications :

Riz. 2 Schéma d'un réseau de neurones.

De plus, la topologie du réseau neuronal pourrait être encore plus compliquée. Par exemple, comme ceci :

Figure 3 - Schéma du réseau neuronal Rosenblatt.

Les réseaux de neurones, étant un objet complexe pour analyse mathematique, lorsqu'il est utilisé correctement, a permis de trouver de très des lois simples données. Mais cet avantage est aussi source d’erreurs potentielles. La difficulté de l'analyse, dans le cas général, s'explique uniquement par la structure complexe, mais, par conséquent, par les possibilités pratiquement inépuisables de généraliser une grande variété de modèles.

1.2 Classificationméthodesreconnaissanceimages

Comme nous l'avons déjà noté, la reconnaissance de formes fait référence à la tâche consistant à établir des relations d'équivalence entre certains modèles d'images d'objets dans le monde réel ou idéal.

Ces relations déterminent l'appartenance des objets reconnus à toutes les classes, qui sont considérées comme des unités indépendantes.

Lors de la construction d'algorithmes de reconnaissance, ces classes peuvent être spécifiées par un chercheur qui utilise ses propres idées ou utilise des informations supplémentaires sur la similitude ou la différence des objets dans le contexte d'une tâche donnée. On parle dans ce cas de « reconnaissance auprès d’un enseignant ». Dans un autre, c'est-à-dire Lorsqu’un système automatisé résout un problème de classification sans impliquer d’informations supplémentaires, on parle de « reconnaissance non supervisée ».

Dans les travaux de V.A. Duke donne un aperçu académique des méthodes de reconnaissance et utilise deux manières principales de représenter les connaissances :

Intensionnel (sous la forme d'un schéma de connexions entre attributs) ;

Extensionnel utilisant des faits spécifiques (objets, exemples).

La représentation intentionnelle capture les modèles qui expliquent la structure des données. Par rapport aux problèmes de diagnostic, une telle fixation consiste à déterminer des opérations sur les caractéristiques des objets qui conduisent au résultat souhaité. Les représentations intensionnelles sont mises en œuvre via des opérations sur des valeurs et n'impliquent pas d'opérations sur des objets spécifiques.

À leur tour, les représentations extensionnelles de la connaissance sont associées à la description et à la fixation d'objets spécifiques du domaine et sont mises en œuvre dans des opérations dont les éléments sont des objets en tant que systèmes indépendants.

Ainsi, la base de la classification des méthodes de reconnaissance proposée par V.A. Duke, des lois fondamentales sont établies qui sous-tendent en principe le mode de cognition humain. Cela place cette division en classes dans une position particulière par rapport à d'autres classifications moins connues, qui dans ce contexte semblent artificielles et incomplètes.

2. Méthodesla reconnaissance de formes

Méthode par force brute. Dans cette méthode, une comparaison est effectuée avec une certaine base de données, où pour chacun des objets différentes variantes modifications d'affichage. Par exemple, pour la reconnaissance optique de formes, vous pouvez utiliser la méthode d'énumération sous différents angles ou échelles, déplacements, déformations, etc. Pour les lettres, vous pouvez énumérer la police ou ses propriétés. Dans le cas de la reconnaissance de formes sonores, une comparaison est faite avec certains modèles connus (un mot prononcé par de nombreuses personnes). Ensuite, une analyse plus approfondie des caractéristiques de l’image est réalisée. Dans le cas de la reconnaissance optique, il peut s'agir de la détermination de caractéristiques géométriques. Dans ce cas, l’échantillon sonore est soumis à une analyse de fréquence et d’amplitude.

Méthode suivante - utilisation d'artificiel les réseaux de neurones (INS). Cela nécessite soit énorme montant des exemples de tâche de reconnaissance, ou une structure particulière d'un réseau neuronal qui prend en compte les spécificités d'une tâche donnée. Néanmoins, cette méthode est très efficace et productive.

Méthodes basées sur des estimations des densités de distribution des valeurs des caractéristiques. Emprunté à la théorie classique des décisions statistiques, dans laquelle les objets d'étude sont considérés comme des mises en œuvre d'un système multidimensionnel. Variable aléatoire, distribué dans l'espace des fonctionnalités selon une certaine loi. Ils sont basés sur un schéma décisionnel bayésien qui fait appel aux probabilités initiales des objets appartenant à une classe particulière et aux densités de distribution conditionnelle des caractéristiques.

Un groupe de méthodes basées sur l'estimation des densités de distribution des valeurs des caractéristiques est directement liée aux méthodes d'analyse discriminante. L'approche bayésienne de la prise de décision est l'une des méthodes paramétriques les plus développées de la statistique moderne, pour laquelle l'expression analytique de la loi de distribution (loi normale) est supposée connue et seul un petit nombre de paramètres (vecteurs de moyennes et matrices de covariance ) doivent être estimés. Les principales difficultés liées à l'utilisation de cette méthode sont considérées comme la nécessité de mémoriser l'intégralité de l'échantillon de formation pour calculer les estimations de densité et la grande sensibilité de l'échantillon de formation.

Méthodes basées sur des hypothèses sur la classe des fonctions de décision. Dans ce groupe, on considère espèce connue de la fonction décisive et le fonctionnel de sa qualité est précisé. Sur la base de cette fonctionnelle, l'approximation optimale de la fonction de décision est trouvée à l'aide de la séquence d'entraînement. La qualité fonctionnelle de la règle de décision est généralement associée à l’erreur. Le principal avantage de la méthode est la clarté de la formulation mathématique du problème de reconnaissance. La capacité à extraire de nouvelles connaissances sur la nature d'un objet, en particulier des connaissances sur les mécanismes d'interaction des attributs, est ici fondamentalement limitée par la structure donnée. d'interaction, fixés dans la forme sélectionnée de fonctions de décision.

Méthode de comparaison avec un prototype. Il s’agit de la méthode de reconnaissance extensionnelle la plus simple en pratique. Il est utilisé lorsque les classes reconnues sont affichées sous forme de classes géométriques compactes. Ensuite, le centre du groupement géométrique (ou l'objet le plus proche du centre) est sélectionné comme point prototype.

Pour classer un objet non défini, le prototype le plus proche est trouvé et l'objet appartient à la même classe que lui. Évidemment, aucune image généralisée n’est formée avec cette méthode. Différents types de distances peuvent être utilisés comme mesure.

méthode des k voisins les plus proches. La méthode consiste dans le fait que lors de la classification d'un objet inconnu, un nombre donné (k) d'entités géométriquement les plus proches dans l'espace des autres voisins les plus proches avec une appartenance déjà connue à n'importe quelle classe est trouvé. La décision de classer un objet inconnu est prise en analysant les informations sur ses voisins les plus proches. La nécessité de réduire le nombre d’objets dans l’échantillon d’apprentissage (précédents de diagnostic) est un inconvénient de cette méthode, car elle réduit la représentativité de l’échantillon d’apprentissage.

Partant du fait que différents algorithmes de reconnaissance se comportent différemment sur un même échantillon, se pose la question d’une règle de décision synthétique qui utiliserait les atouts de tous les algorithmes. Il existe pour cela une méthode synthétique ou des groupes de règles de décision qui combinent les aspects les plus positifs de chaque méthode.

Pour conclure l'examen des méthodes de reconnaissance, présentons l'essence de ce qui précède dans tableau croisé dynamique, en ajoutant également quelques autres méthodes utilisées dans la pratique.

Tableau 1. Tableau de classification des méthodes de reconnaissance, comparaison de leurs domaines d'application et limites

Classification des méthodes de reconnaissance

Champ d'application

Limites (inconvénients)

Méthodes de reconnaissance intensives

Méthodes basées sur des estimations de densité

Problèmes avec une distribution connue (normale), nécessité de collecter des statistiques volumineuses

La nécessité d'énumérer l'intégralité de l'échantillon d'apprentissage lors de la reconnaissance, une sensibilité élevée à la non-représentativité de l'échantillon d'apprentissage et des artefacts

Méthodes basées sur des hypothèses

Les classes doivent être bien séparables

Le type de fonction de décision doit être connu à l’avance. Incapacité à prendre en compte les nouvelles connaissances sur les corrélations entre les traits

Méthodes booléennes

Petits problèmes

Lors de la sélection de règles de décision logiques, une recherche exhaustive est nécessaire. Forte intensité de travail

Méthodes linguistiques

La tâche consistant à déterminer la grammaire à partir d'un certain ensemble d'énoncés (descriptions d'objets) est difficile à formaliser. Problèmes théoriques non résolus

Méthodes de reconnaissance extensionnelle

Méthode de comparaison avec un prototype

Problèmes de petite dimension de l'espace des fonctionnalités

Forte dépendance des résultats de classification aux métriques. Métrique optimale inconnue

méthode des k voisins les plus proches

Forte dépendance des résultats de classification aux métriques. La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Effort de calcul

Algorithmes de calcul d'estimations (ABO)

Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités

Dépendance des résultats de classification aux métriques. La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Haute complexité technique de la méthode

Les Collectifs de Règles de Décision (DRC) sont une méthode synthétique.

Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités

Très grande complexité technique de la méthode, nombre de problèmes théoriques non résolus, tant dans la détermination des domaines de compétence des méthodes privées que dans les méthodes privées elles-mêmes

3. Caractéristiques générales des problèmes de reconnaissance de formes et leurs types

La structure générale du système de reconnaissance et ses étapes sont présentées dans la figure 4 :

Figure 4 - Structure du système de reconnaissance

Les tâches de reconnaissance comportent les étapes caractéristiques suivantes :

Conversion des données source en une forme pratique pour la reconnaissance ;

Reconnaissance (indiquant qu'un objet appartient à une certaine classe).

Dans ces problèmes, vous pouvez introduire le concept de similarité d'objet et formuler un ensemble de règles sur la base desquelles un objet est inclus dans une ou plusieurs classes.

On peut également opérer avec un ensemble d'exemples dont la classification est connue et qui, sous forme de descriptions données, peuvent être déclarées à l'algorithme de reconnaissance pour ajustement à la tâche au cours du processus d'apprentissage.

Les difficultés à résoudre les problèmes de reconnaissance sont associées à l'incapacité d'appliquer des méthodes mathématiques classiques sans corrections (souvent, les informations pour un modèle mathématique précis ne sont pas disponibles)

On distingue les types de tâches de reconnaissance suivants :

La tâche de reconnaissance consiste à attribuer l'objet présenté selon sa description à l'une des classes données (apprentissage supervisé) ;

La tâche de la classification automatique est de partitionner un ensemble en un système de classes disjointes (taxonomie, analyse groupée, auto-apprentissage) ;

La tâche de sélectionner un ensemble informatif d'attributs lors de la reconnaissance ;

La tâche de mettre les données source sous une forme pratique ;

Reconnaissance et classification dynamiques ;

Un problème de prévision, c'est-à-dire que la décision doit se rapporter à un moment précis du futur.

Il existe deux problèmes les plus difficiles dans les systèmes de reconnaissance existants :

Le problème de la « classe 1001 » - l'ajout d'une classe à 1000 classes existantes entraîne des difficultés pour recycler le système et vérifier les données reçues auparavant ;

Le problème de la « corrélation entre dictionnaire et sources » est plus prononcé dans le domaine de la reconnaissance vocale. Les systèmes actuels peuvent reconnaître soit un grand nombre de mots provenant d'un petit groupe d'individus, soit un petit nombre de mots provenant d'un grand groupe d'individus. Il est également difficile de reconnaître un grand nombre de visages maquillés ou grimaçants.

Les réseaux de neurones ne résolvent pas directement ces problèmes, mais de par leur nature, ils s'adaptent beaucoup plus facilement aux changements dans les séquences d'entrée.

4. Problèmes et perspectivesdéveloppementla reconnaissance de formes

4.1 Application de la reconnaissance de formes dans la pratique

En général, le problème de la reconnaissance de formes se compose de deux parties : la formation et la reconnaissance. L'apprentissage s'effectue en montrant des objets indépendants et en les affectant à l'une ou l'autre classe. Grâce à la formation, le système de reconnaissance devrait acquérir la capacité de répondre avec les mêmes réactions à tous les objets d'une image et des réactions différentes à tous les autres. Il est important que lors du processus d'apprentissage, seuls les objets eux-mêmes et leur affiliation avec l'image soient indiqués. La formation est suivie d'un processus de reconnaissance qui caractérise les actions d'un système déjà formé. L'automatisation de ces procédures est le problème.

Avant de commencer l'analyse d'un objet, vous devez obtenir des informations certaines, ordonnées et précises à son sujet. Ces informations sont un ensemble de propriétés d'objets, leur affichage sur divers organes perceptifs du système de reconnaissance.

Mais chaque objet d’observation peut influencer différemment, selon les conditions de perception. De plus, les objets d’une même image peuvent différer considérablement les uns des autres.

Chaque cartographie d'un objet sur les organes perceptifs du système de reconnaissance, quelle que soit sa position par rapport à ces organes, est généralement appelée image de l'objet, et des ensembles de telles images, unies par certains les propriétés générales, représentent des images. Si la description initiale (espace de fonctionnalités) est choisie avec succès, la tâche de reconnaissance peut s'avérer assez simple et, à l'inverse, un choix infructueux peut conduire à un traitement ultérieur très complexe de l'information, voire à l'absence de solution du tout.

La reconnaissance d'objets, de signaux, de situations, de phénomènes est la tâche la plus courante qu'une personne doit résoudre chaque seconde. Pour cela, d'énormes ressources cérébrales sont utilisées, estimées par un indicateur tel que le nombre de neurones égal à 10 10.

De plus, la reconnaissance est constamment rencontrée dans la technologie. Les calculs dans les réseaux de neurones formels sont à bien des égards similaires au traitement de l’information dans le cerveau. Au cours de la dernière décennie, la neuroinformatique a gagné en popularité et est devenue une discipline d’ingénierie associée à la production de produits commerciaux. De nombreux travaux sont en cours pour créer une base élémentaire pour la neuroinformatique.

Leur principale caractéristique est la capacité à résoudre des problèmes non formalisés pour lesquels, pour une raison ou une autre, aucun algorithme de solution n'est proposé. Les neuroordinateurs offrent une technologie relativement simple pour dériver des algorithmes par apprentissage. C'est leur principal avantage. Par conséquent, la neuroinformatique s'avère pertinente à l'heure actuelle - à l'apogée du multimédia, lorsque le développement mondial nécessite le développement de nouvelles technologies étroitement liées à la reconnaissance d'images.

L’un des principaux problèmes du développement et de l’application de l’intelligence artificielle reste celui de la reconnaissance des images audio et visuelles. Toutes les autres technologies sont déjà prêtes à trouver leur application en médecine, en biologie et dans les systèmes de sécurité. En médecine, la reconnaissance de formes aide les médecins à établir des diagnostics plus précis ; dans les usines, elle est utilisée pour prédire les défauts dans des lots de marchandises. Les systèmes d’identification biométrique des personnes reposent également sur les résultats de la reconnaissance comme noyau algorithmique. Le développement et la conception ultérieurs d'ordinateurs capables de communiquer plus directement avec les humains dans des langages naturels aux humains et par la parole ne peuvent être résolus sans reconnaissance. Ici se pose la question du développement de la robotique et des systèmes de contrôle artificiels contenant des systèmes de reconnaissance comme sous-systèmes vitaux.

Conclusion

À la suite des travaux, un bref aperçu des principales définitions des concepts d'une branche de la cybernétique telle que la reconnaissance de formes a été réalisé, les méthodes de reconnaissance ont été mises en évidence et les tâches ont été formulées.

Bien entendu, il existe de nombreuses directions pour le développement de cette science. De plus, comme indiqué dans l'un des chapitres, la reconnaissance est actuellement l'un des domaines clés de développement. Donc, logiciel dans les décennies à venir, il pourrait devenir encore plus attractif pour l'utilisateur et compétitif sur le marché moderne s'il acquiert un format commercial et commence à se diffuser auprès d'un grand nombre de consommateurs.

Des recherches ultérieures peuvent viser les aspects suivants : une analyse approfondie des principales méthodes de traitement et le développement de nouvelles méthodes de reconnaissance combinées ou modifiées. Sur la base des recherches menées, il sera possible de développer un système de reconnaissance fonctionnelle, à l'aide duquel il sera possible de tester l'efficacité des méthodes de reconnaissance sélectionnées.

Bibliographie

1. David Formais, Jean Pons Vision par ordinateur. Approche moderne, 2004

2. Aizerman M.A., Braverman E.M., Rozonoer L.I. La méthode des fonctions potentielles dans la théorie de l'apprentissage automatique. - M. : Nauka, 2004.

3. Jouravlev Yu.I. Sur une approche algébrique de la résolution de problèmes de reconnaissance ou de classification // Problèmes de Cybernétique. M. : Nauka, 2005. - Numéro. 33.

4. Mazurov V.D. Les comités des systèmes d'inégalités et le problème de la reconnaissance // Cybernétique, 2004, n° 2.

5. Potapov A.S. Reconnaissance de formes et perception des machines. - Saint-Pétersbourg : Politekhnika, 2007.

6. Minsky M., Papert S. Perceptrons. - M. : Mir, 2007.

7. Rastrigin L. A., Erenshtein R. Kh. Méthode de reconnaissance collective. M. Energoizdat, 2006.

8. Rudakov K.V. Sur la théorie algébrique des restrictions universelles et locales pour les problèmes de classification // Reconnaissance, classification, prévision. Méthodes mathématiques et leur application. Vol. 1. - M. : Nauka, 2007.

9. Fu K. Méthodes structurelles en reconnaissance de formes. - M. : Mir, 2005.

Publié sur Allbest.ru

...

Documents similaires

    Concepts de base de la théorie de la reconnaissance de formes et sa signification. Essence théorie mathématique la reconnaissance de formes. Les principales tâches qui se posent lors du développement de systèmes de reconnaissance d'images. Classification des systèmes de reconnaissance de formes en temps réel.

    travail de cours, ajouté le 15/01/2014

    Concept et caractéristiques de la construction d'algorithmes de reconnaissance de formes. Diverses approches de la typologie des méthodes de reconnaissance. Étudier les manières de base de représenter la connaissance. Caractéristiques des méthodes intentionnelles et extensionnelles, évaluation de leur qualité.

    présentation, ajouté le 06/01/2014

    Fondements théoriques de la reconnaissance de formes. Schéma fonctionnel du système de reconnaissance. Application des méthodes bayésiennes à la résolution du problème de la reconnaissance de formes. Segmentation bayésienne d'images. Modèle TAN pour résoudre le problème de classification d'images.

    thèse, ajoutée le 13/10/2017

    Examen des problèmes découlant du développement de systèmes de reconnaissance de formes. Classificateurs d'images entraînables. Algorithme Perceptron et ses modifications. Création d'un programme conçu pour classer des images selon la méthode des moindres carrés moyens.

    travail de cours, ajouté le 05/04/2015

    Méthodes de reconnaissance de formes (classificateurs) : méthode bayésienne, linéaire, fonction potentielle. Développement d'un programme de reconnaissance d'une personne à partir de ses photographies. Exemples de fonctionnement des classificateurs, résultats expérimentaux sur la précision des méthodes.

    travail de cours, ajouté le 15/08/2011

    Création d'un outil logiciel effectuant une reconnaissance visuelle d'images basée sur des réseaux de neurones artificiels. Méthodes utilisées pour la reconnaissance de formes. Le pandémonium de Selfridge. Rosenblatt Perceptron. La règle pour former un code de chaîne.

    thèse, ajoutée le 06/04/2014

    La reconnaissance de formes consiste à identifier un objet ou à déterminer ses propriétés à partir de son image ou de son enregistrement audio. Histoire des évolutions théoriques et techniques dans ce domaine. Méthodes et principes utilisés en technologie informatique pour la reconnaissance.

    résumé, ajouté le 10/04/2010

    Le concept d'un système de reconnaissance de formes. Classification des systèmes de reconnaissance. Développement d'un système de reconnaissance de forme de micro-objets. Un algorithme de création d'un système de reconnaissance de micro-objets sur un cristallogramme, caractéristiques de sa mise en œuvre dans un environnement logiciel.

    travail de cours, ajouté le 21/06/2014

    Sélection du type et de la structure d'un réseau de neurones. Sélection de la méthode de reconnaissance, schéma fonctionnel du réseau Hopfield. Formation d'un système de reconnaissance de formes. Caractéristiques du travail avec le programme, ses avantages et ses inconvénients. Description de l'interface utilisateur et des écrans.

    travail de cours, ajouté le 14/11/2013

    L'émergence de systèmes techniques de reconnaissance automatique. L'homme comme élément ou maillon d'un complexe systèmes automatiques. Possibilités de dispositifs de reconnaissance automatique. Étapes de création d'un système de reconnaissance de formes. Processus de mesure et de codage.

Et des signes. De tels problèmes sont résolus assez souvent, par exemple lorsque vous traversez ou dépassez une rue après un feu tricolore. Reconnaître la couleur d'un feu de circulation allumé et connaître les règles trafic vous permet de prendre la bonne décision quant à savoir si vous pouvez ou non traverser la rue pour le moment.

Au cours du processus d’évolution biologique, de nombreux animaux ont résolu des problèmes à l’aide de leur appareil visuel et auditif. la reconnaissance de formes assez bien. Création de systèmes artificiels la reconnaissance de formes reste un problème théorique et technique complexe. Le besoin d'une telle reconnaissance se fait sentir dans divers domaines - des affaires militaires et des systèmes de sécurité à la numérisation de toutes sortes de signaux analogiques.

Traditionnellement, les tâches de reconnaissance de formes font partie de la gamme des tâches d’intelligence artificielle.

Orientations en matière de reconnaissance de formes

Deux orientations principales peuvent être distinguées :

  • Étudier les capacités de reconnaissance que possèdent les êtres vivants, les expliquer et les modéliser ;
  • Développement de théories et de méthodes pour construire des dispositifs conçus pour résoudre des problèmes individuels dans des applications appliquées.

Énoncé formel du problème

La reconnaissance de formes est l'attribution de données source à une certaine classe en identifiant les caractéristiques significatives qui caractérisent ces données à partir de la masse totale de données sans importance.

Lorsqu'ils posent des problèmes de reconnaissance, ils essaient d'utiliser un langage mathématique, en essayant, contrairement à la théorie des réseaux de neurones artificiels, où la base est l'obtention d'un résultat par l'expérience, de remplacer l'expérience par un raisonnement logique et une preuve mathématique.

Les images monochromes sont le plus souvent considérées dans les problèmes de reconnaissance de formes, ce qui permet de considérer l'image comme une fonction sur un plan. Si l'on considère un point fixé sur le plan T, où la fonction X(X,oui) exprime ses caractéristiques en chaque point de l'image - luminosité, transparence, densité optique, alors une telle fonction est un enregistrement formel de l'image.

L'ensemble de toutes les fonctions possibles X(X,oui) en surface T- il existe un modèle de l'ensemble de toutes les images X. Présentation du concept similitudes entre les images, vous pouvez poser une tâche de reconnaissance. Le type spécifique d'une telle déclaration dépend fortement des étapes ultérieures de reconnaissance selon l'une ou l'autre approche.

Méthodes de reconnaissance de formes

Pour la reconnaissance optique des formes, vous pouvez utiliser la méthode de recherche via la vue d'un objet sous différents angles, échelles, décalages, etc. Pour les lettres, vous devez trier la police, les propriétés de la police, etc.

La deuxième approche consiste à retrouver le contour de l'objet et à examiner ses propriétés (connectivité, présence de coins, etc.)

Une autre approche consiste à utiliser des réseaux de neurones artificiels. Cette méthode nécessite soit un grand nombre d'exemples de tâche de reconnaissance (avec des réponses correctes), soit une structure de réseau neuronal particulière qui prend en compte les spécificités de cette tâche.

Perceptron comme méthode de reconnaissance de formes

F. Rosenblatt, introduisant le concept de modèle cérébral dont la tâche est de montrer comment, dans un système physique dont la structure et les propriétés fonctionnelles sont connues, des phénomènes psychologiques peuvent survenir - il a décrit le plus simple expériences de discrimination. Ces expériences sont entièrement liées aux méthodes de reconnaissance de formes, mais diffèrent en ce que l'algorithme de solution n'est pas déterministe.

L'expérience la plus simple à partir de laquelle on peut obtenir des informations psychologiquement significatives sur un certain système se résume au fait que le modèle est présenté avec deux stimuli différents et doit y répondre de différentes manières. Le but d'une telle expérience peut être d'étudier la possibilité de leur discrimination spontanée par le système en l'absence d'intervention de l'expérimentateur, ou, à l'inverse, d'étudier la discrimination forcée, dans laquelle l'expérimentateur cherche à entraîner le système à effectuer le classement requis.

Dans une expérience d'entraînement au perceptron, une certaine séquence d'images est généralement présentée, qui comprend des représentants de chacune des classes à distinguer. Selon une règle de modification de la mémoire, le choix correct de la réponse est renforcé. Le perceptron reçoit ensuite un stimulus de contrôle et la probabilité d'obtenir la réponse correcte pour les stimuli d'une classe donnée est déterminée. Selon que le stimulus de contrôle sélectionné coïncide ou non avec l'une des images utilisées dans la séquence d'entraînement, différents résultats sont obtenus :

  • 1. Si le stimulus de contrôle ne coïncide avec aucun des stimuli d'entraînement, alors l'expérience est associée non seulement à discrimination pure, mais comprend également des éléments généralisations.
  • 2. Si un stimulus de contrôle excite un certain ensemble d'éléments sensoriels complètement différents de ceux qui ont été activés sous l'influence de stimuli de la même classe présentés précédemment, alors l'expérience est une étude pure généralisation .

Les perceptrons n'ont pas la capacité de généralisation pure, mais ils fonctionnent de manière tout à fait satisfaisante dans les expériences de discrimination, surtout si le stimulus de contrôle correspond suffisamment à l'une des images avec lesquelles le perceptron a déjà accumulé une certaine expérience.

Exemples de problèmes de reconnaissance de formes

  • Reconnaissance des lettres.
  • Reconnaissance de codes-barres.
  • Reconnaissance de plaque d'immatriculation.
  • Reconnaissance de visage.
  • Reconnaissance de la parole.
  • Reconnaissance d'images.
  • Reconnaissance des zones locales de la croûte terrestre dans lesquelles se trouvent des gisements minéraux.

Programmes de reconnaissance de formes

voir également

Remarques

Liens

  • Youri Lifshits. Cours "Problèmes modernes de l'informatique théorique" - cours sur les méthodes statistiques de reconnaissance de formes, de reconnaissance faciale, de classification de textes
  • Journal de recherche sur la reconnaissance des formes

Littérature

  • David A. Forsythe, Jean Pons Vision par ordinateur. Approche moderne = Vision par ordinateur : une approche moderne. - M. : "Williams", 2004. - P. 928. - ISBN 0-13-085198-1
  • George Stockman, Linda Shapiro Vision par ordinateur = Vision par ordinateur. - M. : Binom. Laboratoire de connaissances, 2006. - P. 752. - ISBN 5947743841
  • A.L.Gorelik, V.A.Skripkin, Méthodes de reconnaissance, M. : lycée, 1989.
  • Sh.-K. Cheng, Principes de conception des systèmes d'information visuelle, M. : Mir, 1994.

Fondation Wikimédia. 2010.

- en technologie, une direction scientifique et technique associée au développement de méthodes et à la construction de systèmes (y compris informatiques) pour établir l'appartenance d'un certain objet (objet, processus, phénomène, situation, signal) à l'un des progrès ... ... Grand dictionnaire encyclopédique

Une des nouvelles régions cybernétique. Le contenu de la théorie de R. o. est l'extrapolation des propriétés d'objets (images) appartenant à plusieurs classes à des objets qui leur sont en quelque sorte proches. Habituellement, lors de la formation d'un automate R. o. disponible... ... Encyclopédie géologique

Anglais reconnaissance, image; Allemand Modification de la Gestalt. Branche de la cybernétique mathématique qui développe des principes et des méthodes pour classer et identifier des objets décrits par un ensemble fini de caractéristiques qui les caractérisent. Antinazi. Encyclopédie... ... Encyclopédie de sociologie

La reconnaissance de formes- méthode d'étude d'objets complexes à l'aide d'un ordinateur ; consiste à sélectionner des fonctionnalités et à développer des algorithmes et des programmes permettant aux ordinateurs de classer automatiquement les objets en fonction de ces fonctionnalités. Par exemple, déterminez lequel... ... Dictionnaire économique et mathématique

- direction (technique), scientifique et technique associée au développement de méthodes et à la construction de systèmes (y compris informatiques) pour établir l'appartenance d'un certain objet (objet, processus, phénomène, situation, signal) à l'un des progrès ... ... Dictionnaire encyclopédique

LA RECONNAISSANCE DE FORMES- une section de cybernétique mathématique qui développe des méthodes de classification, ainsi que l'identification d'objets, de phénomènes, de processus, de signaux, de situations de tous ces objets qui peuvent être décrits par un ensemble fini de certains signes ou propriétés,... ... Encyclopédie sociologique russe

la reconnaissance de formes- 160 reconnaissance de formes : identification de formes de représentations et de configurations à l'aide de moyens automatiques

Les robots modernes, équipés de systèmes de vision, sont capables de bien voir afin de travailler avec le monde réel. Ils peuvent tirer des conclusions sur le type d’objets présents, les relations qu’ils entretiennent entre eux et les groupes qu’ils forment.

L'essence de la tâche de reconnaissance est d'établir si les objets étudiés possèdent un ensemble fini et fixe de caractéristiques qui leur permettent d'être classés dans une certaine classe.

Objectifs de la science de la reconnaissance des formes :

Remplacement d'un expert humain ou d'un système expert complexe par un système plus simple (automatisation des activités humaines ou simplification de systèmes complexes) ;

Construction de systèmes d'apprentissage capables de prendre des décisions sans spécifier de règles claires, c'est-à-dire des systèmes capables eux-mêmes de synthétiser des règles de décision basées sur un certain nombre fini d'exemples de décisions correctes « démontrées » au système.

Tâches de reconnaissance peut être caractérisé comme suit.

1. Il s'agit de tâches d'information composées de deux étapes principales : réduire les données source à une forme pratique pour la reconnaissance et la reconnaissance elle-même.

2. Dans ces tâches, vous pouvez introduire le concept d'analogie et de similitude des objets et formuler le concept de proximité des objets comme base pour inclure un objet dans une certaine classe.

3. Dans ces tâches, vous pouvez opérer avec un ensemble d'exemples dont la classification est connue et qui, sous forme de descriptions formalisées, peuvent être présentées à l'algorithme de reconnaissance pour s'adapter à la tâche au cours du processus d'apprentissage.

4. Pour ces problèmes, il est difficile de construire des théories formelles et d’appliquer des méthodes mathématiques classiques.

5. Dans ces problèmes, de « mauvaises » informations sont possibles.

Types de tâches de reconnaissance :

Affectation de l'objet présenté à l'une des classes (formation avec un professeur) ;

Classification automatique – partitionner un ensemble d'objets (situations) en fonction de leur description en un système de classes qui ne se chevauchent pas ;

Sélection d'un ensemble de caractéristiques d'information lors de la décomposition ;

Amener les données sources sous une forme pratique pour la reconnaissance ;

Reconnaissance dynamique et classification dynamique ;

Problèmes de prévision.

Définitions basiques

Image– il s'agit d'une description structurée d'un objet ou d'un phénomène, représentée par un vecteur de traits dont chaque élément représente la valeur numérique d'un des traits caractérisant cet objet. En d’autres termes : une image est tout objet pour lequel un ensemble de certaines caractéristiques numériques peut être mesuré. Exemple d'image : lettre, image, cardiogramme, etc.

Signe numérique(ou juste un signe). est une formule ou une autre description d'une méthode permettant de faire correspondre un objet avec une certaine caractéristique numérique, qui fonctionne dans le cadre d'une tâche spécifique de reconnaissance de formes. Pour chaque objet, plusieurs caractéristiques différentes peuvent être définies, c'est-à-dire plusieurs caractéristiques numériques.

Espace de fonctionnalités.Espace à N dimensions défini pour une tâche de reconnaissance donnée, où N est un nombre fixe de caractéristiques mesurées pour n'importe quel objet. Le vecteur de l'espace des caractéristiques correspondant à l'objet de la tâche de reconnaissance est un vecteur à N dimensions avec des composantes (x1, x2, ..., xN), qui sont les valeurs des caractéristiques de cet objet.

OBJET->Nfeatures->Vecteur de caractéristiques dimensionnelles M

Classe- une idée non formalisée (en règle générale) de la possibilité d'attribuer un objet arbitraire de l'ensemble des objets d'une tâche de reconnaissance à un certain groupe d'objets. Pour les objets d’une même classe, la présence d’une « similarité » est supposée. Pour une tâche de reconnaissance de formes, il est possible de définir un nombre arbitraire de classes supérieur à 1. Le nombre de classes est désigné par le nombre S.

En général, le problème de la reconnaissance de formes se compose de deux parties : la reconnaissance et la formation.

La reconnaissance de formes consiste à classer un certain groupe d'objets en fonction de certaines exigences. Les objets appartenant à une même classe d'images ont des propriétés communes. Les exigences qui définissent une classification peuvent varier, car différentes situations nécessitent différents types de classifications.

Par exemple, lors de la reconnaissance des lettres anglaises, 26 classes d'images sont formées. Cependant, pour distinguer les lettres anglaises des caractères chinois lors de la reconnaissance, seules deux classes d’images sont nécessaires.

L’approche la plus simple de la reconnaissance de formes est la correspondance de formes. Dans ce cas, un certain ensemble d'images, une de chaque classe d'images, est stocké dans la mémoire de la machine. L'image d'entrée (reconnue) (d'une classe inconnue) est comparée au standard de chaque classe. La classification est basée sur un critère d'appariement ou un critère de similarité présélectionné. En d’autres termes, si l’image d’entrée correspond mieux à la norme de la ième classe de motifs que toute autre norme, alors l’image d’entrée est classée comme appartenant à la ième classe de motifs.

L'inconvénient de cette approche, c'est-à-dire la comparaison avec un standard, est que dans certains cas, il est difficile de sélectionner un standard approprié dans chaque classe d'images et d'établir le critère de correspondance nécessaire.

Une approche plus avancée consiste à ce que la classification soit basée sur un certain ensemble de mesures sélectionnées effectuées sur les images d'entrée. Ces mesures sélectionnées, appelées « caractéristiques », sont supposées être invariantes ou insensibles aux variations et distorsions couramment rencontrées et avoir peu de redondance.

Un cas particulier de la deuxième approche de « mesure des caractéristiques », dans laquelle les normes sont stockées sous forme de caractéristiques mesurées et un critère de classification spécial (comparaison) est utilisé dans le classificateur.

Les caractéristiques sont définies par les développeurs et doivent être invariantes aux variations d'orientation, de taille et de forme des objets.

Dans cet article, j'ai entrepris de mettre en évidence certains des résultats fondamentaux de la théorie de l'apprentissage automatique de manière à rendre les concepts clairs pour les lecteurs ayant une certaine connaissance des problèmes de classification et de régression. L'idée d'écrire un tel article devenait de plus en plus claire dans mon esprit à chaque livre que je lisais, dans lequel les idées d'apprendre aux machines à reconnaître étaient racontées comme si elles venaient du milieu et on ne savait absolument pas ce que les auteurs de ceci ou cette méthode s’est appuyée lors de son développement. D'un autre côté, il existe un certain nombre de livres consacrés aux concepts de base de l'apprentissage automatique, mais la présentation du matériel qu'ils contiennent peut sembler trop complexe pour la première lecture.

Motivation

Considérons ce problème. Nous avons des pommes de deux classes – savoureuses et non savoureuses, 1 et 0. Les pommes ont des caractéristiques – couleur et taille. La couleur changera continuellement de 0 à 1, c'est-à-dire 0 - pomme complètement verte, 1 - complètement rouge. La taille peut changer de la même manière, 0 - petite pomme, 1 - grosse. Nous aimerions développer un algorithme qui recevrait la couleur et la taille en entrée et qui indiquerait la classe de la pomme, qu'elle soit savoureuse ou non. Il est hautement souhaitable que moins il y a d’erreurs, mieux c’est. En même temps, nous disposons d'une liste finale contenant des données historiques sur la couleur, la taille et la classe des pommes. Comment pourrions-nous résoudre un tel problème ?

Approche logique

Lors de la résolution de notre problème, la première méthode qui pourrait nous venir à l'esprit pourrait être la suivante : créons manuellement des règles comme if-else et, en fonction des valeurs de couleur et de taille, nous attribuerons une certaine classe à la pomme. Ceux. nous avons des conditions préalables - la couleur et la taille, et il y a une conséquence - le goût de la pomme. C'est tout à fait raisonnable lorsqu'il y a peu de signes et que les seuils peuvent être estimés à l'œil nu à des fins de comparaison. Mais il peut arriver qu'il ne soit pas possible de définir des conditions claires et que les données ne permettent pas de déterminer clairement quels seuils prendre, et le nombre de signes peut augmenter à l'avenir. Et si dans notre liste de données historiques, nous trouvions deux pommes de la même couleur et de la même taille, mais que l’une est marquée comme savoureuse et l’autre non ? Ainsi, notre première méthode n’est pas aussi flexible et évolutive que nous le souhaiterions.

Désignations

Introduisons la notation suivante. Nous désignerons la ème pomme par . À leur tour, chacun se compose de deux nombres : la couleur et la taille. Nous désignerons ce fait par une paire de nombres : . Nous désignons la classe de chaque -ième pomme par . La liste avec les données historiques sera désignée par la lettre , la longueur de cette liste est de . Le ème élément de cette liste est la valeur des attributs de la pomme et sa classe. Ceux. . Nous l'appellerons également un échantillon. Nous utilisons des lettres majuscules pour désigner les variables qui peuvent prendre les valeurs d'un attribut et d'une classe spécifiques. Introduisons un nouveau concept : une règle de décision est une fonction qui prend la couleur et la taille en entrée et renvoie une étiquette de classe en sortie :

Approche probabiliste

En développant l'idée d'une méthode logique avec des prémisses et des conséquences, posons-nous la question : quelle est la probabilité que la pomme qui n'appartient pas à notre échantillon soit savoureuse, compte tenu des valeurs mesurées de couleur et de taille. ? Dans la notation de la théorie des probabilités, cette question peut s’écrire comme suit :

Cette expression peut être interprétée comme une prémisse, une conséquence, mais le passage de la prémisse à la conséquence obéira à des lois probabilistes et non logiques. Ceux. Au lieu d'une table de vérité avec des valeurs booléennes 0 et 1 pour une classe, il y aura des valeurs de probabilité allant de 0 à 1. Appliquez la formule de Bayes et obtenez l'expression suivante :

Examinons plus en détail le côté droit de cette expression. Le multiplicateur est appelé probabilité a priori et désigne la probabilité de trouver une pomme savoureuse parmi toutes les pommes possibles. Il y a a priori une probabilité de tomber sur une pomme insipide. Cette probabilité peut refléter notre connaissance personnelle de la façon dont les pommes savoureuses et désagréables sont distribuées dans la nature. Par exemple, grâce à notre expérience passée, nous savons que 80 % de toutes les pommes sont savoureuses. Ou nous pouvons estimer cette valeur simplement en calculant la proportion de pommes savoureuses dans notre liste avec des données historiques S. Le facteur suivant montre la probabilité qu'il soit d'obtenir une valeur de couleur et de taille spécifique pour une pomme de classe 1. Cette expression est également appelée la fonction de vraisemblance et peut ressembler à ceci : une distribution spécifique, par exemple normale. Nous utilisons le dénominateur comme constante de normalisation pour que la probabilité souhaitée varie de 0 à 1. Notre objectif ultime n'est pas de rechercher des probabilités, mais de rechercher une règle décisive qui nous donnerait immédiatement la classe. La forme finale de la règle de décision dépend des valeurs et des paramètres que nous connaissons. Par exemple, nous ne pouvons connaître que les valeurs de la probabilité a priori, et les valeurs restantes ne peuvent pas être estimées. Ensuite, la règle décisive sera la suivante : attribuer à toutes les pommes la valeur de la classe pour laquelle la probabilité a priori est la plus grande. Ceux. si nous savons que 80 % des pommes dans la nature sont savoureuses, alors nous attribuons à chaque pomme une classe de 1. Notre erreur sera alors de 20 %. Si nous pouvons également estimer les valeurs de la fonction de vraisemblance $p(X=x_m | Y=1)$, alors nous pouvons trouver la valeur de la probabilité souhaitée en utilisant la formule de Bayes, comme écrit ci-dessus. La règle décisive ici sera la suivante : mettre une étiquette pour la classe pour laquelle la probabilité est maximale :

Appelons cette règle le classificateur bayésien. Puisqu'il s'agit de probabilités, même une valeur de probabilité élevée ne garantit pas que la pomme n'appartient pas à la classe 0. Estimons la probabilité d'une erreur sur une pomme comme suit : si la règle de décision a renvoyé une valeur de classe égale à 1 , alors la probabilité d'une erreur sera et vice versa :

Nous nous intéressons à la probabilité d'une erreur de classificateur non seulement dans cet exemple spécifique, mais en général pour toutes les pommes possibles :

Cette expression est la valeur attendue de l'erreur. Ainsi, en résolvant le problème initial, nous sommes arrivés au classificateur bayésien, mais quels sont ses inconvénients ? Le principal problème est d’estimer la probabilité conditionnelle à partir des données. Dans notre cas, nous représentons un objet avec une paire de nombres - couleur et taille, mais dans des problèmes plus complexes, la dimension des caractéristiques peut être plusieurs fois plus élevée et le nombre d'observations de notre liste avec des données historiques peut ne pas être suffisant pour estimer le probabilité d'une variable aléatoire multidimensionnelle. Ensuite, nous essaierons de généraliser notre concept d’erreur de classificateur et verrons également s’il est possible de sélectionner un autre classificateur pour résoudre le problème.

Pertes d'erreur du classificateur

Supposons que nous ayons déjà une règle de décision. Ensuite, il peut commettre deux types d'erreurs - la première consiste à affecter un objet à la classe 0, dont la classe réelle est 1, et vice versa, à affecter un objet à la classe 1, dont la classe réelle est 0. Dans certains problèmes, il est important pour distinguer ces cas. Par exemple, nous souffrons davantage lorsqu’une pomme étiquetée comme savoureuse s’avère insipide et vice versa. Nous formalisons le degré de notre inconfort dû aux attentes déçues dans le concept. Plus généralement, nous avons une fonction de perte qui renvoie un nombre pour chaque erreur du classificateur. Soyons une véritable étiquette de classe. La fonction de perte renvoie ensuite la valeur de perte pour l'étiquette de classe réelle et la valeur de notre règle de décision. Un exemple d'utilisation de cette fonction - nous prenons une pomme avec une classe connue, transmettons la pomme comme entrée à notre règle de décision, obtenons une estimation de la classe à partir de la règle de décision, si les valeurs correspondent, alors nous supposons que le classificateur ne s'est pas trompé et qu'il n'y a pas de pertes, si les valeurs ne correspondent pas, alors le montant de la perte dira notre fonction

Risque conditionnel et bayésien

Maintenant que nous disposons d’une fonction de perte et savons combien nous perdons en raison d’une mauvaise classification des objets, il serait bien de comprendre combien nous perdons en moyenne, sur de nombreux objets. Si nous connaissons la valeur - la probabilité que la pomme soit savoureuse, compte tenu des valeurs mesurées de couleur et de taille, ainsi que de la valeur réelle de la classe (par exemple, prenez une pomme de l'échantillon S, voir à la début de l'article), on peut alors introduire la notion de risque conditionnel. Le risque conditionnel est la valeur moyenne des pertes de l'installation pour la règle décisive :

Dans notre cas de classification binaire quand il s'avère :

Nous avons décrit ci-dessus la règle de décision, qui attribue un objet à la classe qui a la valeur de probabilité la plus élevée. Cette règle fournit un minimum à nos pertes moyennes (risque bayésien), donc le classificateur bayésien est optimal du point de vue de la fonctionnelle de risque. nous avons présenté. Cela signifie que le classificateur bayésien présente la plus petite erreur de classification possible.

Quelques fonctions de perte typiques

L'une des fonctions de perte les plus courantes est une fonction symétrique, lorsque les pertes du premier et du deuxième types d'erreurs sont équivalentes. Par exemple, la fonction de perte 1-0 (perte zéro-un) est définie comme suit :

Alors le risque conditionnel pour a(x) = 1 sera simplement la valeur de la probabilité d'obtenir la classe 0 sur l'objet :

De même pour a(x) = 0 :

La fonction de perte 1-0 prend la valeur 1 si le classificateur fait une erreur sur l'objet et 0 sinon. Assurons-nous maintenant que la valeur de l'erreur n'est pas égale à 1, mais à une autre fonction Q, en fonction de la règle de décision et de l'étiquette de classe réelle :

Alors le risque conditionnel peut s’écrire comme suit :

Notes sur la notation

Le texte précédent a été rédigé selon la notation adoptée dans le livre de Duda et Hart. DANS livre original V.N. Vapnik a considéré le processus suivant : la nature sélectionne un objet selon la distribution $p(x)$, puis lui attribue une étiquette de classe selon la distribution conditionnelle $p(y|x)$. Ensuite, le risque (attente de pertes) est défini comme

Où est la fonction avec laquelle nous essayons d'approcher la dépendance inconnue, est la fonction de perte pour la valeur réelle et la valeur de notre fonction. Cette notation est plus claire afin d'introduire le concept suivant : le risque empirique.

Risque empirique

A ce stade, nous avons déjà découvert que la méthode logique ne nous convient pas, car elle n'est pas assez flexible, et nous ne pouvons pas utiliser le classificateur bayésien lorsqu'il y a beaucoup de fonctionnalités, mais qu'il y a un nombre limité de données d'apprentissage et que nous ne peut pas restaurer la probabilité. Nous savons également que le classificateur bayésien présente la plus petite erreur de classification possible. Puisque nous ne pouvons pas utiliser de classificateur bayésien, utilisons quelque chose de plus simple. Fixons une famille paramétrique de fonctions H et sélectionnons un classificateur dans cette famille.

Exemple : soit l'ensemble de toutes les fonctions du formulaire

Toutes les fonctions de cet ensemble ne différeront les unes des autres que par les coefficients. Lorsque nous avons choisi une telle famille, nous avons supposé que dans les coordonnées couleur-taille entre les points de classe 1 et les points de classe 0, nous pouvons tracer une ligne droite avec des coefficients dans un tel manière dont les points de classes différentes sont situés le long de différents côtés de la ligne droite. On sait que pour une droite de ce type le vecteur coefficient est normal à la droite. Maintenant, nous faisons ceci - nous prenons notre pomme, mesurons sa couleur et sa taille et traçons le point avec les coordonnées obtenues sur le graphique dans les axes couleur-taille. Ensuite, nous mesurons l'angle entre ce point et le vecteur $w$. On remarque que notre point peut se situer soit d’un côté, soit de l’autre côté de la ligne droite. Alors l'angle entre et le point sera soit aigu, soit obtus, et produit scalaire soit positif, soit négatif. Cela nous amène à la règle décisive :

Après avoir fixé la classe de fonctions $H$, la question se pose : comment en sélectionner une fonction avec les coefficients requis ? La réponse est : choisissons la fonction qui minimise notre risque bayésien $R()$. Encore une fois, le problème est que pour calculer les valeurs de risque bayésiennes, il faut connaître la distribution $p(x,y)$, mais elle ne nous est pas donnée, et il n'est pas toujours possible de la restituer. Une autre idée consiste à minimiser les risques non pas sur tous les objets possibles, mais uniquement sur un échantillon. Ceux. fonction minimiser :

Cette fonction est appelée risque empirique. La question suivante est de savoir pourquoi nous avons décidé qu'en minimisant le risque empirique, nous minimisons également le risque bayésien ? Permettez-moi de vous rappeler que notre tâche pratique est de commettre le moins d'erreurs de classification possible. Moins il y a d’erreurs, plus le risque bayésien est faible. La justification de la convergence du risque empirique vers le risque bayésien avec l'augmentation du volume de données a été obtenue dans les années 70 par deux scientifiques - V. N. Vapnik et A. Ya. Chervonenkis.

Garanties de convergence. Le cas le plus simple

Nous sommes donc arrivés à la conclusion que le classificateur bayésien donne la plus petite erreur possible, mais dans la plupart des cas, nous ne pouvons pas l'entraîner et nous sommes également incapables de calculer l'erreur (risque). Cependant, nous pouvons calculer une approximation du risque bayésien, appelée risque empirique, et connaissant le risque empirique, sélectionner une fonction d'approximation qui minimiserait le risque empirique. Examinons la situation la plus simple dans laquelle la minimisation du risque empirique produit un classificateur qui minimise également le risque bayésien. Pour le cas le plus simple, nous devrons faire une hypothèse rarement satisfaite en pratique, mais qui pourra être assouplie par la suite. Fixons une classe finie de fonctions dans laquelle nous sélectionnerons notre classificateur et supposons que la fonction réelle que la nature utilise pour classer nos pommes en goûts se trouve dans cet ensemble fini d'hypothèses : . Nous disposons également d'un échantillon obtenu à partir de la distribution sur les objets. Nous considérons que tous les objets échantillons sont également distribués indépendamment (iid). Alors ce qui suit sera vrai

Théorème

En sélectionnant une fonction dans une classe utilisant la minimisation empirique du risque, nous sommes assurés d'en trouver une telle qu'elle ait une petite valeur de risque bayésien si l'échantillon sur lequel nous effectuons la minimisation est de taille suffisante.

Que signifient « petite valeur » et « taille suffisante », voir la littérature ci-dessous.

Idée de preuve

D'après les conditions du théorème, on obtient un échantillon de la distribution, c'est-à-dire le processus de sélection des objets dans la nature est aléatoire. Chaque fois que nous prélevons un échantillon, celui-ci proviendra de la même distribution, mais les objets eux-mêmes peuvent être différents. L'idée principale de la preuve est que nous pouvons obtenir un échantillon si mauvais que l'algorithme que nous choisissons en minimisant le risque empirique sur cet échantillon sera mauvais pour minimiser le risque bayésien, mais en même temps il sera bon pour en minimisant le risque empirique, mais la probabilité d'obtenir un tel échantillon est faible et en augmentant la taille de l'échantillon, cette probabilité diminue. Des théorèmes similaires existent pour des hypothèses plus réalistes, mais nous ne les considérerons pas ici.

Résultats pratiques

Ayant la preuve que la fonction trouvée en minimisant le risque empirique n'aura pas d'erreur importante sur des données précédemment non observées avec une taille d'échantillon d'apprentissage suffisante, nous pouvons utiliser ce principe dans la pratique, par exemple, comme suit - nous prenons l'expression :

Et nous substituons différentes fonctions de perte, en fonction du problème à résoudre. Pour la régression linéaire :

Pour la régression logistique :

Bien que les machines à vecteurs de support aient une motivation principalement géométrique, elles peuvent également être considérées comme un problème empirique de minimisation des risques.

Conclusion

De nombreuses méthodes d’apprentissage supervisé peuvent être considérées, entre autres, comme des cas particuliers de la théorie développée par V. N. Vapnik et A. Ya. Chervonenkis. Cette théorie fournit des garanties concernant l'erreur sur l'ensemble de test, à condition qu'il y ait une taille suffisante de l'échantillon d'apprentissage et certaines exigences pour l'espace d'hypothèses dans lequel nous recherchons notre algorithme.

Livres d'occasion

  • La nature de la théorie de l'apprentissage statistique, Vladimir N. Vapnik
  • Classification des modèles, 2e édition, Richard O. Duda, Peter E. Hart, David G. Stork
  • Comprendre l'apprentissage automatique : de la théorie aux algorithmes, Shai Shalev-Shwartz, Shai Ben-David
P.S. Veuillez écrire dans un message personnel pour toute inexactitude ou faute de frappe.

Balises : Ajouter des balises

Conférence n°17.MÉTHODES DE RECONNAISSANCE DE MODÈLES

On distingue les groupes de méthodes de reconnaissance suivants :

Méthodes de fonction de proximité

Méthodes de fonctions discriminantes

Méthodes de reconnaissance statistique.

Méthodes linguistiques

Méthodes heuristiques.

Les trois premiers groupes de méthodes se concentrent sur l'analyse de caractéristiques exprimées sous forme de nombres ou de vecteurs avec des composantes numériques.

Un groupe de méthodes linguistiques fournit une reconnaissance de formes basée sur l'analyse de leur structure, décrite par les caractéristiques structurelles correspondantes et les relations entre elles.

Le groupe des méthodes heuristiques combine des techniques caractéristiques et des procédures logiques utilisées par les humains dans la reconnaissance de formes.

Méthodes de fonction de proximité

Les méthodes de ce groupe sont basées sur l'utilisation de fonctions qui estiment la mesure de proximité entre l'image reconnue et le vecteur X* = (X* 1 ,….,x*n), et des images de référence de différentes classes, représentées par des vecteurs x je = (x je 1 ,…, x je n), je= 1,…,N, Où je - numéro de classe d’image.

Procédure de reconnaissance selon cette méthode consiste à calculer la distance entre le point de l'image reconnue et chacun des points représentant l'image de référence, soit dans le calcul de toutes les valeurs je , je= 1,…,N. L'image appartient à une classe pour laquelle la valeur je Il a plus petite valeur parmi tous je= 1,…,N .

Une fonction qui attribue à chaque paire de vecteurs x je, X* nombre réel comme mesure de leur proximité, c'est-à-dire définir la distance qui les sépare peut être assez arbitraire. En mathématiques, une telle fonction est appelée métrique de l’espace. Il doit satisfaire aux axiomes suivants :

r(x,y)=r(y,x);

r(x,y) > 0 si X inégal oui Et r(x,y)=0 si x = y;

r(x,y) <=r(x, z)+r(z,y)

Les axiomes énumérés sont satisfaits notamment par les fonctions suivantes

un je= 1/2 , j=1,2,…n.

b je= somme, j=1,2,…n.

c je=abdos max ( x jex j *), j=1,2,…n.

La première d’entre elles s’appelle la norme euclidienne d’un espace vectoriel. En conséquence, les espaces dans lesquels la fonction spécifiée est utilisée comme métrique sont appelés espace euclidien.

Souvent, la différence quadratique moyenne des coordonnées de l'image reconnue est choisie comme fonction de proximité. X* et norme x je, c'est à dire. fonction

je = (1/n) somme( x je jx j *) 2 , j=1,2,…n.

Ordre de grandeur je interprété géométriquement comme le carré de la distance entre les points dans l'espace des caractéristiques, lié à la dimension de l'espace.

Il s’avère souvent que différentes caractéristiques n’ont pas la même importance dans la reconnaissance. Afin de prendre en compte cette circonstance lors du calcul des fonctions de proximité, les différences de coordonnées correspondant aux caractéristiques les plus importantes sont multipliées par des coefficients élevés, et aux moins importantes - par des coefficients plus petits.

Dans ce cas je = (1/n) somme wj (x je jx j *) 2 , j=1,2,…n,

wj– les coefficients de pondération.

L'introduction de coefficients de pondération équivaut à mettre à l'échelle les axes de l'espace des fonctionnalités et, par conséquent, à étirer ou comprimer l'espace dans certaines directions.

Les déformations indiquées de l'espace des caractéristiques poursuivent l'objectif de placer les points des images de référence de manière à correspondre à la reconnaissance la plus fiable dans des conditions de dispersion importante d'images de chaque classe à proximité du point de l'image de référence. .

Les groupes de points d'image proches les uns des autres (groupes d'images) dans l'espace des caractéristiques sont appelés clusters, et la tâche d'identification de ces groupes est appelée problème de clustering.

La tâche d'identification des clusters est classée comme une tâche de reconnaissance de formes non supervisée, c'est-à-dire à des problèmes de reconnaissance en l'absence d'un exemple de reconnaissance correcte.

Méthodes de fonctions discriminantes

L'idée des méthodes de ce groupe est de construire des fonctions qui définissent des limites dans l'espace des images qui divisent l'espace en zones correspondant à des classes d'images. Les fonctions de ce type les plus simples et les plus fréquemment utilisées sont les fonctions qui dépendent linéairement des valeurs des caractéristiques. Dans l'espace des caractéristiques, ils correspondent à des surfaces de division sous forme d'hyperplans. Dans le cas d’un espace de caractéristiques bidimensionnel, une ligne droite agit comme une fonction de séparation.

La forme générale de la fonction de décision linéaire est donnée par la formule

d(X)=w 1 X 1 + w 2 X 2 +…+w n x n +w n +1 = Wx+w n

X- vecteur d'images, w=(w 1 ,w 2 ,…w n) – vecteur de coefficients de pondération.

En cas de fractionnement en deux classes X 1 et X 2 fonctions discriminantes d(x) permet la reconnaissance conformément à la règle :

X fait parti X 1 si d(X)>0;

X fait parti X 2 si d(X)<0.

Si d(X)=0, alors il y a un cas d’incertitude.

En cas de découpage en plusieurs classes, plusieurs fonctions sont introduites. Dans ce cas, chaque classe d'images se voit attribuer une certaine combinaison de signes de fonction discriminante.

Par exemple, si trois fonctions discriminantes sont introduites, alors l'option suivante pour identifier les classes d'images est possible :

X fait parti X 1 si d 1 (X)>0,d 2 (X)<0,d 3 (X)<0;

X fait parti X 2 si d(X)<0,d 2 (X)>0,d 3 (X)<0;

X fait parti X 3 si d(X)<0,d 2 (X)<0,d 3 (X)>0.

On suppose que pour d'autres combinaisons de valeurs d 1 (X),d 2 (X),d 3 (X) il existe un cas d’incertitude.

Une variante de la méthode de la fonction discriminante est la méthode de la fonction de décision. Dans celui-ci, si disponible m les classes sont supposées exister m les fonctions je(X), dit décisif, tel que si X fait parti X je, Que je(X) > DJ(X) pour tous j inégal je,ceux. fonction décisive je(X) a la valeur maximale parmi toutes les fonctions DJ(X), j=1,...,n..

Une illustration de cette méthode peut être un classificateur basé sur l'estimation de la distance euclidienne minimale dans l'espace des caractéristiques entre le point image et l'étalon. Montrons-le.

Distance euclidienne entre le vecteur caractéristique de l'image reconnue X et le vecteur de l'image de référence est déterminé par la formule || x jeX|| = 1/2 , j=1,2,…n.

Vecteur X sera affecté à la classe je, pour lequel la valeur || x jeX*|| minimal.

Au lieu de la distance, vous pouvez comparer le carré de la distance, c'est-à-dire

||x jeX|| 2 = (x jeX)(x jeX) t = X X- 2X x je +x je x je

Puisque la valeur X X pareil pour tout le monde je, fonction minimale || x jeX|| 2 coïncidera avec le maximum de la fonction de décision

je(X) = 2X x je -x je x je.

c'est X fait parti X je, Si je(X) > DJ(X) pour tous j inégal je.

Que. la machine de classification des distances minimales est basée sur des fonctions de décision linéaires. La structure générale d'une telle machine utilise des fonctions décisives de la forme

je (X)=Wi 1 X 1 + Wi 2 X 2 +…+w dans x n +gagner +1

Il peut être représenté visuellement par le schéma fonctionnel correspondant.

Pour une machine qui effectue une classification basée sur la distance minimale, les égalités suivantes sont vraies : w ij = -2x je j , gagner +1 = x je x je.

La reconnaissance équivalente par la méthode des fonctions discriminantes peut être effectuée en définissant les fonctions discriminantes comme des différences d ij (X)=je (X)‑DJ (X).

L'avantage de la méthode des fonctions discriminantes réside dans la structure simple de la machine de reconnaissance, ainsi que dans la possibilité de sa mise en œuvre principalement à travers des blocs de décision majoritairement linéaires.

Un autre avantage important de la méthode des fonctions discriminantes est la capacité d’entraîner automatiquement une machine à une reconnaissance correcte sur la base d’un échantillon (d’entraînement) d’images donné.

Dans le même temps, l'algorithme d'apprentissage automatique s'avère très simple par rapport aux autres méthodes de reconnaissance.

Pour ces raisons, la méthode des fonctions discriminantes a gagné en popularité et est très souvent utilisée dans la pratique.

Procédures d'auto-formation pour la reconnaissance de formes

Considérons les méthodes de construction d'une fonction discriminante pour un échantillon (d'entraînement) donné en relation avec le problème de la division des images en deux classes. Si deux ensembles d'images sont donnés, appartenant respectivement aux classes A et B, alors la solution au problème de construction d'une fonction discriminante linéaire est recherchée sous la forme d'un vecteur de coefficients de pondération W=(w 1 ,w 2 ,...,w n,w n+1), qui a la propriété que pour toute image les conditions suivantes sont satisfaites :

X appartient à la classe A si >0, j=1,2,…n.

X appartient à la classe B si<0, j=1,2,…n.

Si l'ensemble de formation comprend N images des deux classes, la tâche se réduit à trouver un vecteur w qui assure la validité du système d'inégalités. Si l'échantillon d'apprentissage est constitué de N images des deux classes, la tâche consiste à trouver le vecteur w, garantissant la validité du système d'inégalités

X 1 1 Wi+X 21 w 2 +...+xn 1 w n+w n +1 >0;

X 1 2 Wi+X 22 w 2 +...+xn 2 w n+w n +1 <0;

X 1 jeWi+X 2je w 2 +...+x ni w n+w n +1 >0;

................................................

X 1 Nw je +x 2N w 2 +...+x nN w n +w n + 1>0;

Ici x je=(x je 1 ,x je 2 ,...,x je n ,x je n+ 1 ) - vecteur des valeurs des caractéristiques de l'image de l'échantillon d'apprentissage, le signe > correspond aux vecteurs d'images X, appartenant à la classe A, un signe< - векторам X, appartenant à la classe B.

Vecteur requis w existe si les classes A et B sont séparables et n'existe pas autrement. Valeurs des composants vectoriels w peuvent être trouvés soit en amont, au stade précédant la mise en œuvre matérielle du SRO, soit directement par le SRO lui-même lors de son fonctionnement. La dernière de ces approches offre une plus grande flexibilité et autonomie à l'OAR. Considérons cela en utilisant l'exemple d'un appareil appelé percentron. inventé en 1957 par le scientifique américain Rosenblatt. Une représentation schématique du percentron, qui garantit qu'une image est affectée à l'une des deux classes, est présentée dans la figure suivante.

Rétine S Rétine UN Rétine R.

oh oh X 1

oh oh X 2

oh oh X 3

o (somme)-------> R.(réaction)

oh oh x je

oh oh xn

oh oh xn +1

L'appareil est constitué d'éléments sensoriels rétiniens S, qui sont connectés de manière aléatoire à des éléments associatifs de la rétine UN. Chaque élément de la deuxième rétine produit un signal de sortie uniquement si un nombre suffisant d'éléments sensoriels connectés à son entrée sont dans un état excité. Réponse de l’ensemble du système R. est proportionnel à la somme des réactions des éléments de la rétine associative prises avec certains poids.

Désigné par x je réaction je l'élément associatif et à travers Wi- coefficient de poids de réaction jeélément associatif, la réaction du système peut s'écrire sous la forme R.=somme( j j x j), j=1,..,n. Si R.>0, alors l'image présentée au système appartient à la classe A, et si R.<0, то образ относится к классу B. Описание этой процедуры классификации соответствует рассмотренным нами раньше принципам классификации, и, очевидно, перцентронная модель распознавания образов представляет собой, за исключением сенсорной сетчатки, реализацию линейной дискриминантной функции. Принятый в перцентроне принцип формирования значений X 1 , X 2 ,...,xn correspond à un algorithme permettant de générer des fonctionnalités basées sur les signaux des capteurs primaires.

En général il peut y avoir plusieurs éléments R., formant la réaction perceptron. Dans ce cas, ils parlent de la présence d'une rétine dans le perceptron R.éléments réactifs.

Le schéma percentron peut être étendu au cas où le nombre de classes est supérieur à deux, en augmentant le nombre d'éléments rétiniens R. jusqu'au nombre de classes distinguables et l'introduction d'un bloc de détermination de la réaction maximale conformément au schéma présenté dans la figure ci-dessus. Dans ce cas, l'image est affectée à la classe avec le numéro je, Si R je>Rj, pour tous j.

Le processus de formation percentron consiste à sélectionner les valeurs des coefficients de pondération wj afin que le signal de sortie corresponde à la classe à laquelle appartient l'image reconnue.

Considérons l'algorithme d'action percentron en utilisant l'exemple de reconnaissance d'objets de deux classes : A et B. Les objets de classe A doivent avoir une valeur correspondante R.= +1, et classe B - la valeur R.= -1.

L'algorithme d'apprentissage est le suivant.

Si l'image suivante X appartient à la classe A, mais R.<0 (имеет место ошибка распознавания), тогда коэффициенты wj avec des indices auxquels correspondent les valeurs xj>0, augmente d'un certain montant dw, et les coefficients restants wj réduit par dw. Dans ce cas, la valeur de la réaction R. reçoit une augmentation à cet égard valeurs positives, correspondant à la classification correcte.

Si X appartient à la classe B, mais R.>0 (il y a une erreur de reconnaissance), alors les coefficients wj avec des indices qui correspondent à xj<0, увеличивают на dw, et les coefficients restants wj réduit du même montant. Dans ce cas, la valeur de la réaction R. reçoit un incrément vers les valeurs négatives correspondant au bon classement.

L'algorithme apporte ainsi une modification au vecteur de poids w si et seulement si l'image présentée sur k-ème étape d'entraînement, a été incorrectement classée lors de l'exécution de cette étape et laisse le vecteur de poids w aucun changement s’il est correctement classé. La preuve de la convergence de cet algorithme est présentée dans [Tu, Gonzalez]. Une telle formation finira par (avec une sélection appropriée dw et séparabilité linéaire des classes d'images) conduit au vecteur w, garantissant une classification correcte.

Méthodes de reconnaissance statistique.

Les méthodes statistiques sont basées sur la minimisation de la probabilité d'erreur de classification. Probabilité P de classification incorrecte d'une image soumise à la reconnaissance, décrite par un vecteur de caractéristiques X, est déterminé par la formule

P = somme[ p(je)prob( D(X)+je | X classe je)]

m- nombre de cours,

p(je) = sonde ( X appartient à la classe je) - probabilité a priori d'appartenir à une image arbitraire XÀ jeème classe (fréquence d'apparition des images je-ème classe),

D(X) - une fonction qui prend une décision de classification (vecteur de caractéristiques X correspond au numéro de classe je de l'ensemble (1,2,..., m}),

prob( D(X) inégal je| X appartient à la classe je) - probabilité d'événement " D(X) inégal je" lorsque la condition d'adhésion est remplie X classe je, c'est à dire. probabilité de prendre une décision erronée par la fonction D(X) pour une valeur donnée X, possédé je-ème classe.

On peut montrer que la probabilité d’une erreur de classification atteint un minimum si D(X)=je si et seulement si p(X|jep(je)>p(x|jp(j), pour tous je+j, Où p(x|je) - densité de distribution d'image je-classe dans l'espace des fonctionnalités.

Selon la règle ci-dessus, le point X appartient à la classe à laquelle correspond la valeur maximale p(je) p(x|je), c'est à dire. produit de la probabilité a priori (fréquence) d'apparition des images je-densité de distribution de classe et d'image je-classe dans l'espace des fonctionnalités. La règle de classification présentée est dite bayésienne, car cela découle de la formule de Bayes connue en théorie des probabilités.

Exemple. Supposons qu'il soit nécessaire de reconnaître des signaux discrets en sortie d'un canal d'information bruité.

Chaque signal d'entrée représente un 0 ou un 1. Suite à la transmission du signal, la valeur apparaît à la sortie du canal X, qui est superposé à un bruit gaussien de moyenne nulle et de variance b.

Pour synthétiser un classificateur qui effectue la reconnaissance du signal, nous utiliserons la règle de classification bayésienne.

Nous combinerons les signaux représentant des uns dans la classe n°1, et les signaux représentant des zéros dans la classe n°2. Sachez à l'avance qu'en moyenne sur 1000 signaux un les signaux représentent les unités et b signaux - zéro. Ensuite, les valeurs des probabilités a priori d'apparition de signaux de 1ère et 2ème classes (uns et zéros), respectivement, peuvent être prises égales

p(1)=a/1000, p(2)=b/1000.

Parce que le bruit est gaussien, c'est à dire obéit à la loi de distribution normale (gaussienne), puis la densité de distribution des images de première classe en fonction de la valeur X, ou, ce qui revient au même, la probabilité d'obtenir la valeur de sortie X lorsqu'un signal 1 est appliqué à l'entrée, il est déterminé par l'expression

p(X¦1) =(2pib) -1/2 exp(-( X-1) 2 /(2b 2)),

et la densité de distribution en fonction de la valeur X images de deuxième classe, c'est-à-dire probabilité d'obtenir la valeur de sortie X lorsqu'un signal 0 est appliqué à l'entrée, il est déterminé par l'expression

p(X¦2)= (2pib) -1/2 exp(- X 2 /(2b 2)),

L'application de la règle de décision bayésienne conduit à la conclusion qu'un signal de classe 2 a été transmis, c'est-à-dire null est passé si

p(2) p(X¦2) > p(1) p(X¦1)

ou, plus précisément, si

b exp(- X 2 /(2b 2)) > un exp(-( X-1) 2 /(2b 2)),

En divisant le côté gauche de l’inégalité par la droite, on obtient

(b/un) exp((1-2 X)/(2b 2)) >1,

où après avoir pris les logarithmes on trouve

1-2X> 2b 2 ln(a/b)

X< 0.5 - б 2 ln(a/b)

De l’inégalité qui en résulte, il s’ensuit que lorsque une = b, c'est à dire. à probabilités a priori égales d'apparition des signaux 0 et 1, l'image reçoit la valeur 0 lorsque X<0.5, а значение 1, когда X>0.5.

Si l'on sait à l'avance que l'un des signaux apparaît plus souvent et l'autre moins fréquemment, c'est-à-dire en cas de valeurs inégales un Et b, le seuil de réponse du classificateur se déplace dans un sens ou dans l'autre.

Donc quand un B=2,71 (ce qui correspond à une transmission d'unités 2,71 fois plus fréquente) et b 2 =0,1, l'image reçoit la valeur 0 si X<0.4, и значение 1, если X>0,4. S'il n'existe aucune information sur les probabilités de distribution a priori, des méthodes de reconnaissance statistique peuvent être utilisées, basées sur des règles de classification autres que bayésiennes.

Cependant, dans la pratique, les méthodes basées sur les règles de Bayes sont les plus courantes en raison de leur plus grande efficacité, ainsi que du fait que dans la plupart des problèmes de reconnaissance de formes, il est possible de fixer a priori des probabilités d'apparition d'images de chaque classe.

Méthodes linguistiques de reconnaissance de formes.

Les méthodes linguistiques de reconnaissance de formes sont basées sur l'analyse de la description d'une image idéalisée, présentée sous la forme d'un graphique ou d'une chaîne de caractères, qui est une expression ou une phrase d'une certaine langue.

Considérez les images idéalisées de lettres obtenues à la suite de la première étape de reconnaissance linguistique décrite ci-dessus. Ces images idéalisées peuvent être précisées par des descriptions de graphiques, présentés par exemple sous forme de matrices de connexion, comme cela a été fait dans l'exemple évoqué ci-dessus. La même description peut être représentée par une phrase d'un langage formel (expression).

Exemple. Soit trois images de la lettre A, obtenues à la suite d'un traitement d'image préliminaire. Notons ces images par les identifiants A1, A2 et A3.

Pour décrire linguistiquement les images présentées, nous utiliserons le PDL (Picture Description Language). Le vocabulaire PDL comprend les symboles suivants :

1. Noms des images les plus simples (primitives). Appliquées au cas considéré, les primitives et leurs noms correspondants sont les suivants.

Images sous forme de ligne dirigée :

en haut et à gauche (le F t), nord (nord), en haut et à droite (droite), est).

Noms : L, N, R, E.

2. Symboles des opérations binaires. (+,*,-) Leur signification correspond à la connexion séquentielle des primitives (+), à la connexion des débuts et des fins des primitives (*), à la connexion des seules fins des primitives (-).

3. Supports droit et gauche. ((,)) Les parenthèses vous permettent de déterminer la séquence d'opérations dans une expression.

Les images considérées A1, A2 et A3 sont décrites respectivement en langage PDL par les expressions suivantes.

T(1)=R+((R-(L+N))*E-L

T(2)=(R+N)+((N+R)-L)*E-L

T(3)=(N+R)+(R-L)*E-(L+N)

Après avoir construit la description linguistique de l'image, il faut, à l'aide d'une procédure de reconnaissance, analyser si cette image appartient ou non à la classe qui nous intéresse (classe des lettres A), c'est-à-dire Que cette image ait ou non une certaine structure. Pour ce faire, il faut tout d’abord décrire la classe d’images qui ont la structure qui nous intéresse.

Évidemment, la lettre A contient toujours les éléments structurels suivants : une jambe gauche, une jambe droite et une tête. Appelons ces éléments respectivement STL, STR, TR.

Puis dans le langage PDL la classe de caractères A - SIMB A est décrite par l'expression

SIMB A = STL + TR - STR

La "jambe" gauche de STL est toujours une chaîne d'éléments R et N, qui peut s'écrire ainsi

STL ‑> R ¦ N ¦ (STL + R)¦ (STL + N)

(STL est le caractère R ou N, ou une chaîne obtenue en ajoutant les caractères R ou N à la chaîne STL source)

La « jambe » droite de STR est toujours une chaîne d’éléments L et N, qui peut s’écrire ainsi, c’est-à-dire :

STR ‑> L¦N¦ (STR + L)¦(STR + N)

La partie tête de la lettre - TR est un contour fermé composé de l'élément E et de chaînes telles que STL et STR.

En PDL, la structure TR est décrite par l'expression

TR ‑> (STL - STR) * E

On obtient finalement la description suivante de la classe de lettres A :

SIMB A -> (STL + TR - STR),

STL ‑> R¦N¦ (STL + R)¦(STL + N)

STR ‑> L¦N¦ (STR + L)¦(STR + N)

TR ‑> (STL - STR) * E

La procédure de reconnaissance dans ce cas peut être mise en œuvre comme suit.

1. L'expression correspondant à l'image est comparée à la structure de référence STL + TR - STR.

2. Chaque élément de la structure STL, TR, STR, si possible, c'est-à-dire si la description de l'image est comparable à la norme, une sous-expression de l'expression T(A) correspond. Par exemple,

pour A1 : STL=R, STR=L, TR=(R-(L+N))*E

pour A2 : STL = R + N, STR = L, TR = ((N + R) - L) * E

pour A3 : STL = N + R, STR = L + N, TR = (R - L) * E 3.

Les expressions STL, STR, TR sont comparées à leurs structures de référence correspondantes.

4. Si la structure de chaque expression STL, STR, TR correspond à la norme, on conclut que l'image appartient à la classe de lettres A. Si à l'une des étapes 2, 3, 4 il y a un écart entre la structure de l'analyse expression et la norme est détectée, on conclut que l'image n'appartient pas à la classe SIMB A. La comparaison des structures d'expression peut être effectuée à l'aide de langages algorithmiques LISP, PLANER, PROLOG et d'autres langages d'intelligence artificielle similaires.

Dans l'exemple considéré, toutes les chaînes STL sont composées de symboles N et R, et les chaînes STR sont composées de symboles L et N, ce qui correspond à la structure donnée de ces chaînes. La structure de TR dans les images considérées correspond également à celle de référence, puisque consiste en la « différence » de chaînes comme STL, STR, « multipliée » par le symbole E.

Ainsi, nous arrivons à la conclusion que les images considérées appartiennent à la classe SIMB UN.


Synthèse d'un contrôleur flou pour un entraînement électrique à courant continudans l'environnement MatLab

Synthèse d'un contrôleur flou avec une entrée et une sortie.

Le défi consiste à amener le lecteur à suivre avec précision les différents signaux d’entrée. Le développement de l'action de contrôle est réalisé par un contrôleur flou, dans lequel les blocs fonctionnels suivants peuvent être structurellement distingués : un fuzzificateur, un bloc de règles et un défuzzificateur.

Fig.4 Schéma fonctionnel généralisé d'un système à deux variables linguistiques.

Figure 5 Diagramme schématique contrôleur flou avec deux variables linguistiques.

L'algorithme de contrôle flou dans le cas général est une transformation des variables d'entrée d'un contrôleur flou en ses variables de sortie à l'aide des procédures interdépendantes suivantes :

1. transformation des variables physiques d'entrée reçues des capteurs de mesure de l'objet de contrôle en variables linguistiques d'entrée d'un contrôleur flou ;

2. traitement d'énoncés logiques, appelés règles linguistiques, concernant les variables linguistiques d'entrée et de sortie du contrôleur ;

3. transformation des variables linguistiques de sortie du contrôleur flou en variables physiques de contrôle.

Considérons d'abord le cas le plus simple, où seules deux variables linguistiques sont introduites pour contrôler le servo variateur :

« angle » est une variable d'entrée ;

« action de contrôle » est la variable de sortie.

Nous synthétiserons le contrôleur dans l'environnement MatLab à l'aide de la boîte à outils Fuzzy Logic. Il vous permet de créer des systèmes d'inférence floue et de classification floue dans l'environnement MatLab, avec la possibilité de les intégrer dans Simulink. Le concept de base de Fuzzy Logic Toolbox est la structure FIS – Fuzzy Inference System. La structure FIS contient toutes les données nécessaires pour mettre en œuvre la cartographie fonctionnelle « entrées-sorties » basée sur l'inférence logique floue selon le schéma présenté sur la Fig. 6.


Figure 6. Inférence floue.

X - vecteur net d'entrée ; - vecteur d'ensembles flous correspondant au vecteur d'entrée X ;
- le résultat de l'inférence logique sous la forme d'un vecteur d'ensembles flous ; Y - le vecteur clair de sortie.

Le module flou vous permet de construire des systèmes flous de deux types : Mamdani et Sugeno. Dans des systèmes comme Mamdani, la base de connaissances est constituée de règles de la forme "Si x 1 = faible et x 2 = moyen, alors y = élevé". Dans les systèmes de type Sugeno, la base de connaissances est constituée de règles de la forme « Si x 1 = faible et x 2 = moyen, alors y = a 0 +a 1 x 1 +a 2 x 2 ". Ainsi, la principale différence entre les systèmes Mamdani et Sugeno est en différentes manières définir les valeurs de la variable de sortie dans les règles qui forment la base de connaissances. Dans les systèmes de type Mamdani, les valeurs de la variable de sortie sont spécifiées par des termes flous, dans les systèmes de type Sugeno - comme une combinaison linéaire de variables d'entrée. Dans notre cas, nous utiliserons le système Sugeno, car il se prête mieux à l’optimisation.

Pour contrôler le servo variateur, deux variables linguistiques sont introduites : « erreur » (par position) et « action de contrôle ». Le premier d’entre eux est l’entrée, le second est la sortie. Définissons un ensemble de termes pour les variables spécifiées.

Composants de base de l'inférence logique floue. Fuzzificateur.

Pour chaque variable linguistique, nous définissons un ensemble de termes de base de la forme, qui comprend des ensembles flous qui peuvent être désignés : négatif haut, négatif bas, zéro, positif bas, positif haut.

Tout d’abord, définissons subjectivement ce que l’on entend par les termes « grande erreur », « petite erreur », etc., en définissant des fonctions d’appartenance pour les ensembles flous correspondants. Ici, pour l'instant, vous ne pouvez vous laisser guider que par la précision requise, les paramètres connus pour la classe des signaux d'entrée et le bon sens. Personne n'a encore été en mesure de proposer un algorithme strict pour choisir les paramètres des fonctions d'appartenance. Dans notre cas, la variable linguistique « erreur » ressemblera à ceci.

Figure 7. Variable linguistique "erreur".

Il est plus pratique de présenter la variable linguistique « contrôle » sous forme de tableau :

Tableau 1

Bloc de règles.

Considérons la séquence de définition de plusieurs règles qui décrivent certaines situations :

Supposons, par exemple, que l'angle de sortie soit égal au signal d'entrée (c'est-à-dire que l'erreur est nulle). Évidemment, c’est la situation souhaitée, et donc nous n’avons rien à faire (l’action de contrôle est nulle).

Considérons maintenant un autre cas : l’erreur de position est bien supérieure à zéro. Naturellement, nous devons compenser cela en générant un signal de contrôle positif important.

Que. deux règles ont été élaborées, qui peuvent être formellement définies comme suit :

Si erreur = nul, Que action de contrôle = zéro.

Si erreur = grand positif, Que influence de contrôle = grand positif.

Figure 8. Formation de contrôle avec une petite erreur positive de position.

Figure 9. Formation de contrôle avec erreur de position nulle.

Le tableau ci-dessous présente toutes les règles correspondant à toutes les situations pour ce cas simple.

Tableau 2

Au total, pour un contrôleur flou avec n entrées et 1 sortie, des règles de contrôle peuvent être définies, où est le nombre d'ensembles flous pour la ième entrée, mais pour le fonctionnement normal du contrôleur il n'est pas nécessaire d'utiliser tous les ensembles flous possibles. règles, mais vous pouvez vous en sortir avec moins de règles. Dans notre cas, les 5 règles possibles sont utilisées pour générer un signal de contrôle flou.

Défuzzificateur.

Ainsi, l’impact résultant U sera déterminé en fonction du respect d’une certaine règle. Si une situation se présente lorsque plusieurs règles sont exécutées à la fois, alors l'impact résultant U se trouve selon la relation suivante :

, où n est le nombre de règles déclenchées (défuzzification par la méthode du centre de région), toi– valeur physique du signal de commande correspondant à chacun des ensembles flous UBO, UMo, UZ, UMp, UBP.. mUn(u)– degré d'appartenance du signal de commande u à l'ensemble flou correspondant Un=( UBO, UMo, UZ, UMp, UBP.). Il existe également d'autres méthodes de défuzzification où la variable linguistique de sortie est proportionnelle à la règle « la plus forte » ou « la plus faible ».

Modélisons le processus de contrôle d'un entraînement électrique à l'aide du contrôleur flou décrit ci-dessus.

Figure 10. Schéma fonctionnel du système dans l'environnementMatlab.

Figure 11. Schéma fonctionnel d'un contrôleur flou dans un environnementMatlab.

Figure 12. Processus transitoire sous une action en une seule étape.

Riz. 13. Processus transitoire sous action d'entrée harmonique pour un modèle avec un contrôleur flou contenant une variable linguistique d'entrée.

L'analyse des caractéristiques du variateur avec un algorithme de contrôle synthétisé montre qu'elles sont loin d'être optimales et pires que lors de la synthèse du contrôle par d'autres méthodes (également temps fort régulation avec un effet à un seul pas et erreur avec un effet harmonique). Cela s'explique par le fait que les paramètres des fonctions d'appartenance ont été choisis de manière assez arbitraire et que seule la valeur de l'erreur de position a été utilisée comme entrées du contrôleur. Naturellement, on ne peut parler d'une quelconque optimalité du régulateur résultant. Par conséquent, la tâche d'optimisation d'un contrôleur flou devient pertinente afin d'atteindre les indicateurs de qualité de contrôle les plus élevés possibles. Ceux. La tâche consiste à optimiser la fonction objectif f(a 1 ,a 2 …a n), où a 1 ,a 2 …an sont les coefficients qui déterminent le type et les caractéristiques du contrôleur flou. Pour optimiser le contrôleur flou, nous utiliserons le bloc ANFIS de l'environnement Matlab. En outre, l'un des moyens d'améliorer les caractéristiques du contrôleur peut être d'augmenter le nombre de ses entrées. Cela rendra le régulateur plus flexible et améliorera ses performances. Ajoutons une variable linguistique d'entrée supplémentaire - le taux de changement du signal d'entrée (sa dérivée). Le nombre de règles augmentera en conséquence. Alors le schéma électrique du régulateur prendra la forme :

Fig. 14 Diagramme schématique d'un contrôleur flou avec trois variables linguistiques.

Soit la valeur de la vitesse du signal d'entrée. Nous définissons l’ensemble de termes de base Tn comme :

Tn=("négatif (BO)", "zéro (Z)", "positif (BP)").

L'emplacement des fonctions d'appartenance pour toutes les variables linguistiques est indiqué dans la figure.

Figure 15. Fonctions d'appartenance à la variable linguistique « erreur ».

Figure 16. Fonctions d'appartenance à la variable linguistique « vitesse du signal d'entrée ».

Grâce à l'ajout d'une variable linguistique supplémentaire, le nombre de règles augmentera à 3x5=15. Le principe de leur compilation est tout à fait similaire à celui évoqué ci-dessus. Tous sont présentés dans le tableau suivant :

Tableau 3

Signal flou

gestion

Erreur de position

Vitesse

Par exemple, si Si erreur = zéro et dérivée du signal d'entrée = grand positif, Que influence de contrôle = petit négatif.

Figure 17. Formation de contrôle sous trois variables linguistiques.

En raison de l'augmentation du nombre d'entrées et, par conséquent, des règles elles-mêmes, la structure du contrôleur flou deviendra plus complexe.

Figure 18. Schéma fonctionnel d'un contrôleur flou à deux entrées.

Ajouter une photo

Figure 20. Processus transitoire sous action d'entrée harmonique pour un modèle avec un contrôleur flou contenant deux variables linguistiques d'entrée.

Riz. 21. Signal d'erreur sous action d'entrée harmonique pour un modèle avec un contrôleur flou contenant deux variables linguistiques d'entrée.

Simulons le fonctionnement d'un contrôleur flou à deux entrées dans l'environnement Matlab. Le schéma fonctionnel du modèle sera exactement le même que celui de la Fig. 19. À partir du graphique du processus transitoire pour un effet d'entrée harmonique, on peut voir que la précision du système a considérablement augmenté, mais en même temps son oscillation a augmenté, en particulier aux endroits où la dérivée de la coordonnée de sortie tend à zéro. De toute évidence, les raisons en sont, comme mentionné ci-dessus, le choix sous-optimal des paramètres de fonction d’appartenance pour les variables linguistiques d’entrée et de sortie. Par conséquent, nous optimisons le contrôleur flou en utilisant le bloc ANFISedit dans l'environnement Matlab.

Optimisation d'un contrôleur flou.

Considérons l'utilisation d'algorithmes génétiques pour optimiser un contrôleur flou. Les algorithmes génétiques sont des méthodes de recherche adaptatives qui ont récemment été souvent utilisées pour résoudre des problèmes d'optimisation fonctionnelle. Ils sont basés sur la similitude avec les processus génétiques organismes biologiques: les populations biologiques se développent sur plusieurs générations, obéissant à des lois sélection naturelle et selon le principe de la « survie du plus fort », découvert par Charles Darwin. En imitant ce processus, les algorithmes génétiques sont capables de « faire évoluer » des solutions à des problèmes du monde réel si elles sont codées de manière appropriée.

Les algorithmes génétiques fonctionnent avec un ensemble d'« individus » - une population dont chacun représente Solution possible ce problème. Chaque individu est évalué à la mesure de son « adaptabilité » selon la « bonne » solution au problème qui lui correspond. Les individus les plus aptes sont capables de « reproduire » leur progéniture par « croisement » avec d’autres individus de la population. Cela conduit à l’émergence de nouveaux individus combinant certaines des caractéristiques héritées de leurs parents. Les individus les moins aptes sont moins susceptibles de se reproduire, de sorte que les traits qu'ils possédaient disparaîtront progressivement de la population.

C'est ainsi que se reproduit toute la nouvelle population de solutions réalisables, en choisissant les meilleurs représentants la génération précédente, en les croisant et en obtenant de nombreux nouveaux individus. Cette nouvelle génération contient un ratio plus élevé de caractéristiques possédées par les bons membres de la génération précédente. Ainsi, de génération en génération, bonnes caractéristiques répandu dans toute la population. En fin de compte, la population convergera vers la solution optimale au problème.

Il existe de nombreuses façons de mettre en œuvre l'idée d'évolution biologique dans le cadre d'algorithmes génétiques. Traditionnel, peut être représenté par le schéma fonctionnel suivant illustré à la figure 22, où :

1. Initialisation de la population initiale – génération d'un nombre donné de solutions au problème, avec lequel commence le processus d'optimisation ;

2. Application des opérateurs de croisement et de mutation ;

3. Conditions d'arrêt - généralement le processus d'optimisation se poursuit jusqu'à ce qu'une solution au problème avec une précision donnée soit trouvée, ou jusqu'à ce qu'il soit déterminé que le processus a convergé (c'est-à-dire que la solution au problème ne s'est pas améliorée au cours des N dernières générations).

Dans l'environnement Matlab, les algorithmes génétiques sont représentés par une boîte à outils distincte, ainsi que par le package ANFIS. ANFIS est l'abréviation de Adaptive-Network-Based Fuzzy Inference System - réseau d'inférence floue adaptatif. ANFIS est l'une des premières variantes de réseaux neuro-flou hybrides - un type spécial de réseau neuronal à action directe. L'architecture d'un réseau neuro-flou est isomorphe à une base de connaissances floue. Les réseaux neuro-flou utilisent des implémentations différentiables de normes triangulaires (multiplication et OU probabiliste), ainsi que des fonctions d'appartenance fluides. Cela vous permet d'utiliser des algorithmes rapides et génétiques pour entraîner des réseaux de neurones basés sur la méthode de rétropropagation pour la mise en place de réseaux neuro-flou. L'architecture et les règles de fonctionnement de chaque couche du réseau ANFIS sont décrites ci-dessous.

ANFIS implémente le système d'inférence floue Sugeno en tant que réseau neuronal à cinq couches. Le but des couches est le suivant : la première couche contient les termes des variables d'entrée ; la deuxième couche - les antécédents (prémisses) des règles floues ; le troisième niveau est la normalisation des degrés de respect des règles ; la quatrième couche est la conclusion des règles ; la cinquième couche est l'agrégation des résultats obtenus selon diverses règles.

Les entrées réseau ne sont pas allouées à une couche distincte. La figure 23 montre un réseau ANFIS avec une variable d'entrée (« erreur ») et cinq règles floues. Pour l’évaluation linguistique de la variable d’entrée « erreur », 5 termes sont utilisés.


Figure 23. StructureANFIS-réseaux

Introduisons la notation suivante nécessaire à une présentation ultérieure :

Soit les entrées du réseau ;

y - sortie réseau ;

Règle floue de numéro de séquence r ;

m - nombre de règles ;

Un terme flou avec une fonction d'appartenance utilisé pour l'évaluation linguistique d'une variable dans la r-ème règle (,) ;

Nombres réels dans la conclusion de la r-ième règle (,).

Le réseau ANFIS fonctionne de la manière suivante.

Couche 1. Chaque nœud de la première couche représente un terme avec une fonction d'appartenance en forme de cloche. Les entrées du réseau sont connectées uniquement à leurs termes. Le nombre de nœuds dans la première couche est égal à la somme des cardinalités des ensembles de termes des variables d'entrée. La sortie du nœud est le degré selon lequel la valeur de la variable d'entrée appartient au terme flou correspondant :

,

où a, b et c sont des paramètres configurables de la fonction d'adhésion.

Couche 2. Le nombre de nœuds dans la deuxième couche est m. Chaque nœud de cette couche correspond à une règle floue. Le nœud de la deuxième couche est connecté aux nœuds de la première couche qui forment les antécédents de la règle correspondante. Par conséquent, chaque nœud de la deuxième couche peut recevoir de 1 à n signaux d’entrée. La sortie du nœud est le degré de respect des règles, qui est calculé comme le produit des signaux d'entrée. Notons les sorties des nœuds de cette couche par , .

Couche 3. Le nombre de nœuds dans la troisième couche est également m. Chaque nœud de cette couche calcule le degré relatif de réalisation de la règle floue :

Couche 4. Le nombre de nœuds dans la quatrième couche est également m. Chaque nœud est connecté à un nœud de la troisième couche ainsi qu'à toutes les entrées du réseau (les connexions avec les entrées ne sont pas représentées sur la figure 18). Le nœud de quatrième couche calcule la contribution d'une règle floue à la sortie du réseau :

Couche 5. Un seul nœud dans cette couche résume les contributions de toutes les règles :

.

Des procédures typiques de formation des réseaux de neurones peuvent être utilisées pour configurer le réseau ANFIS car il utilise uniquement des fonctions différenciables. Généralement, une combinaison de descente de gradient est utilisée sous la forme d'un algorithme de rétropropagation et d'une méthode moindres carrés. L'algorithme de rétropropagation ajuste les paramètres des antécédents des règles, c'est-à-dire fonctions d’adhésion. Les coefficients des conclusions des règles sont estimés à l'aide de la méthode des moindres carrés, car ils sont linéairement liés à la sortie du réseau. Chaque itération de la procédure de configuration est effectuée en deux étapes. Dans un premier temps, un échantillon d'apprentissage est fourni aux entrées, et en utilisant l'écart entre le comportement souhaité et réel du réseau, la méthode itérative des moindres carrés est utilisée pour trouver paramètres optimaux nœuds de la quatrième couche. Dans un deuxième temps, le résidu résiduel est transféré de la sortie du réseau vers les entrées, et les paramètres des nœuds de la première couche sont modifiés par la méthode de rétropropagation. Dans ce cas, les coefficients de conclusion de la règle trouvés à la première étape ne changent pas. La procédure de réglage itérative se poursuit jusqu'à ce que l'écart dépasse une valeur prédéterminée. Pour mettre en place des fonctions d'appartenance, en plus de la méthode de rétropropagation, d'autres algorithmes d'optimisation peuvent être utilisés, par exemple la méthode de Levenberg-Marquardt.

Figure 24. ANFISedit la zone de travail.

Essayons maintenant d'optimiser le contrôleur flou pour une action en une seule étape. Le processus transitoire souhaité a approximativement la forme suivante :

Figure 25. Processus de transition souhaité.

D'après le graphique présenté à la Fig. il s'ensuit que la plupart temps, le moteur doit fonctionner à pleine puissance pour assurer des performances maximales, et à l'approche de la valeur souhaitée, il doit freiner en douceur. Guidés par ces arguments simples, nous prendrons l’échantillon de valeurs suivant, présenté ci-dessous sous forme de tableau, comme échantillon d’apprentissage :

Tableau 4


Valeur d'erreur

Valeur de contrôle

Valeur d'erreur

Valeur de contrôle

Valeur d'erreur

Valeur de contrôle


Figure 26. Type d'échantillon de formation.

Nous organiserons une formation en 100 étapes. C’est largement suffisant pour la convergence de la méthode utilisée.

Figure 27. Le processus de formation d’un réseau neuronal.

Au cours du processus d'apprentissage, les paramètres des fonctions d'appartenance sont formés de telle manière que, pour une valeur d'erreur donnée, le contrôleur crée le contrôle nécessaire. Dans la zone située entre les points nodaux, la dépendance du contrôle à l'erreur est une interpolation des données du tableau. La méthode d'interpolation dépend de la manière dont le réseau neuronal est formé. En fait, après apprentissage, le modèle du contrôleur flou peut être représenté comme une fonction non linéaire d'une variable dont le graphique est présenté ci-dessous.

Figure 28. Graphique du contrôle en fonction de l'erreur de position à l'intérieur du contrôleur.

Après avoir enregistré les paramètres trouvés des fonctions d'appartenance, nous simulons le système avec un contrôleur flou optimisé.


Riz. 29. Processus transitoire sous action d'entrée harmonique pour un modèle avec un contrôleur flou optimisé contenant une variable linguistique d'entrée.

Figure 30. Signal d'erreur sous action d'entrée harmonique pour un modèle avec un contrôleur flou contenant deux variables linguistiques d'entrée.


Il ressort des graphiques que l'optimisation du contrôleur flou à l'aide de la formation sur le réseau neuronal a été réussie. La variabilité et l'ampleur de l'erreur ont été considérablement réduites. L’utilisation d’un réseau de neurones est donc tout à fait justifiée pour optimiser des régulateurs dont le principe de fonctionnement repose sur la logique floue. Cependant, même un contrôleur optimisé ne peut pas satisfaire aux exigences de précision, il est donc conseillé d'envisager une autre méthode de contrôle lorsque le contrôleur flou ne contrôle pas directement l'objet, mais combine plusieurs lois de contrôle en fonction de la situation actuelle.