Clasificación estadística
En aprendizaje automático y estadística, la clasificación estadística es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de datos de formación que contiene observaciones (o instancias) cuya categoría de miembros es conocida. Un ejemplo sería asignar a un correo electrónico dado la clasificación de "spam" o "no spam", o asignar un diagnóstico a un paciente dado según las características observadas del paciente (sexo, género, presión arterial, presencia o ausencia de ciertos síntomas, etc.). La clasificación es un ejemplo reconocimiento de patrones.
En la terminología de aprendizaje automático, la clasificación está considerada como un caso de aprendizaje supervisado, es decir, un aprendizaje en el que se dispone de un conjunto de observaciones correctamente identificadas.[1] El procedimiento no supervisado se conoce como clustering, e implica agrupar los datos e categorías basadas en alguna medida de similitud o distancia inherente.
A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características. Estas propiedades pueden ser categórica(por ejemplo,"A","B","AB" u "O", para el grupo sanguíneo), ordinales (por ejemplo,"grande","mediano" o "pequeño"), de número entero (por ejemplo, el número de ocurrencias de una palabra en particular en un mensaje de correo electrónico) de número real (por ejemplo, una medición de la presión arterial). Otros clasificadores trabajan comparando observaciones contra observaciones anteriores mediante la función de similitud o de distancia.
Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como un clasificador. El término "clasificador" algunas veces refiere a la función matemática, implementada por un algoritmo de clasificación, que asocia los datos de entrada a una categoría.
La terminología a través de los diferentes campos es muy variada. En estadística, cuando la clasificación se hace a menudo con regresión logística o con un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes, regriones, etc.), y las categorías a predecir se conocen como clases, que se consideran posibles valores de la variable dependiente. En el aprendizaje automático, las observaciones se conocen a menudo como instancias, las variables explicativas se denominan características (agrupadas en un vector de características) y las posibles categorías a predecir son clases. Otros campos pueden utilizar terminologías diferentes: por ejemplo, en ecología de comunidades, el término "clasificación" se refiere normalmente al análisis de grupos, es decir, a un tipo de aprendizaje no supervisado, en lugar del aprendizaje supervisado descrito en este artículo.
Ámbitos de aplicación
editarLa clasificación tiene muchas aplicaciones. En algunos de estos está empleado como procedimiento de minería de datos, mientras que en otros se lleva a cabo un modelado estadístico más detallado.
- Visión de ordenador
- Imagen médica y análisis de imagen médica
- Reconocimiento óptico de caracteres
- Seguimiento de objetos
- Descubrimiento de fármacos y desarrollo
- Geoestadística
- Reconocimiento del habla
- Reconocimiento de escritura a mano
- Biometría
- Taxinomía
- Procesamiento de lengua natural estadístico
- Clasificación de documentos
- Motores de búsqueda de internet
- El crédito que puntúa
- Reconocimiento de patrones
- Micro-Clasificación de variedad
Véase también
editar- Inteligencia artificial
- Clasificación binaria
- Probabilidades de afiliación de la clase
- Regla de clasificación
- Procesamiento de plazo compuesto
- Minería de datos
- Almacén de datos
- Lógica difusa
- Búsqueda y recuperación de información
- Lista de datasets para búsqueda de aprendizaje de la máquina
- Aprendizaje automático
- Sistema de recomendación
Referencias
editar- ↑ Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. p. 9. ISBN 978-0-262-01243-0.
Enlaces externos
editar- Clasificación de COLEGA Suite escrito en Java.
- kNN Y energía Potencial (Applet), Universidad de Leicester
- scikit-Aprender un paquete ampliamente utilizado en python
- Weka Un paquete basado en java con una variedad extensa de algoritmos.