Resumen
Los atributos visuales nombrables por el ser humano ofrecen muchas ventajas cuando se utilizan como características de nivel medio para el reconocimiento de objetos, pero las técnicas existentes para recopilar atributos relevantes pueden ser ineficaces (cuestan mucho esfuerzo o experiencia) y/o insuficientes (las propiedades descriptivas no tienen por qué ser discriminatorias). Presentamos un método para definir un vocabulario de atributos que sea a la vez comprensible y discriminatorio. El sistema toma como entrada imágenes etiquetadas con objetos/escenas y devuelve como salida un conjunto de atributos obtenidos de anotadores humanos que distinguen las categorías de interés. Para garantizar un vocabulario compacto y un uso eficiente del esfuerzo de los anotadores, 1) mostramos cómo aumentar activamente el vocabulario de modo que los nuevos atributos resuelvan las confusiones entre clases, y 2) proponemos un novedoso colector de "nombrabilidad" que prioriza los atributos candidatos por su probabilidad de estar asociados a una propiedad nombrable. Demostramos el método con varios conjuntos de datos y sus claras ventajas sobre las líneas de base que carecen de un modelo de nomenclabilidad o se basan en una lista de atributos proporcionados por expertos.
Motivación
Para ser más útiles, los atributos deben ser
Discriminativos: para que puedan aprenderse de forma fiable en el espacio de características disponible y puedan clasificar eficazmente las categorías
y
Nominativos: para que puedan utilizarse en el aprendizaje sin disparos, describir casos no vistos anteriormente o aspectos inusuales de las imágenes, etc.
Enfoques existentes | Discriminativo | Nombrable |
Lista generada a mano | No necesariamente | Si |
Exploración de la web | No necesariamente | Si |
División automática de categorías | Si | No |
Propuesta | Si | Si |
Propuesta
Proponemos un enfoque interactivo que pide a una persona que proporcione nombres para las hipótesis de atributos que descubre. El sistema toma como entrada un conjunto de imágenes de entrenamiento con sus etiquetas de categoría asociadas, así como uno o más espacios de características visuales (Gist, color, etc.), y devuelve como salida un conjunto de modelos de atributos que juntos pueden distinguir las categorías de interés.
Para visualizar un atributo candidato para el que el sistema busca un nombre, se muestran a un humano imágenes muestreadas a lo largo de la dirección normal a algún hiperplano de separación en el espacio de características. Dado que muchas hipótesis no se corresponden con algo que los humanos puedan identificar visualmente y describir de forma sucinta, un proceso ingenuo de descubrimiento de atributos -que simplemente recorra las divisiones discriminativas y pida al anotador que las nombre o las rechace- es poco práctico.
En su lugar, diseñamos el método para minimizar activamente la cantidad de consultas sin sentido que se presentan a un anotador, de modo que el esfuerzo humano se dedique principalmente a asignar significado a las divisiones en el espacio de características que realmente lo tienen, en lugar de descartar las divisiones no interpretables.
Lo conseguimos con dos ideas clave: en cada iteración, nuestro enfoque
1) se centra en hipótesis de atributos que complementan el poder de clasificación de los atributos existentes recogidos hasta el momento, y
2) predice la posibilidad de nombrar cada hipótesis discriminativa y da prioridad a las que tienen más probabilidades de ser nombradas. Para ello, exploramos si existe alguna estructura múltiple en el espacio de los separadores hiperplanos nombrables.
Enfoque
El enfoque interactivo que proponemos se enfrenta a tres retos principales:
Descubrir hipótesis de atributos: Descubrimos activamente hiperplanos en el espacio de características visuales que separan un subconjunto de clases que actualmente son las más confusas. Para ello, utilizamos la agrupación iterativa de margen máximo.
Predicción de la nombrabilidad de una hipótesis: En cada iteración, construimos un colector de nombrabilidad utilizando una mezcla de análisis probabilístico de componentes principales para ajustar las respuestas del usuario recogidas hasta el momento. El colector se aprende en el espacio de los parámetros del hiperplano. Como se ve a continuación, el colector puede predecir eficazmente la nombrabilidad de un nuevo hiperplano discriminativo.
Visualización de un atributo: Para presentar una visualización de un hiperplano al usuario, tomamos muestras de imágenes del conjunto de datos de tal manera que su distancia ortogonal al hiperplano varía, pero cualquier variación a lo largo del hiperplano se minimiza. A continuación, se pide al usuario que nombre una propiedad visual que varíe en las imágenes de izquierda a derecha. Este nombre, junto con los parámetros del hiperplano, forma nuestro atributo recién descubierto.
Evaluación
Evaluamos nuestro enfoque en dos conjuntos de datos de 8 categorías cada uno: Reconocimiento de escenas en exteriores (OSR) y un subconjunto del conjunto de datos Animales con atributos (AWA). Para ambos conjuntos de datos utilizamos características gist y de color.
Para evaluar automáticamente nuestro enfoque propuesto, recopilamos anotaciones de nomenclatura de todos los hiperplanos discriminatorios (247) en los dos espacios de características de ambos conjuntos de datos. Mostramos una visualización de cada uno de los hiperplanos a 20 sujetos de Amazon Mechanical Turk, y les pedimos que indiquen cómo de obvio es un cambio visible en las imágenes (en una escala de 1-4), y cuál es la propiedad cambiante. A continuación se muestran ejemplos de respuestas:
Consideramos que un hiperplano es nombrable si la puntuación media de "obviedad" recibida es superior a 3. Este conjunto de hiperplanos anotados puede utilizarse ahora para realizar experimentos automáticos, sin dejar de imitar a un usuario real en el bucle.
Resultados
Línea de base sólo discriminativa: En comparación con una línea de base que presenta los hiperplanos discriminativos al usuario sin modelar la nombrabilidad (véase más adelante), descubrimos que nuestro enfoque descubre más atributos con nombre con el mismo esfuerzo del usuario, lo que también conduce a un mejor rendimiento de reconocimiento.Línea de base sólo descriptiva: Por otra parte, en comparación con los atributos puramente descriptivos, nuestro método encuentra más atributos discriminatorios, lo que también mejora el rendimiento del reconocimiento (véase más adelante).
Descripciones generadas automáticamente: Nuestros atributos descubiertos pueden utilizarse para describir imágenes vistas anteriormente y no vistas (por ejemplo, zerba), como se muestra a continuación.
Publicaciones
Interactively Building a Discriminiative Vocabulary of Nameable Attributes
Conferencia del IEEE sobre visión por ordenador y reconocimiento de patrones (CVPR), 2011
[material suplementario] [póster] [Diapostivas]
Interactive Discovery of Task-Specific Nameable Attributes (Resumen)
Primer taller sobre categorización visual detallada (FGVC)
celebrado junto con IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011 (Premio al mejor póster)
[póster]
Original article: faculty.cc.gatech.edu/~parikh/nameable.html