“Two pizzas sitting on top of a stove top oven”
“A group of people shopping at an outdoor market”
“Best seats in the house”
People can summarize a complex scene in a few words without thinking twice. It’s much more difficult for computers. But we’ve just gotten a bit closer — we’ve developed a machine-learning system that can automatically produce captions to accurately describe images the first time it sees them.
El equipo de investigadores de Research at Google acaba de anunciar la creación de un sistema capaz de analizar una imagen y realizar una descipción en lenguaje natural.
«Las personas pueden describir de forma rápida una escena, pero es una tarea que a las computadoras les cuesta llevar a cabo», dijeron los investigadores Oriol Vinyals, Alexander Toshev, Samy Bengio y Dumitru Erhan en el blog oficial de Research at Google. «Es por eso que hemos creado un sistema capaz de producir epígrafes de forma automática sobre una serie de imágenes.
Recent research has greatly improved object detection, classification, and labeling. But accurately describing a complex scene requires a deeper representation of what’s going on in the scene, capturing how the various objects relate to one another and translating it all into natural-sounding language.
«Una imagen vale más que mil palabras, pero a veces las palabras son más útiles. Estamos trabajando para que los futuros sistemas puedan leer imágenes y realizar descripciones más precisas en lenguaje natural», dijeron los investigadores sobre el proyecto.
Debe estar conectado para enviar un comentario.