Introducción a Google Vision API

🌟 Introducción a Google Vision API 🌟🤖

😲 Siempre me ha fascinado la inteligencia artificial. De hecho, en el pasado he dictado algunos cursos en algunas universidades en Medellín sobre inteligencia artificial y la temática es tan larga y extensa que a veces los primeros acercamientos de una persona a este tema resultan escabrosas y es probable que se rindan antes de tratar de hacer algo tangible usando inteligencia artificial. Por esto, he querido crear esta historia. Además, servirá de memoria para una presentación que haré en el Google DevFest de Medellín.

🔎💡 Empecemos por lo básico, quiero mostrarles una de las APIs de toda la suite de servicios en la nube que posee Google en su producto Google Cloud Platform, Google Vision API. Como su nombre lo indica, es una API Rest que te permite hacer un análisis detallado y un procesamiento profundo de imágenes. Si bien está disponible para casi todos los lenguajes modernos de programación, me ha parecido interesante entender cómo podemos poner a funcionar esta API con Javascript y, afortunadamente, poseen una librería/SDK que funciona perfectamente con NodeJS.

🖼️🔍 ¿Cómo funciona Google Vision API? Pues bien, básicamente Google tiene indexada una gran colección de imágenes que ha venido creciendo a lo largo de su historia. Estas imágenes son el insumo básico para un proceso riguroso de clasificación que se ha venido mejorando cada día en Google, esto permite entonces que una vez que una imagen necesita ser analizada, esta API tratará de encontrar imágenes similares y obtener los metadatos de estas imágenes similares. Por ejemplo, si subes una imagen de tu perro o tu gato, primero la API tratará de encontrar fotos similares y encontrará, por supuesto, algunas fotos con perros; luego, de ese conjunto de fotos con perros, tratará de encontrar algunas fotos con el mismo color, tamaño de las formas entre otras posibles características. Finalmente, extraerá las etiquetas de esas imágenes similares y te las presentará como si fueran las de tu imagen. Bien, probablemente a este punto dirás “Por supuesto, esto no es Inteligencia Artificial” y tal vez estés en lo correcto.

🧠🤖 Si bien el proceso de clasificación no es un proceso “inteligente”, estrictamente hablando, sí es un insumo necesario para el aprendizaje de máquina (Machine Learning). También es el insumo para extraer patrones sobre las imágenes y poderlos comparar para generar conocimiento, e incluso para generar conocimiento sobre lo aprendido (Deep Machine Learning). Todos estos procesos hacen parte de la Google Vision API con agravante adicional: la potencia de cómputo de los servidores de Google (tal vez los más poderosos del mundo) han venido trabajando desde hace algún tiempo detectando patrones sobre las imágenes, procesando millones de imágenes cada día y aprendiendo de lo que nosotros, como humanos, creemos que hay en una imagen.

💰😎 Finalmente, te estarás preguntando… bueno, sí… se ve bien, pero debe costar un ojo de la cara. La respuesta es no, afortunadamente para nosotros, los desarrolladores, Google Vision API tiene una capa gratuit de hasta 1000 peticiones por mes, y luego $1.50 dólares aproximadamente por cada bloque de 1000 peticiones. Aquí puedes consultar más sobre los precios. Así que no hay por qué al menos no probar esta API.

🔍🌐 De igual manera, debes saber que no es la única API de visión artificial y procesamiento de imágenes que podrás encontrar. De hecho, hay alternativas interesantes como Microsoft Azure y OCR.Space que podrás comparar y usar. Estas alternativas son incluso más baratas, pero dependerá de tus necesidades específicas cuál y cuándo usar cada una de ellas. Aquí te dejo una comparación de precios.

Screen Shot 2022-02-26 at 4.33.51 PM.png

💡📚 Conclusiones:

Google Vision API es una herramienta poderosa para el análisis y procesamiento de imágenes utilizando inteligencia artificial, aprendizaje automático y aprendizaje profundo.
La API ofrece una capa gratuita y precios razonables, lo que la hace accesible para desarrolladores que deseen experimentar con ella.
Existen alternativas como Microsoft Azure y OCR.Space que también ofrecen servicios de visión artificial y procesamiento de imágenes, y es importante comparar y evaluar cuál se ajusta mejor a tus necesidades específicas.

🏋️‍♀️🎯 Ejercicios propuestos para practicar:

Realiza una prueba de uso de Google Vision API utilizando su capa gratuita y analiza diferentes tipos de imágenes para familiarizarte con las funcionalidades que ofrece.
Compara Google Vision API con Microsoft Azure y OCR.Space, analizando ventajas y desventajas de cada uno, y cómo se ajustan a tus necesidades.
Desarrolla un pequeño proyecto en Javascript utilizando la librería/SDK de Google Vision API para NodeJS. Experimenta con diferentes características y funciones de la API.

📌 Resumen en 3 puntos:

Google Vision API permite análisis y procesamiento profundo de imágenes utilizando tecnologías como inteligencia artificial, aprendizaje automático y aprendizaje profundo.
La API es accesible en términos de costos, ofreciendo una capa gratuita y precios razonables para los desarrolladores.
Existen alternativas en el mercado que también ofrecen servicios de visión artificial y procesamiento de imágenes, lo cual es importante evaluar y comparar según las necesidades específicas del proyecto.

¡Perfecto! Espero que este artículo sobre la Introducción a Google Vision API te haya sido útil y te haya proporcionado información valiosa para tu blog. Si tienes alguna pregunta adicional o necesitas más información sobre el tema, no dudes en preguntar. ¡Buena suerte con tu presentación en el Google DevFest de Medellín y con tu blog! 🎉🚀

Introducción a Google Vision API

Sebastian Gomez

Leave a Reply

Related Posts

Categorias