.

Introducción a la ciencia de datos

 Algunas aplicaciones de la ciencia de datos

La función actual de la ciencia de datos no apareció de repente. Lo que antes requería horas de habilidad humana ahora puede desarrollarse en cuestión de minutos con una capacidad predictiva similar y en ocasiones incluso mejor gracias a la incorporación de herramientas computacionales.

La colaboración de diversas disciplinas en el desarrollo de la ciencia de datos es quizás el aspecto más sorprendente de su relevancia en la sociedad moderna. Anteriormente, sólo un pequeño número de disciplinas tenían acceso al análisis de datos como base para resolver una serie de problemas. Hoy en día, muchas disciplinas han tomado la decisión de adoptar soluciones basadas en datos en un esfuerzo por abordar una variedad de problemas. Demostraremos algunas aplicaciones de la ciencia de datos en una variedad de campos en la lectura.

1. Salud.

La ciencia de datos tiene una amplia gama de aplicaciones en la industria de la salud y es crucial para la toma de decisiones.

En la creación de productos farmacéuticos se utilizan procedimientos muy complejos que implican numerosas disciplinas. Antes de que un medicamento pueda venderse al público en general, debe pasar por una serie de etapas que implican cientos de pruebas, una importante inversión financiera y un importante compromiso de tiempo. Al simular varios escenarios, desde la selección inicial de compuestos farmacológicos hasta la predicción de resultados de seguridad y eficacia basados ​​en factores biológicos, las aplicaciones en ciencia de datos, y específicamente el uso de algoritmos de aprendizaje automático, han simplificado y reducido estos procesos.

En lugar de realizar experimentos de laboratorio tradicionales, las simulaciones nos permiten pronosticar cómo podría comportarse el compuesto químico en el cuerpo mediante modelos matemáticos y algoritmos sofisticados. El concepto detrás del descubrimiento de fármacos desarrollado computacionalmente es construir simulaciones de modelos biológicos que simplifiquen y predigan con precisión los resultados. Ou-Yang de 2012.

Por otro lado, se utilizan diversas metodologías y esquemas, incluido MapReduce, en la búsqueda de los mejores parámetros para su clasificación precisa para la detección de tumores, estenosis arteriales y diagnóstico de fallas orgánicas. Para la clasificación de texturas sólidas en este caso, se utilizan análisis de ondas, indexación de imágenes médicas, máquinas de vectores de soporte (SVM) y técnicas de aprendizaje automático.

La ciencia de datos juega un papel importante en la personalización de tratamientos en los campos de la genética y la genómica. Comprender cómo el ADN afecta la salud humana e identificar vínculos biológicos entre las enfermedades y la respuesta a los medicamentos son los principales objetivos en estos campos. La integración de varios tipos de datos con datos genómicos en la investigación de enfermedades es posible gracias a la ciencia de datos, y esto crea una situación que permite una comprensión más profunda de las deformaciones genéticas en las reacciones a los medicamentos. 2015 (Libbrecht).

2.Internet.

Todos y cada uno de los motores de búsqueda (incluidos Google, Yahoo, Bing, etc.) encuentran el mejor resultado en cuestión de segundos utilizando algoritmos informáticos. De hecho, Google ha mejorado sus algoritmos de búsqueda para satisfacer la demanda del público, teniendo en cuenta factores de la cuenta, como la ubicación del usuario, las preferencias y los intereses.

3. Detección de riesgos y fraudes.

A continuación, proporcionamos una descripción general de alto nivel de cómo las instituciones financieras utilizan la ciencia de datos para tomar decisiones en cada una de estas etapas. Según Albashrawi (2016), el sector financiero y bancario es donde se centraron las primeras aplicaciones de la ciencia de datos. Las entidades financieras están obligadas a tomar decisiones de alto impacto cada día en las distintas etapas del ciclo de vida del cliente.

Las entidades financieras deben decidir diariamente si conceden o no un producto financiero a un cliente potencial. Para ello, las instituciones financieras han implementado metodologías basadas en el uso de modelos analíticos que permiten estimar la probabilidad de pago de un cliente dado un conjunto de variables que caracterizan al cliente; si la probabilidad de pago es muy baja, entonces la entidad financiera no concede el producto financiero. Este tipo de metodologías permite a las entidades financieras mantener una cartera sana.

    La profundización del cliente es el proceso de recopilar información sobre el comportamiento de un cliente después de haber realizado una compra de un producto financiero en una empresa. Las instituciones financieras deben considerar profundizar sus relaciones con los clientes para aumentar los ingresos. En este contexto, profundizar se refiere a brindarle a un cliente productos financieros adicionales o ampliar las capacidades de los que ya tiene. Para predecir qué será lo próximo que comprará el cliente, las entidades financieras han implementado metodologías basadas en analítica avanzada.

    Recuperación de cartera: las instituciones financieras a menudo tienen que desarrollar estrategias de cobro cuando los clientes no pueden realizar los pagos a tiempo de sus deudas. Para lograr esto, las instituciones financieras han venido desarrollando modelos analíticos que permitan determinar la probabilidad de que un cliente pague dado que se encuentra en un determinado rango de incumplimiento; si un grupo de clientes tiene baja probabilidad de pago, entonces se debe realizar una gestión de cobro intensiva.

    Fuga de clientes: el alto ritmo al que los clientes dejan de utilizar sus productos financieros es uno de los problemas que las entidades financieras enfrentan con mayor frecuencia cada día. Para bajar la tasa, las instituciones financieras deben desarrollar estrategias que hagan uso de datos. A raíz de las filtraciones, el desarrollo de modelos de abandono (modelos para evaluar la probabilidad de fuga de clientes) es cada día más evidente en diversas entidades financieras.

4. Comercialización.

Encontrar un gran equilibrio entre estos dos factores no es una tarea fácil, y es ahí donde los modelos de aprendizaje automático pueden ayudar. Tener el control sobre una empresa en particular es un gran desafío porque implica tomar muchas decisiones para maximizar las ganancias y reducir costos. optimización de costes de una estrategia de marketing.

La creencia de que es una buena idea enviar una oferta de marketing a todos sus clientes está hoy muy extendida entre las instituciones. Esto se debe a que existe la intuición de que hacerlo aumentará la probabilidad de que un cliente compre un producto en particular al recibir una oferta de marketing. Sin embargo, este no es siempre el caso. Por otro lado, realizar una campaña de marketing importante es muy caro. Por tanto, a la hora de tomar decisiones se debe tener en cuenta el retorno de la inversión (ROI).

¿Aumentará la probabilidad de que un cliente compre nuestro producto si le enviamos una oferta de marketing?

Los clientes pueden dividirse en cuatro grupos cuando se les envía una oferta de marketing, según un extenso estudio sobre este tema realizado por Verbeke y Bravo (2017). La siguiente figura ilustra estos cuatro grupos.


Figura: Caracterización de consumidores cuando se enfrentan a una oferta de marketing. Tomada y adaptada de (XAI Stories 2020)

Como se muestra en la figura anterior, hay cuatro grupos distintos de clientes que pueden identificarse en respuesta a una oferta de marketing en función de si tienen o no la intención de realizar una compra. La oferta comercial que se envíe en esta situación se denominará tratamiento. Cada uno de estos grupos se describe a continuación.

    Lost causes (casos perdidos): Los casos perdidos son clientes que no comprarán el producto independientemente de que se les envíe la oferta de marketing o no.

     Sure things (casos seguros o a la fija): son clientes que comprarán el producto reciban o no la oferta de marketing.

    Sleeping dogs (no molestarlos): son aquellos que inicialmente tienen la intención de comprar el producto, pero luego cambian de opinión después de conocer la oferta de marketing.

    Persuadables (persuasivos): son aquellos que no tienen intención de comprar un producto. La oferta de marketing, sin embargo, les hace reconsiderar su decisión.

Al considerar los cuatro grupos de clientes anteriores que se identificaron cuando se hizo una oferta de marketing, tiene sentido asumir que para maximizar las ganancias y minimizar los costos en una estrategia de marketing, se debe poner especial énfasis en los clientes persuadables (persuadibles), la mejor manera de identificar a estos clientes es a través de modelos denominados uplift (Akshay Kumar 2018).

Por último, existen muchas otras aplicaciones relacionadas con el marketing, que van desde anuncios en línea hasta vallas publicitarias digitales en aeropuertos que clasifican y recomiendan productos a clientes potenciales. Esto explica por qué los anuncios digitales tienen una mayor tasa de atención (Call-Through Rate) que los mensajes tradicionales porque pueden orientarse en función de las acciones pasadas de los millones de usuarios que alimentan el algoritmo.  (Phithakkitnukoon 2011).

5. Reconocimiento moderno de voz e imagen.
Facebook ofrece recomendaciones para que los usuarios se etiqueten tan pronto como se carga una foto. Esta función utiliza un algoritmo de reconocimiento facial. De hecho, Facebook actualizó recientemente su estado para incluir una descripción detallada del progreso adicional que ha logrado en esta área, destacando sus mejoras en la capacidad y precisión del reconocimiento de imágenes.
"Aunque se han logrado enormes avances en la detección de objetos (¿dónde están los objetos?) y la clasificación de objetos (¿qué hay en la imagen?), la comprensión del contenido visual aún está en su infancia, bien sea en imagen o video. Recientemente, hemos estado desarrollando métodos para reconocer y clasificar cada objeto individual en una imagen, una capacidad crucial que abrirá una amplia gama de nuevas aplicaciones. '" (Hutchinson, 2016).
Google también ofrece a los usuarios la opción de cargar sus propias imágenes para buscarlas. Utiliza tecnología de reconocimiento de imágenes y devuelve resultados de búsqueda relevantes.
El software de reconocimiento de voz creado por Cortana, Google Voice, Siri y otras empresas se encuentra entre los mejores. Si no puede escribir un mensaje usted mismo, aún puede utilizar la función de reconocimiento de voz para hacerlo. Esta función está en constante mejora porque se requiere el análisis funcional de las ondas de voz para aumentar su precisión.

Teniendo en cuenta todo esto, es lógico que el científico de datos sea considerado uno de los profesionales más exitosos del siglo XXI porque se le considera el único capaz de extraer valor de datos desorganizados y desestructurados. (Patil, 2012).

Referencias

Ou-Yang, S. S. (2012). Computational drug discovery. Nature. Retrieved from https://www.nature.com/articles/aps2012109  

Libbrecht, M. W. (2015). Machine learning applications in genetics and genomics. Nature Reviews Genetics, 321-332. 

Albashrawi, M. (2016). Detecting financial fraud using data mining techniques: A decade review from 2004 to 2015. Journal of Data Science, 553-569. 

Phithakkitnukoon, S. D. (2011). Behavior-based adaptive call predictor. ACM Transactions on Autonomous and Adaptive Systems (TAAS), 1-28. 

Hutchinson, A. (2016, Agosto 26). Social Media Today. Retrieved from Social Networks: https://www.socialmediatoday.com/social-networks/facebook-showcases-examples-advanced-image-recognition-ai-future-possibilities 

Patil, T. H. (2012, October). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review.  

Verbeke, W., and C. Bravo. 2017. Profit Driven Business Analytics: A Practitioner’s Guide to Transforming Big Data into Added Value. Wiley and Sas Business Series. Wiley. https://books.google.pl/books?id=NCA3DwAAQBAJ.  

Yi, Robert, and Will Frost. 2018a. “Pylift: A Fast Python Package for Uplift Modeling.” 2018. 

Akshay Kumar, Rishabh Kumar. 2018. “Uplift Modeling : Predicting Incremental Gains.” 2018. http://cs229.stanford.edu/proj2018/report/296.pdf.

No hay comentarios:

Publicar un comentario