Comparación de búsquedas sobre la programación realizadas en México durante el periodo 2017-2021


Romero Apale B.N., Vega Rebolledo I. & Moguel Sánchez S. A.

DÍA MUNDIAL DE LA ESTADÍSTICA
En su 41° periódo de sesiones en febrero de 2010, la Comisión de Estadística de las Naciones Unidas propuso celebrar el 20 de octubre de 2010 como Día Mundial de la Estadística.
Y es que la producción de estadísticas e indicadores fiables y oportunos del progreso de los países es indispensable en la toma de decisiones políticas, así como en la supervisión a la hora de aplicar los Objetivos de Desarrollo del Milenio. De ahí que la Asamblea General aprobase el 3 de junio de 2010 la resolución 64/267, que designó oficialmente el 20 de octubre de 2010 como primer Día Mundial de la Estadística bajo el tema "Celebración de los numerosos logros de las estadísticas oficiales".

En 2015, con la resolución 96/282 , la Asamblea General decidió designar el 20 de octubre de 2015 como segundo Día Mundial de la Estadística bajo el título de "Mejores datos, mejores vidas", así como la decisión de celebrar el Día Mundial de la Estadística quinquenalmente en el día 20 de octubre.

Las Naciones Unidas celebran este año su septuagésimo quinto aniversario y el mundo despliega sus datos para hacer frente a un desafío común, aprovechemos el Día Mundial de la Estadística para poner de relieve el papel de las estadísticas en la promoción del desarrollo sostenible para todos.
- Secretario General, António Gutiérres

Fuente:
Día Mundial de la Estadística | Naciones Unidas
https://www.un.org/es/observances/statistics-day

A G R A D E C I M I E N T O S
El presente artículo fue realizado bajo la supervisión de la Mtra. Lorena López Lozada, docente de la Facultad de Estadística e Informática UV Región Xalapa, a quien le agradecemos todo su apoyo, paciencia, tiempo y dedicación.

A la plataforma Google Trends por brindarnos la información correspondiente al tema.

R E S U M E N

La programación es una metodología. Con ella podemos hacer infinidad de cosas como idear, ordenar, crear, diseñar, codificar. La aplicamos tanto los humanos como aparatos inteligentes. Con la programación la tecnología ha avanzado hasta como la vemos hoy en día. Es indispensable ya que permite que se sigan desarrollando cosas que le faciliten la vida al humano.
Uno de los objetivos principales de inculcar la programación a las personas es que forma y desarrolla habilidades que son útiles para el ámbito estudiantil y profesional.
En este artículo se presentan los resultados obtenidos respecto a la frecuencia en la que se buscan, en Google, los distintos softwares populares.
Palabras clave: Educación, Programación, Computación y Software.

A B S T R A C T

Programming is a methodology. With it we can do countless things like, devise, order, create, design, code. We apply it both humans and smart devices. With programming technology has advanced to how we see it today. It is essential as it allows things to continue to develop that make life easier for humans.
One of the main objectives of instilling programming in people is that it trains and develops skills that are useful for the student and professional environment.
This article presents the results obtained regarding the frequency in which the different softwares are searched.
Keywords: Education, Programming, Cumputation and Software

I N T R O D U C C I Ó N
En la actualidad existen cambios tanto en la programación como en las herramientas que se utilizan para el desarrollo de aplicaciones. Las metodologías se deben ir actualizando conforme pasa el tiempo para así poder seguir transmitiendo conocimiento relevante a las personas y así hacer más fácil el aprendizaje.
La programación sirve como herramienta también utilizada como un método de enseñanza y aprendizaje desarrollado para aplicar en las tecnologías móviles.
Dentro de las ciencias computacionales, las actividades asociadas a la programación han sido reconocidas con un alto grado de dificultad. Para su buen entendimiento se requiere capacidad de abstracción, aptitud lógico matemático y resolución de problemas de orden algorítmico. Algunas investigaciones indican que las razones para no lograr los niveles de aprendizaje deseados, pueden ser debido a la complejidad de la sintaxis del lenguaje y los conceptos de programación.
Se identifican factores que complican la programación en ciencias computacionales. Según Baldwin y Kulijis (2001) por ejemplo expresan: “la mayoría de los estudiantes [...], encuentran difícil y compleja la tarea cognoscitiva relacionada con la programación de computadoras”. Donde explican que el aprendizaje requiere dichas habilidades cognitivas que llegan a ser confusas. Tales incluyen la planificación, razonamiento y resolución de problemas en programación computacional.
De acuerdo con el artículo escrito por catedráticos de la Universidad de Matanzas, Camilo Cienfuegos “El aprendizaje en programación debería ser algo obligatorio para cualquier alumno de escuela pública o privada”. Haciendo énfasis que merece estar al nivel de importancia de asignaturas como la lengua o las matemáticas, que van aumentando de grado curso tras curso.
Objetivos
El objetivo de la presente investigación es identificar qué lenguaje de programación es el más buscado por las personas para saber sus preferencias mediante los datos arrojados por la base de datos extraída de Google Trends.
Específicos
Comparar las búsquedas más populares de los usuarios, o bien, estudiantes y medir lo buscado.
Aplicar un suavizado para perder componentes estacionales así apreciando las frecuencias no adecuadas a valores atípicos.

M E T O D O L O G Í A
El tipo de estudio tratado es observacional, retrospectivo, transversal y descriptivo. Mientras tanto, el diseño del estudio es descriptivo.
La base de datos utilizada se descargó de la plataforma Google Trends. La cual es un instrumento que registra las búsquedas ejecutadas en Google por usuarios. Muestra de manera gráfica la frecuencia en que se buscan determinados temas en un determinado lapso de tiempo, región, categoría y búsqueda web (imágenes, noticias, compras, etc.). Las búsquedas que se presentan son anónimas y contienen datos agrupados.
El trabajo en cuestión toma datos generados en la localidad de México y por estados durante el periodo de tiempo desde 2017 hasta octubre 2021. Esto es, 257 observaciones y 6 variables. Las variables están descritas en la tabla 1.
Los datos están en relación con el valor de 100. Cuál es el valor más alto de interés de búsqueda en la región durante el determinado periodo. Ya que 100 indica máxima popularidad del término, 50 indica media popularidad del total. Por lo que, hace 0 ser popularidad insuficientes.
Análisis Estadístico
Los datos fueron manejados por primera instancia con un análisis descriptivo. Se valora la media de la búsqueda bajo cada variable. Siguiente, se realiza un análisis explorando valores atípicos. De ser así, se aplica una suavización en un conjunto de datos restringido. Introduciendo en el software R el método Loess con la fórmula Y~X. La variable Y siendo la frecuencia y X siendo el año.

NombreDescripciónEscalaValores
AñoTiempo registrado de las búsquedasOrdinalCualitativo
JavaCantidad de personas que buscaron el tema en dada fechaRazónCuantitativo
RNúmero de personas que buscaron el tema en dada fechaRazónCuantitativo
SQLPersonas que buscaron el tema en dada fechaRazónCuantitativo
StatisticaPersonas que buscaron el tema en dada fechaRazónCuantitativo
PythonPersonas que buscaron el tema en dada fechaRazónCuantitativo

Tabla 1. Descripción de las variables contenidas en la base de datos

R E S U L T A D O S
Durante el periodo en cuestión se obtienen las siguientes frecuencias. R tuvo un mínimo de búsquedas de 32% y un máximo de búsquedas de 62% en todo el país. Mientras Java tuvo 2% y 11% de buscas mínimas y máximas respectivamente. A la vez, Python alcanza una máxima de 26% y mínima de 11%. SQL llega a obtener 17% como mínima y 42% como máxima. Aunque Statistica no es buscado de manera suficiente para considerarse en la escala del sistema antes mencionada.
El lenguaje de programación R demuestra mayor interés entre los usuarios.

Imagen 1. Gráfico de líneas múltiples para las búsquedas realizadas en los periodos 2017-2021

De la imagen 2, se nota que la variable R predomina en las búsquedas en el periodo del 2020. Por lo que, coincide con el inicio de la pandemia por la COVID-19 en México. Donde hay un declive drástico y un repunte instantáneo. Python también presenta un valor atípico en 2017. Esto muestra que los valores atípicos pueden dominar el análisis conforme la frecuencia se despliega en relación de las búsquedas con mayor volumen.
Al parecer las búsquedas de Java llevan cierta estacionalidad o tendencia. Esto se pierde en el primer semestre del 2020.

Imagen 2. Gráfico para las palabras clave del 2017 hasta 2021

Imagen 3. Variables con valores atípicos controlados menores a 80 unidades.

La imagen 3, presenta los valores controlados. Igual, resalta componentes de los patrones mencionados. Por lo tanto, la imagen 4, indica la suavidad de cada palabra clave. Donde R, la línea verde contiene una búsqueda estable en el tiempo. Claramente, decrecen las búsquedas de SQL mientras el lenguaje Java no se queda encento del declive.

Imagen 4. Suavizado método loess

D I S C U S I Ó N
Mediante las estadísticas descriptivas y exploratorias y gráficos de líneas múltiples se pudo observar que la población realizó más búsquedas para el término "R" a lo largo del periodo 2017-2021. Mientras que el término menos buscado fue el software "Statistica"

C O N C L U S I Ó N
Con los resultados arrojados, podemos concluir que la población realizó más búsquedas al software R y sus derivados.

R E F E R E N C I A S
Briz Redón, Á., & Serrano Aroca, Á. (2018). Aprendizaje de las matemáticas a través del lenguaje de programación R en Educación Secundaria. Educación matemática, 30(1), 133-162. Recuperado de: http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1665-58262018000100133&lang=es

Insuasti, J. (2016). Problemas de enseñanza y aprendizaje de los fundamentos de programación. Revista educación y desarrollo social, 10(2), 234-246. Recuperado de: https://revistas.unimilitar.edu.co/index.php/reds/article/view/1966/1555

Sánchez Ledesma, F. A., Ortiz Ortiz, O., Pastor Franco, J. Á., & Alcover Garau, P. M. (2013). Aprendizaje de los lenguajes de programación en la educación universitaria a través de dispositivos móviles. Recuperado de: https://repositorio.upct.es/handle/10317/3418

Tejera-Martínez, F., Aguilera, D., & Vílchez-González, J. M. (2020). Lenguajes de programación y desarrollo de competencias clave. Revisión sistemática. Revista electrónica de investigación educativa, 22. Recuperado de:http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1607-40412020000100127

El código de este proyecto se encuentra disponible en la plataforma Rpubs. Con el siguiente link se puede visualizar:
https://rpubs.com/Isavre/845371

A N E X O
## Script
library(gtrendsR)
library(reshape2)
library(ggplot2)
Software<-c('Java','Java','Java','Java','Java','R','R','R','R','R', 'SQL','SQL','SQL','SQL','SQL','Statistica','Statistica','Statistica', 'Statistica','Statistica','Python','Python','Python','Python','Python')

Año <- c(2017,2018,2019,2020,2021, 2017,2018,2019,2020,2021, 2017,2018,2019,2020,2021, 2017,2018,2019,2020,2021, 2017,2018,2019,2020,2021)

Búsquedas <- c(3180,2597,2312,1670,1187,4037,3916,3976,4089,3735,1970,1810,1692, 1128,88,0,0,0,0,0,721,810,1094,1049,844)

datos <- data.frame(Software, Año, Búsquedas)

## Gráfica

ggplot(datos, aes(x=Año, y=Búsquedas, group = Software, colour =Software)) + geomline() + geompoint( size=2, shape=21, fill='white') + thememinimal()
url<- "https://trends.google.com.mx/trends/explore?date=today%205-y&geo=MX&q=%2Fm%2F07sbkfb,%2Fm%2F0212jm,%2Fm%2F05z1_,%2Fm%2F075st,Statistica "

data<- read
csv(url)
View(data)
attach(data)
summary(data)

# usando librería gtrendsR keywords=c("Java","R","Python","SQL","Statistica")
region= c("MX")
time =("2017-01-01 2021-01-10")
channel="web"
trends=gtrends(keywords, gprop = channel, geo=region, time=time)
region.trend=trends$interestbyregion;region.trend
View(region.trend)
head(region.trend)

time.trend=trends$interestovertime;time.trend
View(time.trend)

## Gráficas a lo largo del tiempo

plot<-ggplot(data=time.trend, aes(x=date, y=hits,group=keyword,col=keyword))+
geomline()+xlab('Tiempo')+ylab('Interés Relativo')+ themebw()+
theme(legend.title = elementblank(),legend.position="bottom",legend.text=elementtext(size=12))+ggtitle("")
plot
# Gráfica de boxplot

ggplot(time.trend, aes(x=date,y=hits, group=keyword, col= keyword))+
geomboxplot()+ geomjitter(shape=16, position=positionjitter(0.2))

# stat
summary(fun.y=mean, geom="point",size=1)
#Datos con outliers controlados en
trends<-time.trend[time.trend$hits<80,]
# Gráfica
plo2<-ggplot(data=trends, aes(x=date, y=hits,group=keyword,col=keyword))+
geomline()+xlab('Tiempo')+ylab('Interés Relativo')+ themebw()+
theme(legend.title = elementblank(),legend.position="bottom",legend.text=elementtext(size=12))+ggtitle("")
plo2
# Suavizado método loess con formula y~x
plot<-ggplot(data=trends, aes(x=date, y=hits,group=keyword,col=keyword))+
geomsmooth(span=0.5,se=FALSE, method="loess", formula="y~x" )+xlab('Tiempo ')+ylab('Interés Relativo')+
theme
bw()+theme(legend.title = element_blank(),legend.position="bottom")+ggtitle("")
plot


Comentarios