diff --git a/src/chapter_3.md b/src/chapter_3.md index 34c916c..c7dc32f 100644 --- a/src/chapter_3.md +++ b/src/chapter_3.md @@ -31,7 +31,7 @@ Una volta note queste informazioni preliminari è stato possibile calcolare l'en Dal boxplot in @fig:files-entropy è possibile notare una distribuzione equivalente per le due tipologie di fix. Una situazione analoga si riscontra anche nell'analisi sulle linee (@fig:lines-entropy) anche se in questo caso è possibile notare che i valori di entropia associati ai fix di \ac{ML} sono shiftati leggermente verso l'alto. -[^boxplot-entropy]: Per ragioni di visualizzazione è stato scelto il $95-esimo$ quantile come limite superiore di entrambi i grafici. +[^boxplot-entropy]: Per ragioni di visualizzazione è stato scelto il $95$-$esimo$ quantile come limite superiore di entrambi i grafici. \begin{figure}[!ht] \subfloat[Entropia calcolata sui files\label{fig:files-entropy}]{% @@ -47,5 +47,36 @@ Una situazione analoga si riscontra anche nell'analisi sulle linee (@fig:lines-e ## RQ4: come varia il livello di discussione tra ML bug e altri bug? +Per rispondere a questa domanda è stato necessario andare a valutare il numero di commenti presenti all'interno di ogni issues. +Poiché un singolo commit può far riferimento a più issues il valore riportato è quello dei commenti medi. +I risultati ottenuti sono stati riportati nel boxplot[^boxplot-discussion] in @fig:discussion-comments. + +In questo caso si evince una differenza molto più marcata tra le due distribuzioni. +In particolare è possibile notare che le *issue fix* di \ac{ML} presentano una maggiore discussione e anche una maggiore varianza. +Se consideriamo la differenza interquartile, in modo da escludere completamente eventuali outlier, possiamo osservare che nei *fix* generici questa varia tra zero e uno. +Ciò vuol dire che il $50\%$ interno delle issues o non presenta commenti o ne presenta uno solo. +Mentre la differenza interquartile dei *fix* di \acl{ML} è compreso tra uno e due quindi nel $50\%$ interno tutte le issues hanno almeno un commento di risposta. + +[^boxplot-discussion]: In questo caso il limite superiore è pari al $97$-$esimo$ quantile. + +\begin{figure}[!ht] +\subfloat[Numero di commenti medi\label{fig:discussion-comments}]{% +\includegraphics[width=0.45\textwidth]{src/figures/comments.pdf} + } + \hfill +\subfloat[Numero di parole medie per commento\label{fig:discussion-words}]{% + \includegraphics[width=0.45\textwidth]{src/figures/words.pdf} + } +\caption{Livello di discussione in base al tipo} + \label{fig:discussion} +\end{figure} + +A questo punto si è cercato di capire se al maggior numero di commenti è associata effettivamente una maggiore quantità di informazioni scambiate. +Per svolgere questa analisi si è partiti dal presupposto che la quantità di informazioni scambiate sia proporzionale al numero di parole utilizzate nel commento. +Quindi per ogni issues è stato calcolato il numero medio di parole presenti all'interno di un commento. +I risultati di quest'ulteriore analisi sono riportati in @fig:discussion-words. +Anche in questo caso si può vedere che nel caso di \ac{ML} *fix* la distribuzione presenta valori più elevati e maggiore varianza. +Per cui non solo nei *fix* di \acl{ML} c'è maggiore discussione, ma la discussione è anche più *densa*. + ## RQ5: come varia il time-to-fix tra ML bug e altri bug? diff --git a/src/figures/comments.pdf b/src/figures/comments.pdf new file mode 100644 index 0000000..9fedb3e Binary files /dev/null and b/src/figures/comments.pdf differ diff --git a/src/figures/words.pdf b/src/figures/words.pdf new file mode 100644 index 0000000..30e6cc0 Binary files /dev/null and b/src/figures/words.pdf differ