20 lines
1.5 KiB
Markdown
20 lines
1.5 KiB
Markdown
|
# Collezione dei dati
|
||
|
|
||
|
L'individuazione dei progetti da analizzare è avvenuta mediate l'ausilio dell'\ac{API} messa a disposizione da GitHub.
|
||
|
In particolare è stata eseguita una query per ottenere una lista di repository che fanno uso di librerie e framework di \ac{ML} come `TensorFlow`, `Pytorch` e `scikit-learn`.
|
||
|
In questo modo è stato possibile ottenere una lista di $26758$ repository che è stata successivamente filtrata per individuare solo i progetti d'interesse per la seguente analisi.
|
||
|
|
||
|
L'operazione di filtraggio è avvenuta attraverso due fasi; una prima automatica e una seconda manuale.
|
||
|
La prima fase è servita per selezionare unicamente i repository *popolari*.
|
||
|
Nella maggior parte dei casi viene utilizzato il numero di stelle come indice di popolarità dei progetti [@borges2016understandingfactorsthat], ma per questo lavoro si è preferito dare maggiore rilevanza al numero di fork, al numero di *contributors* e al numero di issues chiuse.
|
||
|
Questa scelta è stata dettata dall'esigenza di selezionare non solo repository popolari, ma anche caratterizzati da una forte partecipazione.
|
||
|
|
||
|
I progetti che hanno superato questa prima selezione dovevano:
|
||
|
|
||
|
- essere lavori originali, per cui sono stati esclusi tutti i fork.
|
||
|
- avere almeno cento issues chiuse.
|
||
|
- avere dieci contributors.
|
||
|
|
||
|
Alla fine di questa prima selezione sono rimasti solo sessantasei repository che sono stati analizzati manualmente per rimuovere listati associati a libri e/o tutorial, progetti non in lingua inglese e librerie.
|
||
|
Alla fine di questa seconda fase solo rimasti trenta progetti.
|