AIvsHuman

Feb 11, 2024

Università

https://github.com/panuozzo77/AIvsHuman

AIvsHuman

1. Introduction

Questo progetto confronta le performance di tre modelli di machine learning applicati a un compito di classificazione testuale: Multinomial Naive Bayes, Complement Naive Bayes e Decision Tree Classifier.
L’obiettivo è analizzare punti di forza, limiti e prestazioni di ciascun modello per identificare quello più efficace sul dataset scelto.

📄 Documentazione completa (Italiano):
https://github.com/r-monti/AIvsHuman/blob/main/docs/Documentazione%20AIvsHuman.pdf

📊 Grafici ed elaborati:
https://github.com/r-monti/AIvsHuman/blob/main/docs/Allegati%20AIvsHuman.pdf

2. Data Collection

2.1 Identificazione dei dati necessari

Analisi preliminare delle tipologie di dati utili per il compito di classificazione.

2.2 Dataset utilizzati

Overview e caratteristiche dei dataset selezionati.

2.3 Esplorazione dei dati

Analisi esplorativa tramite grafici e valutazioni statistiche per comprendere la distribuzione dei dati e supportare le scelte di modellazione.

3. Model Selection

Breve introduzione teorica ai modelli utilizzati:

Multinomial Naive Bayes
Complement Naive Bayes
Decision Tree Classifier

Si discutono assunzioni, punti di forza e contesti di utilizzo ideale.

4. Data Manipulation and Execution

4.1 Preprocessing e Feature Selection

Pulizia del testo, normalizzazione, rimozione di rumore e selezione delle feature più rilevanti.

4.2 Feature Extraction

Metodi utilizzati per estrarre rappresentazioni numeriche dai dati testuali (es. TF-IDF).

4.3 Pipeline

Strutturazione della pipeline di addestramento per gestire preprocessing, training e valutazione in modo modulare.

5. Evaluation and Comparative Analysis

5.1 Evaluation Metrics

Metriche considerate: accuracy, precision, recall, F1-score, confusion matrix.

5.2 Risultati

Confronto numerico e grafico delle performance dei tre modelli, con discussione dei risultati ottenuti.

6. Conclusions

Sintesi dei risultati, indicazioni sul modello più performante per questo task e possibili miglioramenti futuri (feature engineering, nuovi modelli, dataset più ampio).