AIvsHuman
Feb 11, 2024
https://github.com/panuozzo77/AIvsHuman
AIvsHuman
1. Introduction
Questo progetto confronta le performance di tre modelli di machine learning applicati a un compito di classificazione testuale: Multinomial Naive Bayes, Complement Naive Bayes e Decision Tree Classifier.
L’obiettivo è analizzare punti di forza, limiti e prestazioni di ciascun modello per identificare quello più efficace sul dataset scelto.
📄 Documentazione completa (Italiano):
https://github.com/r-monti/AIvsHuman/blob/main/docs/Documentazione%20AIvsHuman.pdf
📊 Grafici ed elaborati:
https://github.com/r-monti/AIvsHuman/blob/main/docs/Allegati%20AIvsHuman.pdf
2. Data Collection
2.1 Identificazione dei dati necessari
Analisi preliminare delle tipologie di dati utili per il compito di classificazione.
2.2 Dataset utilizzati
Overview e caratteristiche dei dataset selezionati.
2.3 Esplorazione dei dati
Analisi esplorativa tramite grafici e valutazioni statistiche per comprendere la distribuzione dei dati e supportare le scelte di modellazione.
3. Model Selection
Breve introduzione teorica ai modelli utilizzati:
- Multinomial Naive Bayes
- Complement Naive Bayes
- Decision Tree Classifier
Si discutono assunzioni, punti di forza e contesti di utilizzo ideale.
4. Data Manipulation and Execution
4.1 Preprocessing e Feature Selection
Pulizia del testo, normalizzazione, rimozione di rumore e selezione delle feature più rilevanti.
4.2 Feature Extraction
Metodi utilizzati per estrarre rappresentazioni numeriche dai dati testuali (es. TF-IDF).
4.3 Pipeline
Strutturazione della pipeline di addestramento per gestire preprocessing, training e valutazione in modo modulare.
5. Evaluation and Comparative Analysis
5.1 Evaluation Metrics
Metriche considerate: accuracy, precision, recall, F1-score, confusion matrix.
5.2 Risultati
Confronto numerico e grafico delle performance dei tre modelli, con discussione dei risultati ottenuti.
6. Conclusions
Sintesi dei risultati, indicazioni sul modello più performante per questo task e possibili miglioramenti futuri (feature engineering, nuovi modelli, dataset più ampio).