Text-Mining

Text Mining using 20 mini news groups

This project focuses on feature extraction, feature selection, classification, and clustering in the context of text mining.

The Project consists of the following four parts:

Part 1: Extracting features
Part 2: Classification
Part 3: Feature selection
Part 4: Document clustering

Based on the collection of the given documents, we implement the generation of feature vectors based on the Term Frequency(TF), Inverse Document Frequency(IDF) and Term Frequency - Inverse Document Frequency(TF-IDF) for each document. Based on the output of this, we perform classification based on four different classifiers, implement the feature selection using two different feature selection methods and finally use the k-Means and hierarchical clustering algorithms to implement the document clustering.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.gitignore		.gitignore
CHI.values.ref		CHI.values.ref
K_vs_F1_MI.png		K_vs_F1_MI.png
MI.values.ref		MI.values.ref
README.md		README.md
class_definition_file		class_definition_file
classification.py		classification.py
clustering.py		clustering.py
constants.py		constants.py
doc.py		doc.py
feature-extract.py		feature-extract.py
feature_definition_file		feature_definition_file
feature_selection.py		feature_selection.py
metrics.py		metrics.py
mini_groups_parser.py		mini_groups_parser.py
requirements.txt		requirements.txt
stopwords		stopwords
training_data_file.IDF		training_data_file.IDF
training_data_file.TF		training_data_file.TF
training_data_file.TFIDF		training_data_file.TFIDF
util.py		util.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text-Mining

About

Releases

Packages

Contributors 2

Languages

preetham-salehundam/Text-Mining

Folders and files

Latest commit

History

Repository files navigation

Text-Mining

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages