基于python深度学习多种混合模型的糖尿病预测(数据集+源码+报告)

基于python深度学习多种混合模型的糖尿病预测机器学习深度学习数据挖掘数据集+源码+报告python anaconda Jupyternotebook

资深码侬

469人浏览 · 2025-05-10 12:30:00

资深码侬 · 2025-05-10 12:30:00 发布

基于python深度学习多种混合模型的糖尿病预测
机器学习深度学习数据挖掘
数据集+源码+报告
python anaconda Jupyternotebook

文章目录

在这里插入图片描述
下面是一个基于Python的糖尿病预测系统示例，该系统使用多种混合模型（如逻辑回归、随机森林和支持向量机）进行预测。我们将使用scikit-learn库来构建这些模型，并通过交叉验证评估它们的性能。

1. 安装必要的库

首先，确保安装了以下Python库：

pip install numpy pandas scikit-learn matplotlib seaborn

在这里插入图片描述

2. 加载并预处理数据集

我们将使用Pima Indians Diabetes Database作为示例数据集，可以从Kaggle下载：https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

# data_preprocessing.py
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def load_and_preprocess_data(file_path):
    # 加载数据集
    df = pd.read_csv(file_path)
    
    # 分离特征和标签
    X = df.drop('Outcome', axis=1).values
    y = df['Outcome'].values
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
    
    # 标准化特征值
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)
    
    return X_train, X_test, y_train, y_test

3. 构建并训练多个模型

接下来，我们将构建逻辑回归、随机森林和支持向量机模型，并对它们进行训练。

# model_building.py
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, classification_report

def train_models(X_train, y_train):
    models = {
        "Logistic Regression": LogisticRegression(max_iter=1000),
        "Random Forest": RandomForestClassifier(n_estimators=100),
        "SVM": SVC(probability=True)
    }
    
    trained_models = {}
    for name, model in models.items():
        print(f"Training {name}...")
        model.fit(X_train, y_train)
        scores = cross_val_score(model, X_train, y_train, cv=5)
        print(f"{name} Cross-Validation Accuracy: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")
        trained_models[name] = model
        
    return trained_models

def evaluate_models(models, X_test, y_test):
    for name, model in models.items():
        y_pred = model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        report = classification_report(y_test, y_pred)
        print(f"\n{name} Test Set Performance:")
        print(f"Accuracy: {accuracy:.4f}")
        print(report)

4. 主程序执行

最后，我们编写一个主函数来加载数据、训练模型并评估其性能。

# main.py
if __name__ == "__main__":
    # 数据文件路径
    file_path = 'diabetes.csv'
    
    # 加载并预处理数据
    X_train, X_test, y_train, y_test = load_and_preprocess_data(file_path)
    
    # 训练模型
    trained_models = train_models(X_train, y_train)
    
    # 评估模型
    evaluate_models(trained_models, X_test, y_test)