DataFlow - 数据分析智能体
DataFlow 是专业的数据科学助手,能够自主完成数据清洗、统计分析、建模预测和可视化, 为您的科研数据提供深度洞察。
智能体介绍
DataFlow 专为科研数据分析场景设计,是您的智能数据科学家。它不仅能执行代码, 更重要的是能够理解数据特征、选择合适的分析方法、解释分析结果, 并生成可直接用于论文的可视化图表。
为什么需要 DataFlow?
科研数据分析面临多重挑战:
- 统计方法选择困难,担心选错方法
- 编程能力有限,实现分析流程耗时
- 图表制作繁琐,难以达到论文要求
- 结果解读困难,不确定如何表述
DataFlow 结合统计学知识、编程能力和科研经验,让数据分析变得简单高效。
核心能力
1. 智能数据预处理
DataFlow 能够自动处理原始数据:
- 缺失值处理:智能选择填充、删除或插值策略
- 异常值检测:识别和处理极端数据点
- 数据标准化:归一化、标准化等预处理
- 特征工程:生成衍生特征,提取有用信息
2. 统计方法智能推荐
根据数据特征和研究目标,自动推荐合适的统计方法:
- 假设检验:t检验、方差分析、卡方检验等
- 相关分析:Pearson、Spearman 相关系数
- 回归分析:线性回归、逻辑回归、泊松回归等
- 非参数检验:Mann-Whitney U、Kruskal-Wallis 等
DataFlow 会检查统计方法的适用条件(如正态性、方差齐性), 确保方法选择的正确性。
3. Python 代码自动生成
自动生成完整的数据分析代码:
- 使用主流科学计算库(NumPy、Pandas、SciPy、Scikit-learn)
- 代码结构清晰,包含详细注释
- 可直接运行,输出分析结果
- 支持导出为 .py 或 Jupyter Notebook
4. 专业可视化
生成符合学术规范的可视化图表:
- 描述性统计图:柱状图、箱线图、小提琴图
- 关系图:散点图、回归线图、相关矩阵热图
- 分布图:直方图、密度图、Q-Q图
- 组合图:多子图布局、分组对比图
所有图表:
- 高分辨率(300 DPI 以上)
- 符合期刊要求的配色和字体
- 包含完整的标题、轴标签和图例
- 可导出为 PNG、PDF、SVG 格式
5. 机器学习建模
支持常见的机器学习任务:
- 分类任务:逻辑回归、随机森林、支持向量机、神经网络
- 回归任务:线性回归、岭回归、随机森林回归、梯度提升
- 聚类分析:K-means、层次聚类、DBSCAN
- 降维分析:PCA、t-SNE、UMAP
自动进行:
- 数据集划分(训练集/测试集)
- 交叉验证
- 超参数调优
- 模型性能评估
- 特征重要性分析
6. 结果解释和报告
DataFlow 不仅提供数字,还帮您理解结果:
- 统计显著性解释
- 效应量评估
- 结果的科学意义阐释
- 生成适合论文的结果描述文本
工作流程
DataFlow 的分析流程完全自动化,分为 6 个阶段:
使用方法
数据准备
DataFlow 支持多种数据格式:
- CSV、Excel(.xlsx)表格
- JSON 数据
- 文本形式的数据(会自动解析)
推荐格式:CSV 文件,第一行为列名(变量名),后续行为数据。
任务描述示例
任务:分析实验数据,比较对照组和实验组的差异
数据:已上传 experiment-data.csv
- control_group: 对照组测量值(连续变量)
- treatment_group: 实验组测量值(连续变量)
- n = 30 per group
要求:
1. 检查数据正态性
2. 进行适当的统计检验(t检验或非参数检验)
3. 计算效应量(Cohen's d)
4. 生成箱线图和点图
5. 提供论文结果描述任务:建立多元线性回归模型,预测因变量
数据:regression-data.csv
- 因变量:学术成绩 (score)
- 自变量:学习时间 (study_hours)、睡眠时间 (sleep_hours)、
运动频率 (exercise_freq)、压力水平 (stress_level)
要求:
1. 探索性数据分析(相关矩阵、散点图矩阵)
2. 建立多元线性回归模型
3. 检查模型假设(残差正态性、同方差性、多重共线性)
4. 评估模型性能(R²、调整R²、F检验)
5. 生成回归系数表和残差图
6. 解释各变量的影响任务:使用机器学习模型进行二分类
数据:classification-data.csv
- 目标变量:疾病诊断结果(0=健康,1=患病)
- 特征:20个生化指标
要求:
1. 数据预处理(缺失值、标准化)
2. 划分训练集和测试集(80/20)
3. 尝试多个分类器(逻辑回归、随机森林、SVM、XGBoost)
4. 使用交叉验证评估模型
5. 比较模型性能(准确率、精确率、召回率、F1、AUC)
6. 特征重要性分析
7. 生成ROC曲线和混淆矩阵
8. 推荐最佳模型分析技巧
1. 清晰描述研究问题
明确的研究问题帮助 DataFlow 选择正确的分析方法:
- ✅ 好:"比较两组间的平均值是否存在显著差异"
- ❌ 不好:"分析数据"(目标不明确)
2. 提供数据背景
数据的背景信息有助于正确解释结果:
- 数据收集方式(实验、调查、观察)
- 样本量和采样方法
- 变量的含义和单位
- 研究假设
3. 说明期望的输出
具体说明您需要什么样的输出:
- 统计检验的类型
- 可视化图表的类型
- 是否需要代码
- 图表的格式和分辨率
4. 迭代优化分析
数据分析常常需要多次迭代:
- 第一轮:探索性分析,了解数据特征
- 第二轮:根据初步发现,进行深入分析
- 第三轮:调整可视化,优化呈现方式
5. 验证结果可靠性
对于重要的分析,建议:
- 检查结果的合理性(是否与预期一致)
- 验证统计方法的适用条件
- 考虑敏感性分析(改变参数看结果是否稳定)
- 必要时请领域专家审核
应用案例
案例 1:实验数据的统计检验
场景:生物学实验,比较不同处理条件下的细胞活性。
数据:3个处理组 × 5次重复测量 = 15个数据点
分析流程:
- 上传数据到 DataFlow
- 请求"对三组数据进行方差分析,并进行事后多重比较"
- DataFlow 自动检查正态性和方差齐性
- 执行单因素方差分析(ANOVA)
- 进行 Tukey HSD 事后检验
- 生成柱状图(均值+误差线)和显著性标记
产出:统计检验结果、论文级图表、结果描述文本
案例 2:调查问卷数据分析
场景:心理学研究,分析问卷调查数据。
数据:200份问卷,包含人口学信息和量表得分
分析需求:
- 描述性统计(样本特征)
- 量表信度分析(Cronbach's α)
- 相关分析(变量间关系)
- 回归分析(预测模型)
成果:完整的数据分析报告,包含表格和图表, 可直接用于论文的结果部分。
案例 3:机器学习预测模型
场景:医学研究,基于临床指标预测疾病风险。
数据:500个样本,30个临床特征,二分类标签
DataFlow 自动完成:
- 数据清洗(处理缺失值和异常值)
- 特征选择(去除冗余特征)
- 模型训练(对比5种分类器)
- 性能评估(交叉验证)
- 模型解释(特征重要性)
- 可视化(ROC曲线、混淆矩阵)
成果:最优模型、完整代码、评估报告、可视化图表
开始使用 DataFlow,让数据分析不再困扰您的科研!📊