English
主导航
Codex

Codex 用例

分析数据集并交付报告

将杂乱数据转化为清晰的分析与可视化。

难度 中级
时间周期 1h

使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模,并将输出打包为可复用的制品。

适用场景

  • 从杂乱文件开始,最终生成图表、备忘录、仪表板或报告的数据分析流程
  • 希望 Codex 协助完成数据清洗、数据关联、探索性分析及构建可复用脚本的分析人员
  • 需要可审查的制品,而非一次性笔记本状态的团队

目录

    ← 所有用例

    分析数据集并交付报告

    将杂乱数据转化为清晰的分析与可视化。

    使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模,并将输出打包为可复用的制品。

    中级
    1h

    使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模,并将输出打包为可复用的制品。

    中级
    1h

    适用场景

    • 从杂乱文件开始,最终生成图表、备忘录、仪表板或报告的数据分析流程
    • 希望 Codex 协助完成数据清洗、数据关联、探索性分析及构建可复用脚本的分析人员
    • 需要可审查的制品,而非一次性笔记本状态的团队

    技能与插件

    • 电子表格
      当涉及公式、导出或快速电子表格检查时,检查 CSV、TSV 和 Excel 文件。
    • 为探索性分析、实验和可复用的演示创建或重构笔记本。
    • 当涉及布局、表格或批注时,生成面向利益相关者的 `.docx` 报告。
    • 渲染 PDF 输出,并在分享前检查最终的分析制品。
    技能 为什么使用它
    电子表格 当涉及公式、导出或快速电子表格检查时,检查 CSV、TSV 和 Excel 文件。
    Jupyter Notebook 为探索性分析、实验和可复用的演示创建或重构笔记本。
    文档 当涉及布局、表格或批注时,生成面向利益相关者的 `.docx` 报告。
    PDF 渲染 PDF 输出,并在分享前检查最终的分析制品。

    起始提示词

    我正在此工作区中进行一个数据分析项目。目标: - 查明高速公路附近的房屋房产估值是否较低。 开始步骤: - 阅读 `AGENTS.md` 并说明推荐的 Python 环境 - 加载位于 [dataset path] 的数据集 - 描述每个文件包含的内容、可能的关联键以及明显的数据质量问题 - 提出一个从导入和清理到可视化、建模及报告输出的可复现工作流 约束条件: - 优先使用脚本和保存的制品,而非一次性的笔记本状态 - 不要凭空捏造缺失值或合并键 - 建议任何能够提升工作流可复现性的技能或工作树拆分方式 输出: - 设置计划 - 数据清单 - 分析计划 - 首批要执行的命令或要创建的文件
    我正在此工作区中进行一个数据分析项目。目标: - 查明高速公路附近的房屋房产估值是否较低。 开始步骤: - 阅读 `AGENTS.md` 并说明推荐的 Python 环境 - 加载位于 [dataset path] 的数据集 - 描述每个文件包含的内容、可能的关联键以及明显的数据质量问题 - 提出一个从导入和清理到可视化、建模及报告输出的可复现工作流 约束条件: - 优先使用脚本和保存的制品,而非一次性的笔记本状态 - 不要凭空捏造缺失值或合并键 - 建议任何能够提升工作流可复现性的技能或工作树拆分方式 输出: - 设置计划 - 数据清单 - 分析计划 - 首批要执行的命令或要创建的文件

    简介

    从本质上讲,数据分析旨在利用数据为决策提供依据。目的绝不是为了分析而分析,而是为了产出一个能指导他人行动的制品:一张供领导层参考的图表、一份给产品团队的实验结果、一份面向研究人员的模型评估,或是一个指导日常运营的仪表板。

    这一实用的框架由 R数据科学,是一个循环:导入并整理数据,然后在转换、可视化和建模之间不断迭代以加深理解,最后传达结果。编程贯穿了这整个周期。

    广为推广。Codex 非常契合此工作流。它能通过清洗数据、探索假设、生成分析以及产出可复现的制品,帮助你加速推进整个循环。我们的目标不是一次性的笔记本,而是一个可供他人审查、信任和重复运行的工作流。

    明确你的用例

    选择一个你希望通过数据来回答的具体问题。

    问题越具体越好。这有助于 Codex 理解你的目标以及如何为你提供帮助。

    运行示例:高速公路附近的房产价值

    作为示例,我们将探讨以下问题:

    高速公路附近的房屋房产估值究竟在多大程度上较低?

    假设一个数据集包含房产价值或销售价格,另一个包含位置、地块或高速公路距离信息。这里的任务不仅仅是运行模型,而是要让输入数据值得信赖,记录合并过程,对结果进行压力测试,并最终产出一个他人可以使用的制品。

    配置环境

    在开始新的数据分析项目时,你需要配置环境并定义项目规范。

    • Environment: Codex 应当了解该项目所指定的 Python 环境、包管理器、文件夹结构以及输出约定。
    • Skills: 诸如笔记本清理、电子表格导出或最终报告打包等重复性工作流,应转化为可复用的技能,而不是在每个提示中重新解释。
    • Worktrees: 将不同的探索工作分离到独立的工作树中,这样某个假设、合并策略或可视化分支就不会与其他分支相互干扰。

    如需了解有关如何安装和使用技能的更多信息,请参阅我们的 技能文档.

    引导 Codex 的行为

    在接触数据之前,先告诉 Codex 在该代码库中应如何运作。将个人默认配置放在 ~/.codex/AGENTS.md,并将项目规则放在代码仓库中 AGENTS.md.

    A small AGENTS.md 通常就足够了:

    ## Data analysis defaults
    
    - Use `uv run` or the project's existing Python environment.
    - Keep source data in `data/raw/` and write cleaned data to `data/processed/`.
    - Put exploratory notebooks in `analysis/` and final artifacts in `output/`.
    - Never overwrite raw files.
    - Prefer scripts or checked-in notebooks over unnamed scratch cells.
    - Before merging datasets, report candidate keys, null rates, and join coverage.

    如果代码库尚未定义 Python 环境,请让 Codex 创建一个可复现的配置并说明运行方法。对于数据分析工作而言,这一步比直接跳去画图表重要得多。

    导入数据

    通常最快的启动方式是粘贴文件路径并让 Codex 进行检查。在此环节,Codex 可协助你解答以下基础但重要的问题:

    • 这里有哪些文件格式?
    • 每个数据集大致代表什么?
    • 哪些列可能是目标变量、标识符、日期、位置或度量值?
    • 明显的数据质量问题出在哪里?

    先不要急于得出结论。首先要求进行数据盘点和说明。

    整理与合并输入数据

    大多数实质性工作从这里开始。你手头有两个或更多数据集,主键不明确,贸然合并可能会导致数据丢失或产生重复项。

    请要求 Codex 在执行合并前先进行侧写分析:

    • 检查候选键的唯一性。
    • 衡量空值率和格式差异。
    • 规范化明显的格式问题,如大小写、空格或地址格式。
    • 运行试合并并报告匹配率。
    • 在写入最终合并文件之前,推荐最安全的合并策略。

    如果需要推导出最佳键(例如规范化地址、由几列组合而成的地块标识符,或是基于位置的合并),请让 Codex 在你确认合并前详细说明相关的权衡因素与边缘情况。

    通过图表与独立工作树进行探索

    在探索性数据分析中,Codex 受益于良好的隔离机制。一个工作树可以用来测试地址清理或特征工程,而另一个则专注于图表或替代的模型方向。这样既能保证每个差异记录都易于审查,又能避免在一个冗长的线索中混杂互不兼容的想法。

    Codex 应用内置了工作树支持。如果你在终端中工作,使用普通的 Git 工作树也能很好地实现此目的:

    git worktree add ../analysis-highway-eda -b analysis/highway-eda
    git worktree add ../analysis-model-comparison -b analysis/highway-modeling

    在当前的运行示例中,这一步将用于比较高速公路附近的房屋与较远房屋的差异、检查异常值、审查缺失值模式,并判断观察到的效应是真实的,还是反映了社区构成、房屋面积或其他因素的结果。

    对问题进行建模

    并非每项分析都需要复杂的模型。请从具有可解释性的基线模型开始。

    对于高速公路的问题,合理的初步尝试是使用回归或其他透明模型,在控制房屋面积、房龄和位置等相关因素的前提下,估算高速公路距离与房产价值之间的关系。

    请要求 Codex 明确说明:

    • 目标变量与特征定义。
    • 需要包含哪些控制变量以及原因。
    • 泄露风险与排除项。
    • 它如何选择数据拆分、评估方法或不确定性估计。
    • 用通俗易懂的语言解释结果的含义。

    如果第一个模型表现不佳,这依然很有用。它能帮你判断问题究竟出在模型、特征、连接质量,还是问题本身。

    传达结果

    分析结果只有在他人能够理解时才有价值。请让 Codex 生成目标受众所需的交付物:

    • 供技术协作者参考的 Markdown 备忘录。
    • 供下游运营工作使用的电子表格或 CSV。
    • A .docx 简报,使用 $doc 当格式和表格很重要时。
    • 渲染后的附录或最终交付物,使用 $pdf.
    • 通过部署的轻量级仪表盘或静态报告网站 $vercel-deploy.

    这也是你需要提出注意事项的地方。如果连接质量不完美、存在采样偏差,或者模型假设较为脆弱,Codex 应该在交付物中明确说明这些情况。

    值得考虑的技能

    与该工作流特别契合的精选技能包括:

    • $spreadsheet 用于 CSV、TSV 和 Excel 编辑或导出。
    • $jupyter-notebook 当交付物需要保留在 notebook 原生格式时。
    • $doc and $pdf for stakeholder-facing outputs.
    • $vercel-deploy 当你希望以 URL 形式分享结果时。

    一旦工作流稳定下来,可以为重复性环节创建仓库本地技能,例如 refresh-data, merge-and-qa, or publish-weekly-report。与在每个线程中粘贴相同的程序化提示相比,这是一种更好的长期模式。

    建议提示词

    搭建分析环境

    我是一名在这个仓库中工作的数据分析师。请阅读 `AGENTS.md`,检查是否已存在 Python 环境,并为本项目搭建最小化的可复现分析工作流。要求: - 优先使用 `uv` 和本地 `.venv`,除非该仓库已标准化了其他工具。 - 为原始数据、处理后的数据、notebook 和输出创建清晰的文件夹。 - 说明你将如何运行 Python、安装依赖包以及保存构建产物。 - 不要修改原始数据文件。

    加载数据集并进行说明

    请加载位于 [path] 的数据集并说明其内容。包括: - 每个文件可能包含的内容 - 可能的标识符、目标列和日期列 - 文件格式和编码 - 明显的数据质量问题或缺失的元数据 暂时不要得出结论。请从清查和解读开始。

    在合并前先分析关联情况

    我们需要合并这两个数据集,但主键并不明确。任务: - 分析候选的关联键 - 展示每个候选键的唯一性和空值率 - 标准化明显的格式问题 - 运行小规模试探性关联并报告匹配率 - 在更改任何文件之前,推荐最安全的合并策略

    开辟全新的探索工作树

    为高速公路邻近度和房产估价的探索性分析创建一个独立的工作树。在此工作树中: - 生成汇总表和图表 - 比较靠近与远离高速公路的房屋 - 保存图表和简短的 Markdown 报告 - 保持 diff 仅限于探索性操作

    构建具有可解释性的第一个模型

    对高速公路邻近度是否与较低的房产估价相关进行建模。要求: - 从具有可解释性的基线开始 - 明确定义目标、特征和控制变量 - 说明泄露风险与排除项 - 报告效应大小、不确定性和主要局限性 - 保存建模代码和简短的结果说明

    为利益相关者打包结果

    将此分析转化为面向利益相关者的交付物。受众: - 决定公路沿线房产是否需要单独定价假设的产品和运营负责人 输出: - 一份简短的执行摘要 - 两到四张支持性图表 - 一个注意事项部分 - `.docx`、`.pdf` 或静态报告网站,以最合适的为准 同时告诉我哪种技能对所选的输出格式最有帮助。

    技术栈

    需求

    分析技术栈

    为何需要它

    导入、分析、关联、清洗以及第一轮图表的良好默认设置。

    需求

    建模

    为何需要它

    在转向更复杂的预测模型之前,先从具有可解释性的基线开始。

    需求 默认选项 为何需要它
    分析技术栈 pandas with matplotlib or seaborn 导入、分析、关联、清洗以及第一轮图表的良好默认设置。
    建模 statsmodels or scikit-learn 在转向更复杂的预测模型之前,先从具有可解释性的基线开始。

    相关用例