1. 课程介绍¶

欢迎与课程目标¶

欢迎大家进入Python与数据挖掘的世界! 本课程旨在让大家了解什么是Python、Python如何帮助我们处理数据,以及当今热门的大模型(例如大语言模型)的基本原理和应用。

为什么选择Python?¶

  • Python是一种简单易学的编程语言,语法清晰、功能强大,广泛应用于数据分析、网络爬虫、人工智能等各个领域。
  • 对于没有计算机专业背景的文科生,Python的直观性使得编程入门变得更加容易。

2. Python基础知识¶

Python的基本概念¶

  • 解释型语言:代码在运行时逐行解释执行,不需要编译。
  • 跨平台:在Windows、Mac、Linux系统中均可运行。

基本语法与数据类型¶

  • 变量与数据类型:如何定义变量,常见的数据类型(整数、浮点数、字符串、布尔值等)。
  • 控制结构:条件判断(if语句)、循环(for和while循环)的使用。
  • 函数:如何定义和调用函数,理解“模块化编程”的思想。

示例代码讲解¶

举例:一个简单的Hello, World!程序,以及使用循环输出数字1到5的代码。

In [ ]:
print("Hello, World!")

# 使用for循环输出1到5
for i in range(1, 6):
    print(i)

讲解重点:¶

  • 每一行代码的作用。
  • Python如何通过缩进来表示代码块。
  • 代码执行的顺序和基本逻辑。

3. 数据挖掘入门¶

数据挖掘的定义¶

数据挖掘是从大量数据中提取出隐藏的、有用的信息和知识的过程。 它包括数据收集、数据预处理、数据分析与建模、结果解读等步骤。

Python在数据挖掘中的应用¶

  • 利用Python强大的第三方库(如NumPy、Pandas、Matplotlib)对数据进行清洗、统计和可视化。
  • 简单的示例:读取一个CSV文件并计算某个字段的平均值。

实例讲解¶

通过一个小案例展示如何使用Pandas读取数据和进行数据分析,让大家体会编程如何解决实际问题。

In [ ]:
 

Python的用途¶

  • 数据分析与挖掘 Pandas、NumPy、Matplotlib、Seaborn、数据清洗、数据可视化、统计分析 电商销售数据分析、股票市场趋势预测、用户行为分析

  • 人工智能与机器学习 TensorFlow、PyTorch、Scikit-learn、深度学习、神经网络、自然语言处理(NLP) 图像识别(人脸识别、医学影像分析)、文本生成(GPT)、推荐系统(电影推荐、商品推荐)

  • 网络开发 Django、Flask、FastAPI、RESTful API、Web框架、后端开发 博客网站、电商平台、社交媒体应用

  • 自动化脚本 自动化任务、文件处理、定时任务、爬虫、Selenium 批量重命名文件、自动发送邮件、网页数据抓取

  • 科学计算 SciPy、SymPy、数值计算、仿真模拟、物理建模 天气预报模型、流体动力学仿真、量子计算模拟

  • 游戏开发 Pygame、Unity(Python API)、2D/3D游戏、游戏逻辑 简单2D游戏(贪吃蛇、俄罗斯方块)、游戏原型开发

  • 物联网(IoT) Raspberry Pi、MicroPython、传感器、智能家居、自动化控制 智能温控系统、智能灯光控制、环境监测

  • 金融科技 量化交易、风险管理、投资分析、区块链 股票交易策略回测、加密货币数据分析、风险评估模型

  • 教育与科研 Jupyter Notebook、教学工具、实验模拟、学术研究 编程教学、科研数据分析、论文图表生成

  • 多媒体处理 OpenCV、Pillow、音频处理、视频编辑、图像处理 人脸识别、视频剪辑、图像滤镜应用

4. 大模型(大语言模型)简介¶

什么是大模型?¶

大模型通常指预训练的深度学习模型,比如DeepSeek、GPT、BERT等,能够理解和生成自然语言。 它们通过在海量数据上学习,掌握了语言的结构和使用规则,因此能够进行文本生成、翻译、问答等任务。

大模型的基本原理¶

  • 预训练和微调:大模型先在大量通用数据上进行预训练,再针对具体任务进行微调。
  • 海量参数:模型中包含数以亿计的参数,决定了模型的表现和能力。

Python与大模型的关联¶

  • Python是调用和使用这些大模型的重要工具。
  • 例如,通过Python调用现成的API(如OpenAI API)可以实现文本生成、对话机器人等功能。
  • 还可以使用Python对数据进行预处理和后期结果分析,从而更好地理解模型的表现。

简单示例展示¶

举例说明如何用Python调用一个预训练的大模型接口(这里只做概念性展示,不涉及复杂细节):

In [ ]:
# import openai

# # 假设我们已经设置好API key
# openai.api_key = "YOUR_API_KEY"

# # 调用大模型生成文本
# response = openai.Completion.create(
#     engine="text-davinci-003",
#     prompt="请简单介绍一下中国历史。",
#     max_tokens=100
# )
# print(response.choices[0].text.strip())

讲解重点:¶

  • API调用的基本流程。
  • 如何构造请求和理解响应。

注意:这里的代码主要用于展示大模型的工作原理,实际使用时可能需要更多配置。

5. 课程总结与展望¶

核心回顾¶

  • Python作为一种简单而强大的编程语言,是进行数据挖掘和使用大模型的重要工具。
  • 数据挖掘和大模型技术让我们能够从海量数据中提取知识,并利用机器学习进行智能决策和生成。

未来学习方向¶

  • 后续课程中,我们会深入探讨数据预处理、数据可视化、机器学习的基本原理,以及如何在实际项目中应用大模型。
  • 鼓励大家多动手实践,尝试写代码、运行示例,切身感受编程的魅力。

互动与问答¶

欢迎大家提问,对于课堂内容或相关技术问题进行讨论,共同探索Python和数据挖掘的无限可能。

以上内容旨在用通俗易懂的语言为大家打开Python与大模型的世界,让没有编程基础的同学也能感受到数据科学和人工智能的魅力。希望这次课程能为你们后续的学习打下坚实的基础!

6. 教材与参考资料¶

教材¶

  • 雷蕾.2020.基于Python的语料库数据处理,科学出版社.

参考资料¶

  • 管新潮.2021.Python语言数据分析,上海交通大学出版社.
  • 王汉生.2020.深度学习:从入门到精通,人民邮电出版社.
  • 张楠等.2020.深度学习自然语言处理实战,机械工业出版社.

B站¶

  • Geoffreyzhou https://space.bilibili.com/480870830?spm_id_from=333.337.0.0

  • Bilibili:Python语言基础与应用-北京大学-陈斌-字幕校对 https://www.bilibili.com/video/BV1V741147QH/?spm_id_from=333.337.search-card.all.click&vd_source=19d86d20793ff118a9af54b0e276db17

  • https://www.bilibili.com/video/BV1TM411A7Ny?p=43&vd_source=19d86d20793ff118a9af54b0e276db17

网址¶

  • Python文档官方中文版! https://docs.python.org/zh-cn/3/
  • 廖雪峰的Python教程 https://www.liaoxuefeng.com/wiki/1016959663602400
  • 菜鸟教程 https://www.runoob.com/python3/python3-tutorial.html
  • 可视化代码执行过程: http://www.pythontutor.com/ 
  • The Python Package Index (PyPI) https://pypi.org/

AI平台¶

  • https://chat.zju.edu.cn/
  • https://www.codeflying.net/

AI助教¶

  • https://www.doubao.com/chat/45529363971330
In [1]:
print("Hello, World!")
Hello, World!