目录

1. 简介2. Python历史3. 安装Python3.1. Python解释器4. 第一个Python程序4.1. 使用文本编辑器4.2. 输入和输出5. Python基础5.1. 数据类型和变量5.2. 字符串和编码5.3. 使用list和tuple5.4. 条件判断5.5. 模式匹配5.6. 循环5.7. 使用dict和set6. 函数6.1. 调用函数6.2. 定义函数6.3. 函数的参数6.4. 递归函数7. 高级特性7.1. 切片7.2. 迭代7.3. 列表生成式7.4. 生成器7.5. 迭代器8. 函数式编程8.1. 高阶函数8.1.1. map/reduce8.1.2. filter8.1.3. sorted8.2. 返回函数8.3. 匿名函数8.4. 装饰器8.5. 偏函数9. 模块9.1. 使用模块9.2. 安装第三方模块10. 面向对象编程10.1. 类和实例10.2. 访问限制10.3. 继承和多态10.4. 获取对象信息10.5. 实例属性和类属性11. 面向对象高级编程11.1. 使用__slots__11.2. 使用@property11.3. 多重继承11.4. 定制类11.5. 使用枚举类11.6. 使用元类12. 错误、调试和测试12.1. 错误处理12.2. 调试12.3. 单元测试12.4. 文档测试13. IO编程13.1. 文件读写13.2. StringIO和BytesIO13.3. 操作文件和目录13.4. 序列化14. 进程和线程14.1. 多进程14.2. 多线程14.3. ThreadLocal14.4. 进程 vs. 线程14.5. 分布式进程15. 正则表达式16. 常用内建模块16.1. datetime16.2. collections16.3. argparse16.4. base6416.5. struct16.6. hashlib16.7. hmac16.8. itertools16.9. contextlib16.10. urllib16.11. XML16.12. HTMLParser16.13. venv17. 常用第三方模块17.1. Pillow17.2. requests17.3. chardet17.4. psutil18. 图形界面18.1. 海龟绘图19. 网络编程19.1. TCP/IP简介19.2. TCP编程19.3. UDP编程20. 电子邮件20.1. SMTP发送邮件20.2. POP3收取邮件21. 访问数据库21.1. 使用SQLite21.2. 使用MySQL21.3. 使用SQLAlchemy22. Web开发22.1. HTTP协议简介22.2. HTML简介22.3. WSGI接口22.4. 使用Web框架22.5. 使用模板23. 异步IO23.1. 协程23.2. 使用asyncio23.3. 使用aiohttp24. FAQ25. 期末总结

21. 访问数据库

而如何定义数据的存储格式就是一个大问题。如果我们自己来定义存储格式,比如保存一个班级所有学生的成绩单:

名字 成绩
Michael 99
Bob 85
Bart 59
Lisa 87

我们可以用一个文本文件保存,一行保存一个学生,用,隔开:

Michael,99
Bob,85
Bart,59
Lisa,87

还可以用JSON格式保存,也是文本文件:

[
    {"name":"Michael","score":99},
    {"name":"Bob","score":85},
    {"name":"Bart","score":59},
    {"name":"Lisa","score":87}
]

还可以定义各种保存格式,但是问题来了:

存储和读取需要自己实现,JSON还是标准,自己定义的格式就各式各样了;

不能做快速查询,只有把数据全部读到内存中才能自己遍历,但有时候数据的大小远远超过了内存,根本无法全部读入内存。

为了便于程序保存和读取数据,而且,能直接通过条件快速查询到指定的数据,就出现了数据库(Database)这种专门用于集中存储和查询的软件。

数据库软件诞生的历史非常久远,早在1950年数据库就诞生了。经历了网状数据库,层次数据库,我们现在广泛使用的关系数据库是20世纪70年代基于关系模型的基础上诞生的。

关系模型有一套复杂的数学理论,但是从概念上是十分容易理解的。举个学校的例子:

假设某个XX省YY市ZZ县第一实验小学有3个年级,要表示出这3个年级,可以在Excel中用一个表格画出来:

grade

每个年级又有若干个班级,要把所有班级表示出来,可以在Excel中再画一个表格:

class

这两个表格有个映射关系,就是根据Grade_ID可以在班级表中查找到对应的所有班级:

grade-classes

也就是Grade表的每一行对应Class表的多行,在关系数据库中,这种基于表(Table)的一对多的关系就是关系数据库的基础。

根据某个年级的ID就可以查找所有班级的行,这种查询语句在关系数据库中称为SQL语句,可以写成:

SELECT * FROM classes WHERE grade_id = '1';

结果也是一个表:

grade_id class_id name
1 11 一年级一班
1 12 一年级二班
1 13 一年级三班

类似的,Class表的一行记录又可以关联到Student表的多行记录:

class-students

由于本教程不涉及到关系数据库的详细内容,如果你想从零学习关系数据库和基本的SQL语句,请参考SQL教程

NoSQL

你也许还听说过NoSQL数据库,很多NoSQL宣传其速度和规模远远超过关系数据库,所以很多同学觉得有了NoSQL是否就不需要SQL了呢?千万不要被他们忽悠了,连SQL都不明白怎么可能搞明白NoSQL呢?

数据库类别

既然我们要使用关系数据库,就必须选择一个关系数据库。目前广泛使用的关系数据库也就这么几种:

付费的商用数据库:

  • Oracle,典型的高富帅;
  • SQL Server,微软自家产品,Windows定制专款;
  • DB2,IBM的产品,听起来挺高端;
  • Sybase,曾经跟微软是好基友,后来关系破裂,现在家境惨淡。

这些数据库都是不开源而且付费的,最大的好处是花了钱出了问题可以找厂家解决,不过在Web的世界里,常常需要部署成千上万的数据库服务器,当然不能把大把大把的银子扔给厂家,所以,无论是Google、Facebook,还是国内的BAT,无一例外都选择了免费的开源数据库:

  • MySQL,大家都在用,一般错不了;
  • PostgreSQL,学术气息有点重,其实挺不错,但知名度没有MySQL高;
  • SQLite,嵌入式数据库,适合桌面和移动应用。

作为一个Python工程师,选择哪个免费数据库呢?这里我们会介绍SQLite和MySQL,SQLite适合作为嵌入式数据库,优点是不用安装任何软件,直接能用。生产环境下,应当选择MySQL或者PostgreSQL。