2017-01-28

写在25岁之前

前言

今天是鸡年春节，以阴历生日划分年龄的话，还有一个月就到25岁了。

25岁，研一。上学晚，加一年复读，最终导致，同级的小伙伴，普遍年龄在22到23岁。想到这，心里难免有些落差。仍然没有踏入职场，仍然依赖父母过活，仍然没有出类拔萃。

more >>

2017-01-22

Python抓取百度百科数据

前言

本文整理自慕课网《Python开发简单爬虫》，将会记录爬取百度百科“python”词条相关页面的整个过程。

more >>

2017-01-17

Python爬虫基础

前言

Python非常适合用来开发网页爬虫，理由如下：
1、抓取网页本身的接口
相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2、网页抓取后的处理
抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。