Python快速爬取车标网图片，以后不要说这什么车你不认识了！

知识不分边界......

人，为什么要读书？举个例子:

当看到天边飞鸟，你会说：“落霞与孤鹜齐飞，秋水共长天一色。”而不是：“卧靠，好多鸟。”;

当你失恋时你低吟浅唱道：“人生若只如初见，何事秋风悲画扇。”而不是千万遍地悲喊：“蓝瘦，香菇！”

今天回家早，陪俩小爷在楼下遛弯，忽然听见一阵马达轰鸣声，嗖~~闪一辆跑车，大大问；“爸爸，这是什么车啊？” 我：“红色的车…”小小说：“爸爸肯定不认识，我也知道是红色的车。”气氛有些冷场…

别人看车关注牌子，我看车关注宽敞不，睡着舒服不？可不管怎样不能在孩子面前丢份啊，我决定学习学习车标！

车标网

在网上找了半天车标的数据，最后看到了这个网站：车标网：http://www.chebiaow.com/logo。

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

网站将车系按照字母从A-Z进行了排序，然后点击每个车标进入详细信息，那Audi做例子：

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

有用的数据是哪些？品牌名称，车标，成立时间，主要车型，官网…

那么今天的爬虫练习呼之欲出，获取车标网下所有的汽车品牌及车标，并入库保存…

数据库操作指南

针对简单的数据，我习惯用python自带的sqlite3进行数据库的存储，简单方便….那么如何管理我们的数据库呢？推荐使用DBUtils!在往期的文章

决战高考，帮你秒变成语之王中，有对DBUtils的详细介绍，这里就不再赘述了…

但本次有一个知识点，我们需要将车标图片，存储在数据库中，那么如何在数据库中存储图片，使用类型BLOB。举一个简单的数据库图片读写例子

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/22 23:00
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : show.py
import sqlite3
db = sqlite3.connect('Car.db')
cur = db.cursor()
cur.execute("CREATE TABLE if not exists image_save (image BLOB);")
with open('Audi.jpg', 'rb') as f:
    cur.execute("insert into image_save values(?)", (sqlite3.Binary(f.read()),))
    db.commit()
cur.execute('select image from image_save limit 1')
b = cur.fetchone()[0]
with open('1.jpg', 'wb') as f:
    f.write(b)

我们创建一个image_save的测试表，然后将图片读取为二进制字节的方式，通过sqlite3.Binary将二进制文件存储至数据库。

那么同样的，我们将BLOB类型的图片读取出来后，进行写入，即可达到效果，来看看这个1.jpg是否正常：

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

图片下载小技巧

看过了二进制的存储方式，大家肯定说明白了，网站获取到图片链接然后找着上面的例子下载到本地，然后再进行二进制的读取后存储数据库即可，对吗？不对…有什么问题呢？来看一个例子：

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

这里Audi图片的链接地址，我们通过requests来下载看看….

import requests
r =requests.get('http://img.chebiaow.com/thumb/cb/allimg/1303/1-1303061Z600520,c_fill,h_138,w_160.jpg')
r.content
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01...'

可以看到我们通过requests.get获取到的content就已经是二进制数据了，为何还要存储成图片，在转化呢？网页分析

适配url

针对A-Z的车标排序，网站的url匹配关系很简单：

from string import ascii_uppercase as au
# ascii_uppercase代表A-Z，当然你可以不引入模块自己生成也OK...
for uppercase in au:
    "http://www.chebiaow.com/logo/{}.html".format(au)

获取品牌链接

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

可以看到在包含cb-list方法的ul下匹配所有li中的第一个a标签，然后拼接base_url即可。

品牌详情

进入品牌详情界面后，我们针对左右栏目的设置，分别获取所需标红的内容

Python快速爬取车标网图片，以后不要说这什么车你不认识了！

整体代码

通过上面的分析，我们开始爬虫，但这个网站真的是相应好慢，没办法添加上Threading的多线程执行吧，整体代码如下：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/22 23:08
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : CarLogo.py
import os
from db_maker import DbMaker as DB
from string import ascii_uppercase as au
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from sqlite3 import Binary
import threading
import time
class CarLogo:
    DATABASE = 'car.db'

    def __init__(self):
        self.db = DB()
        self.path = os.path.dirname(os.path.realpath(__file__))
        self.images_path = os.path.join(self.path, 'images_path')
        self.host = "http://www.chebiaow.com"
        self.headers = {
            'Connection': 'keep-alive',
            'user-agent': ('Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '
                           '(KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36')
        }

    def check_dir(self):
        if not os.path.exists(self.images_path):
            os.mkdir(self.images_path)

    def get_response(self, url, params=None):
        try:
            r = requests.get(url, headers=self.headers, params=params, timeout=15)
        except:
            pass
        soup = BeautifulSoup(r.text, "lxml")
        return soup

    def create_url(self):
        _url_format = "http://www.chebiaow.com/logo/{}.html"
        for uppercase in au:
            try:
                soup = self.get_response(_url_format.format(uppercase))
                _cars = soup.find("ul", {"class": "cb-list"}).findAll('li')
                for car in _cars:
                    # self.car_info()
                    t = threading.Thread(target=self.car_info, args=(urljoin(self.host, car.div.a['href']),))
                    time.sleep(0.5)
                    t.start()
            except:
                pass

    def car_info(self, url):
        soup = self.get_response(url)
        left_index = soup.find("div", {"class": "xq-left"}).findAll('p')
        name = left_index[0].text
        image_byte = requests.get(left_index[1].img['src']).content
        right_index = soup.find("ul", {"class": "xq-right"}).findAll('li')
        founded = right_index[3].span.text
        models = right_index[5].span.text
        website = right_index[7].span.text
        print("Insert Car Logo {}".format(name))
        _sql = "insert into car_logo(name,image,founded,models,website) values (?,?,?,?,?)"
        self.db.insert(_sql, (name, Binary(image_byte), founded, models, website))
if __name__ == '__main__':
    m = CarLogo()
    m.create_url()

最终存储的数据库如下：

Python快速爬取车标网图片，以后不要说这什么车你不认识了！