优化疫情防控政策下,“四类药”成为热销

小白学大数据
• 阅读 434

近日,多地优化疫情防控政策,居民通过互联网平台或药房购买退热、止咳、抗病毒、抗生素等“四类药”,不再查验核酸检测阴性证明,不再需要实名登记信息。成都、广州、北京、重庆等地也宣布不再按行政区域开展全员核酸检测,并鼓励家庭自备抗原试剂盒。在防疫政策优化调整的背景下,从“四类药”原料药到成品再到下游零售连锁药房,所涉及的上市公司都开启了“备货”模式。此外,各家连锁药房上市公司负责人均表示,目前新冠抗原检测试剂盒需求较大,正与供应商积极沟通加紧后备货源的补给。 很多人会在网上购买这四类药,一般京东大药房都是大家的首选,那么今天我们就通过pythoon爬虫技术来获取京东大药房数据分析下这几类药的销量。因为京东是是属于需要登录才能大量获取数据的网站,所以本次爬虫用到的核心技术使用使用 Selenium + 爬虫隧道代理IP ,Selenium 用于驱动浏览器对网页进行模拟访问,而且 Selenium 工具可以对于网页端的一些反爬措施能够达到一些有效的抑制,爬虫隧道代理IP的使用是因为京东是反爬比较严的网站。一般的代理效果很不理想,经过多次测试对比最后选择了亿牛云的隧道代理。爬虫实现过程如下:

    import string
    import zipfile

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "3111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"


    def create_proxy_auth_extension(proxy_host, proxy_port,
                                    proxy_username, proxy_password,
                                    scheme='http', plugin_path=None):
        if plugin_path is None:
            plugin_path = r'/tmp/{}_{}@t.16yun.zip'.format(proxy_username, proxy_password)

        manifest_json = """
        {
            "version": "1.0.0",
            "manifest_version": 2,
            "name": "16YUN Proxy",
            "permissions": [
                "proxy",
                "tabs",
                "unlimitedStorage",
                "storage",
                "<all_urls>",
                "webRequest",
                "webRequestBlocking"
            ],
            "background": {
                "scripts": ["background.js"]
            },
            "minimum_chrome_version":"22.0.0"
        }
        """

        background_js = string.Template(
            """
            var config = {
                mode: "fixed_servers",
                rules: {
                    singleProxy: {
                        scheme: "${scheme}",
                        host: "${host}",
                        port: parseInt(${port})
                    },
                    bypassList: ["localhost"]
                }
              };

            chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

            function callbackFn(details) {
                return {
                    authCredentials: {
                        username: "${username}",
                        password: "${password}"
                    }
                };
            }

            chrome.webRequest.onAuthRequired.addListener(
                callbackFn,
                {urls: ["<all_urls>"]},
                ['blocking']
            );
            """
        ).substitute(
            host=proxy_host,
            port=proxy_port,
            username=proxy_username,
            password=proxy_password,
            scheme=scheme,
        )
        print(background_js)

        with zipfile.ZipFile(plugin_path, 'w') as zp:
            zp.writestr("manifest.json", manifest_json)
            zp.writestr("background.js", background_js)

        return plugin_path


    proxy_auth_plugin_path = create_proxy_auth_extension(
        proxy_host=proxyHost,
        proxy_port=proxyPort,
        proxy_username=proxyUser,
        proxy_password=proxyPass)

    option = webdriver.ChromeOptions()

    option.add_argument("--start-maximized")

    # 如报错 chrome-extensions
    # option.add_argument("--disable-extensions")

    option.add_extension(proxy_auth_plugin_path)

    # 关闭webdriver的一些标志
    # option.add_experimental_option('excludeSwitches', ['enable-automation'])

    driver = webdriver.Chrome(
        chrome_options=option,
        executable_path="./chromdriver"
    )

    # 修改webdriver get属性
    # script = '''
    # Object.defineProperty(navigator, 'webdriver', {
    # get: () => undefined
    # })
    # '''
    # driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script})


    driver.get("https://httpbin.org/ip")

尽管 selenium 对于网页端的一些反爬机制实现有效地破解,但对于一些网站时没有用的,例如拉勾网,当你用 Selenium 驱动浏览器在拉钩官网模拟翻页操作时,网站能识别出非人为操作,对你的 IP 进行暂时性封禁并警告。所以不管什么网站的数据获取IP的辅助是必不可少少的。关于本篇文章涉及到的完整源码,代理的获取方式可以私信或搜索亿牛云获取。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
保卫大萝卜 保卫大萝卜
2年前
低代码,虽然有点毒瘤,但管用就好
最近看到不少低门槛开发软件应用的新闻:“30分钟搭一款核酸检测登记应用”、“2小时紧急上线抗疫求助应用”、“00后低代码开发者毕业月薪过万”等等。近期,广西防城港市出现疫情,全市展开一轮大规模核酸检测。柳钢工人彭期文在钉钉上仅用30分钟就通过低代码搭起一款“核酸检测登记”应用,原本需要大规模的排队登记,如今手机一扫,3小时就能完成7000余人
Wesley13 Wesley13
3年前
VBox 启动虚拟机失败
在Vbox(5.0.8版本)启动Ubuntu的虚拟机时,遇到错误信息:NtCreateFile(\\Device\\VBoxDrvStub)failed:0xc000000034STATUS\_OBJECT\_NAME\_NOT\_FOUND(0retries) (rc101)Makesurethekern
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
千万级高并发下 看天翼云如何为“健康码”突破技术瓶颈
“一码溃,众难行”短短六个字,却是目前疫情反弹、全国严密防控之下,大众生活的直接写照。毫无疑问,作为此次疫情中产生的“速生品”,在经历两年疫情大考之后,健康码已逐渐演变为国人出行的第二张“身份证”。5月以来,常态化核酸检测成为公众热点话题,在国内疫情多点散发、持续高发的形势下,北京市、上海市、山东省、山西省、江西省等省市纷纷开展常态化核酸检测。国家卫生健康委
每秒百万条信息查询 天翼云助力江苏核酸检测信息查询
目前,由南京禄口国际机场外溢的新冠肺炎疫情感染链仍在延长,牵动着全国人民的心。时有所需,必有所为。面对南京疫情,中国电信立即做出反应,争分夺秒彰显央企使命,全面响应江苏疫情防控战。面对此次来势汹汹的疫情,南京市目前已完成三轮核酸检测,共计产生2700万人次的检测结果。接下来,南京市将继续迎来第四轮核酸检测工作,扬州、淮安、宿迁等地将迎来第二次全民筛查。为保障
小白学大数据
小白学大数据
Lv1
男 · 亿牛云 · python技术
宁为代码类弯腰,不为bug点提交!
文章
88
粉丝
5
获赞
18