从零开始,hg0088新2网址大全|官方网站论坛

快捷导航
广告联系qq1031180668广告位
查看: 270|回复: 1
打印 上一主题 下一主题

[python] 使用User Agent和代理IP隐藏身份

[复制链接]
  • ta_mind
    开心
    2019-8-2 17:46
  • classn_01: 19 classn_02

    [LV.4]偶尔看看III

    24

    主题

    30

    帖子

    108

    积分

    注册会员

    Rank: 2

    积分
    108
    QQ
    跳转到指定楼层
    楼主
    发表于 2019-6-3 17:50:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    一、为何要设置User Agent
    ? ? 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。
    ? ? User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。
    ? ? Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。
    二、常见的User Agent
    1.Android
    Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19
    Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
    Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
    2.Firefox
    Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
    Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0
    3.Google Chrome
    Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36
    Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19
    4.iOS
    Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3
    Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3
    ? ? 上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。
    四、IP代理的使
    1.为何使用IP代理
    ? ? UA已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。
    .代理IP选取
    ? ? 在写代码之前,先在代理IP网站选好一个IP地址,这里推介亿牛云代理。他们家产品比较齐全,api接口调用和动态转发调用都支持,而且代理是自营线路,电信专线。我稳定性,可用性,速度吗,延迟都是非常好的。这里就展示下他们的动态转发代理进行示例,动态转发就是他们会提供一个固定的ip地址给你,,直接配置到程序里面就可以使用,不需要自己去调用ip,也不需要自己管理ip池,使用起来超级方便简单,对于懒人来说绝对是最好的选择。
    代码示例,这里是以python为例子
    1、Python?
    requests
    ? ?? ? #! -*- encoding:utf-8 -*-
    ? ?? ???import requests
    ? ?? ???import random
    ? ?? ???# 要访问的目标页面
    ? ?? ???targetUrl = "http://httpbin.org/ip"
    ? ?? ???# 要访问的目标HTTPS页面
    ? ?? ???# targetUrl = "https://httpbin.org/ip"
    ? ?? ???# 代理服务器
    ? ?? ???proxyHost = "t.16yun.cn"
    ? ?? ???proxyPort = "31111"
    ? ?? ???# 代理隧道验证信息
    ? ?? ???proxyUser = "username"
    ? ?? ???proxyPass = "password"
    ? ?? ???proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    ? ?? ?? ?? ?"host" : proxyHost,
    ? ?? ?? ?? ?"port" : proxyPort,
    ? ?? ?? ?? ?"user" : proxyUser,
    ? ?? ?? ?? ?"pass" : proxyPass,
    ? ?? ???}
    ? ?? ???# 设置 http和https访问都是用HTTP代理
    ? ?? ???proxies = {
    ? ?? ?? ?? ?"http"??: proxyMeta,
    ? ?? ?? ?? ?"https" : proxyMeta,
    ? ?? ???}
    ? ?? ???#??设置IP切换头
    ? ?? ???tunnel = random.randint(1,10000)
    ? ?? ???headers = {"Proxy-Tunnel": str(tunnel)}
    ? ?? ???resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    ? ?? ???print resp.status_code
    ? ?? ???print resp.text
    以上是python的代理添加示例,如果是其他的语言编写的可以去官网看下相应的接入指南 www.16yun.cn

    classn_11

    0

    主题

    2

    帖子

    32

    积分

    新手上路

    Rank: 1

    积分
    32
    沙发
    发表于 2019-6-22 15:54:28 | 只看该作者
    谢谢分享。。
    游客
    回复
    您需要登录后才可以回帖 登录 | 立即注册

    手机版|Archiver|小黑屋|sitemap| 从零开始,hg0088新2网址大全|官方网站论坛 - 一个单纯的hg0088新2网址大全|官方网站学习交流论坛 ( 豫ICP备15032706号 )

    GMT+8, 2019-8-20 10:32 , Processed in 1.099384 second(s), 23 queries .

    Powered by Discuz! X3.4

    ? 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表