【Playwright爬虫数据采集代码示例!!值得深入学习代码】
为了提高反爬虫的稳定性,代理池和模拟真实用户行为是常见的优化手段。以下我将给出代理池的实现方式,并结合模拟真实用户行为的代码示例。
1.代理池实现:通过代理池,可以定期切换IP,避免因同一个IP频繁请求而被封锁。代理池可以是你自己搭建的代理列表,也可以使用第三方的付费代理服务。这里通过 asyncio 实现代理池轮换,并在每次请求时使用不同的代理IP。
2.模拟真实用户行为:模拟真实用户操作,包括:
更换 User-Agent:每次请求时使用不同的 User-Agent 来模拟不同设备和浏览器。设置浏览器的 viewport:设置不同的浏览器视口大小,避免所有请求都是相同的屏幕尺寸。使用 headless=False:使用可见浏览器,以模仿真实用户的行为(在某些情况下依然启用无头模式)。代码实现:import asyncioimport randomfrom playwright.async_api import async_playwrightimport aiohttp # 代理池 (可自定义添加更多代理)proxy_pool = [ 'http://proxy1.example.com:8080', 'http://proxy2.example.com:8080', 'http://proxy3.example.com:8080'] # 随机选择代理def get_random_proxy(): return random.choice(proxy_pool) # User-Agent 列表 (模拟不同的设备/浏览器)user_agents = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36', 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1', 'Mozilla/5.0 (Linux; Android 10; SM-G975F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Mobile Safari/537.36'] # 随机选择 User-Agentdef get_random_user_agent(): return random.choice(user_agents) # 模拟用户行为:随机滚动页面,点击某些元素async def simulate_human_behavior(page): await asyncio.sleep(random.uniform(1, 3)) # 模拟随机的延迟 await page.mouse.wheel(0, random.randint(300, 1000)) # 模拟滚动 await asyncio.sleep(random.uniform(1, 2)) # 再次延迟 # 可以添加其他的操作,例如点击某个随机元素 # 异步下载图片async def download_image(image_url, reg_number): if image_url: img_name = f"{reg_number}.jpg" async with aiohttp.ClientSession() as session: async with session.get(image_url) as response: if response.status == 200: content = await response.read() with open(f'images/{img_name}', 'wb') as f: f.write(content) # 异步抓取图片 URLasync def fetch_image_url(browser, reg_number, proxy=None): #示例网址 url = f'https://example.com/channel/search#/search?q={{"keyword":"{reg_number}"}}' # 启动浏览器页面并配置代理和 User-Agent context = await browser.new_context( viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)}, user_agent=get_random_user_agent() ) if proxy: context = await browser.new_context( proxy={"server": proxy}, user_agent=get_random_user_agent(), viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)} ) page = await context.new_page() try: # 模拟用户行为 await page.goto(url) await simulate_human_behavior(page) # 执行搜索操作 await page.click("//button[text()='搜索']") # 等待图片加载完成 await page.wait_for_selector('div.trademark-img-big img', timeout=60000) image_url = await page.locator('div.trademark-img-big img').get_attribute('src') return image_url except Exception as e: print(f"Error fetching image for {reg_number}: {e}") return None finally: await page.close() # 主函数async def main(): async with async_playwright() as p: browser = await p.chromium.launch(headless=False) # 模拟真实用户行为,使用非无头模式 registration_numbers = ["123456789", "987654321", "456789123"] # 示例注册号 tasks = [] for reg_number in registration_numbers: proxy = get_random_proxy() # 从代理池中随机获取代理 task = fetch_image_url(browser, reg_number, proxy=proxy) tasks.append(task) # 执行所有任务并收集结果 results = await asyncio.gather(*tasks) for reg_number, image_url in zip(registration_numbers, results): if image_url: await download_image(image_url, reg_number) await browser.close() if __name__ == "__main__": asyncio.run(main())asyncio.run(main())关键点解释:代理池 proxy_pool:通过 get_random_proxy() 随机选择代理。此代理池可以包含多个代理服务器的地址,确保每次请求时使用不同的IP地址,减少反爬的风险。随机 User-Agent:通过 get_random_user_agent() 函数,随机选择不同的 User-Agent,模拟不同的设备和浏览器请求,避免所有请求都来自同一个浏览器和设备标识。页面模拟真实用户行为:simulate_human_behavior(page) 模拟了用户滚动页面、延迟等行为,使爬虫行为更像真实用户。可以根据需求进一步扩展,加入点击、输入等行为。异步图片下载:在 download_image() 函数中,通过 aiohttp 异步下载图片到本地。代理设置:在创建浏览器上下文时(browser.new_context()),通过 proxy={"server": proxy} 设置代理服务器。每个上下文使用不同的代理和 User-Agent,模拟多样化的请求来源。浏览器视口大小:使用随机的浏览器窗口大小(viewport),增加请求的多样性。代理池改进建议:可以通过第三方代理提供商(如 Bright Data、Oxylabs、SmartProxy)获取大量高匿名代理,保证 IP 地址质量和访问速度。代理池的管理可以进一步优化,例如动态添加和移除不可用的代理,或者使用带有验证的代理(带用户名和密码的代理)。模拟行为改进建议:增加更多的用户操作,如随机点击页面中的链接、模拟表单输入等。利用 Playwright 的 mouse 和 keyboard 功能模拟更多人类行为,如键盘输入。你好,本来想帮你写个工具的,时间长没写过代码,有点生疏...太麻烦了
所以帮你找到了个网站
效果是这样的