Các ví dụ về cạo Python Web (Beautifulsoup và Selenium) • Bài báo được dịch từ nguồn: Python web scraping

  Trong hướng dẫn này, chúng tôi sẽ nói về việc cạo web Python và cách cạo các trang web sử dụng nhiều thư viện cào Python như Beautifulsoup, Selenium, và một số công cụ ma thuật khác như PhantomJS.

  Bạn sẽ học làm thế nào để cạo các trang web tĩnh, các trang động (Ajax nạp nội dung), iframes, nhận các phần tử HTML cụ thể, cách xử lý cookie và nhiều thứ khác nữa.
  Cạo Python Web là gì?
  Cạo web thường là quá trình trích xuất dữ liệu từ web, bạn có thể phân tích dữ liệu và trích xuất thông tin hữu ích

  Ngoài ra, bạn có thể lưu trữ dữ liệu đã được cạo trong cơ sở dữ liệu hoặc bất kỳ loại định dạng bảng nào như CSV, XLS, v.v. để bạn có thể truy cập thông tin đó một cách dễ dàng.

  Dữ liệu đã được cạo có thể được chuyển tới một thư viện như NLTK để xử lý tiếp để hiểu nội dung của trang đang nói đến.

  Tóm lại, việc cạo web đang tải xuống dữ liệu web dưới định dạng có thể đọc được của con người để bạn có thể hưởng lợi từ nó.

  Lợi ích của Web Scraping

  Bạn có thể tự hỏi, tại sao tôi nên cạo web và tôi có Google? Vâng, chúng tôi không phát minh lại bánh xe ở đây. Cạo web không chỉ dành cho tạo công cụ tìm kiếm.

  Bạn có thể cạo các trang web của đối thủ cạnh tranh và phân tích dữ liệu và xem loại sản phẩm nào khách hàng của đối thủ cạnh tranh của bạn hài lòng với phản hồi của họ. Tất cả điều này cho MIỄN PHÍ.

  Một công cụ SEO thành công như Moz thu gọn và thu thập thông tin toàn bộ trang web và xử lý dữ liệu cho bạn để bạn có thể thấy được sự quan tâm của mọi người và cách cạnh tranh với những người khác trong lĩnh vực của bạn để trở thành hàng đầu.

  Đây chỉ là một số sử dụng đơn giản của web cạo. Dữ liệu bị cạo có nghĩa là kiếm tiền :).

  Cài đặt Beautifulsoup

  Tôi giả sử rằng bạn có một số nền trong cơ sở dữ liệu Python, vì vậy hãy cài đặt thư viện đầu tiên của Python web scraping của chúng tôi là BeautifulSoup.

  Để cài đặt Beautifulsoup, bạn có thể sử dụng pip hoặc bạn có thể cài đặt nó từ nguồn.

  Tôi sẽ cài đặt nó bằng cách sử dụng pip như thế này:
  $ pip install beautifulsoup4

  Để kiểm tra xem nó đã được cài đặt chưa, mở trình soạn thảo của bạn và gõ như sau:
  from bs4 import BeautifulSoup
  Sau đó chạy nó:
  $ python myfile.py
  Nếu nó chạy mà không có lỗi, có nghĩa là BeautifulSoup đã được cài đặt thành công. Bây giờ, hãy xem làm thế nào để sử dụng Beautifulsoup.

  Máy cạo đầu web đầu tiên của bạn

  Hãy xem ví dụ đơn giản này, chúng tôi sẽ trích xuất tiêu đề trang bằng cách sử dụng BeautifulSoup:

  
  from urllib.request import urlopen
   
  from bs4 import BeautifulSoup
   
  html = urlopen("https://www.python.org/")
   
  res = BeautifulSoup(html.read(),"html5lib");
   
  print(res.title)
  

  Chúng tôi sử dụng thư viện vacationen để kết nối với trang web mà chúng ta muốn, sau đó chúng ta đọc HTML trả về sử dụng phương thức html.read ().

  HTML trả về được chuyển đổi thành một đối tượng BeautifulSoup có cấu trúc có tính phân cấp.

  Điều đó có nghĩa là nếu bạn cần trích xuất bất kỳ phần tử HTML nào, bạn chỉ cần biết các thẻ xung quanh để lấy nó như chúng ta sẽ thấy sau đó.

  Xử lý ngoại lệ HTTP

  Vì bất kỳ lý do nào, urlopen có thể trả lại một lỗi. Nó có thể là 404 nếu trang không được tìm thấy hoặc 500 nếu có một lỗi máy chủ nội bộ, vì vậy chúng ta cần tránh lỗi kịch bản bằng cách sử dụng xử lý ngoại lệ như sau:

  from urllib.request import urlopen
   
  from urllib.error import HTTPError
   
  from bs4 import BeautifulSoup
   
  try:
   
    html = urlopen("https://www.python.org/")
   
  except HTTPError as e:
   
    print(e)
   
  else:
   
    res = BeautifulSoup(html.read(),"html5lib")
   
    print(res.title)
  

  Tuyệt vời, nếu máy chủ bị lỗi hoặc bạn gõ sai tên miền?

  Xử lý ngoại lệ URL

  Chúng ta cần phải xử lý những trường hợp ngoại lệ này. Ngoại lệ này là URLError, vì vậy mã của chúng tôi sẽ như sau:

  from urllib.request import urlopen
   
  from urllib.error import HTTPError
   
  from urllib.error import URLError
   
  from bs4 import BeautifulSoup
   
  try:
   
    html = urlopen("https://www.python.org/")
   
  except HTTPError as e:
   
    print(e)
   
  except URLError:
   
    print("Server down or incorrect domain")
   
  else:
   
    res = BeautifulSoup(html.read(),"html5lib")
   
    print(res.titles)
  

  Vâng, điều cuối cùng chúng ta cần phải kiểm tra là thẻ trả lại, bạn có thể gõ sai thẻ hoặc cố gắng cạo một thẻ không được tìm thấy trên trang đã được cạo và điều này sẽ trả lại đối tượng Không, vì vậy bạn cần phải kiểm tra đối tượng None.

  Điều này có thể được thực hiện bằng cách sử dụng câu lệnh if đơn giản như sau:

  from urllib.request import urlopen
   
  from urllib.error import HTTPError
   
  from urllib.error import URLError
   
  from bs4 import BeautifulSoup
   
  try:
   
    html = urlopen("https://www.python.org/")
   
  except HTTPError as e:
   
    print(e)
   
  except URLError:
   
    print("Server down or incorrect domain")
   
  else:
   
    res = BeautifulSoup(html.read(),"html5lib")
   
    if res.title is None:
   
      print("Tag not found")
   
    else:
   
      print(res.title)
  

  Tuyệt vời, cạo của chúng tôi đang làm việc tốt. Bây giờ và chúng tôi có thể cạo toàn bộ trang hoặc cạo một thẻ cụ thể.

  Tôi hy vọng bạn thích nó.
  Chúc may mắn.


Hãy đăng nhập để trả lời
 

Có vẻ như bạn đã mất kết nối tới LaptrinhX, vui lòng đợi một lúc để chúng tôi thử kết nối lại.