Wyobraź sobie wczesny poranek, kiedy popijasz filiżankę gorącej świeżej kawy, a komputer odczytuje Ci najnowsze nagłówki — wszystko samodzielnie. Czy to nie brzmi niesamowicie?

Cóż, za pomocą Pythona możesz zbudować swój własny, spersonalizowany czytnik grup dyskusyjnych, który odczyta dla Ciebie wszystkie najważniejsze nagłówki wraz z ich fragmentami. Tak to prawda. Używając odpowiednich bibliotek, możesz sprawić, że Python wykona wszystkie poranne czynności, bez konieczności samodzielnego czytania każdego słowa.

Oto, jak możesz napisać ten kod i dostosować go do swojej ulubionej witryny z wiadomościami.

Warunki wstępne uruchomienia kodu

Zanim wskoczysz i zaczniesz pisać kod, musisz spełnić kilka warunków wstępnych. Oto kilka bardzo podstawowych wymagań, które mogą sprawić, że korzystanie z Pythona będzie łatwiejsze i bardziej efektywne.

  1. Pyton: Zainstalowanie najnowszej wersji Pythona byłoby dobrą decyzją. Aby uzyskać najlepsze wyniki, możesz zainstalować dowolne IDE Pythona.
  2. Strona z wiadomościami/dostęp do internetu:
    instagram viewer
    Ponieważ kod Pythona odczytuje nagłówki z Twojej ulubionej witryny, musisz upewnić się, że możesz uzyskać dostęp do witryny podczas uruchamiania tego kodu.

Cały kod jest napisany w Jupyter Notebook, popularnym IDE Pythona dla tego przewodnika. Dodatkowo, w przykładowym kodzie zakodowana jest strona z wiadomościami India Today.

Aby pobrać Jupyter Notebook, możesz użyć go jako części pakietu anakondy lub pobrać samodzielną wersję na swój system.

Pobierać:Anakonda | Notatnik Jupytera

Bez dalszych ceregieli zagłębmy się w kod.

Pisanie kodu w Pythonie

Na początek musisz zaimportować kilka bibliotek Pythona, z których każda służy innym celom.

importuj win32com.client jako wincl
z urllib.request zaimportuj urlopen jako ureq
z bs4 importuj BeautifulSoup jako zupę
sp = wincl. Wyślij("SAPI.spGłos")

Gdzie:

  • win32com.klient: Ta biblioteka współpracuje z urządzeniami Windows i bezproblemowo uruchamia programy w języku Python.
  • urllib.żądanie: Ta biblioteka obsługuje wartości URL z modułu żądania.
  • bs4: Biblioteka BS4 zawiera funkcję Beautiful Soup, która pobiera dane ze stron internetowych za pomocą Pythona.
  • sp = wincl. Dispatch("SAPI.spVoice"): Aktywuj polecenia głosowe w systemie Windows.

Ten kod będzie działał tylko w systemie Windows, ponieważ będziesz wywoływał bibliotekę win32.com.client.

Następnie należy zdefiniować adres URL (link) strony w ramach adres URL zmienna, która jest przechowywana w pamięci Pythona.

adres URL = https://www.indiatoday.in/top-stories

Utwórz nową zmienną klienta do przechowywania polecenia otwierania adresu URL.

klient = ureq (url)
druk (klient)

gdzie:

  • klient: Nowa zmienna.
  • ureq: Funkcja Pythona zaimportowana z urllib.request, która otwiera zapisany adres URL.

Ponieważ otworzyłeś adres URL w pamięci, nadszedł czas, aby sprawdzić, czy dana witryna internetowa umożliwia niezabezpieczone połączenia za pośrednictwem Pythona. Możesz wydrukować zmienną klienta i sprawdzić dane wyjściowe.

Polecenie drukowania daje dwie możliwości:

  • Błąd HTTP: Gdy witryna jest bezpieczna, nie możesz zeskrobać zawartości za pomocą Pythona.
  • Fragment kodu: Jeśli fragment kodu zostanie zwrócony po uruchomieniu witryny, załóż, że możesz łatwo wyciągnąć nagłówki.

Po zdefiniowaniu adresu URL strony z wiadomościami w poleceniu URL nadszedł czas, aby zaimportować kod HTML do zmiennej.

page_html = klient.odczyt()
drukuj (strona_html)

W ramach ostrożności musisz wydrukować kod HTML witryny zaimportowany do Pythona. Możesz nawet dopasować ten kod do kodu strony dostępnej pod Sprawdzać opcja.

Przed konwersją kodu musisz zamknąć witrynę z pamięci Pythona za pomocą polecenia close.

klient.zamknij()

Ponieważ masz kod HTML zaimportowany do zmiennej Pythona, musisz przekonwertować go na format czytelny w Pythonie, aby zastosować znajdować oraz Znajdź wszystko polecenia do wyszukiwania słów kluczowych.

Możesz przekazać następujące polecenie, aby przekonwertować kod HTML:

page_soup = zupa (page_html, "html.parser")

Gdzie:

  • page_soup: Nowa zmienna.
  • zupa: Alias ​​dla Piękny moduł zupy.
  • page_html: Zmienna zawierająca kod HTML ze strony.
  • html_parser: Domyślna składnia do konwersji kodu HTML.

Gdy kod jest gotowy do użycia, nadszedł czas na sprawdzenie kodu HTML witryny, aby rozpocząć wyszukiwanie słów kluczowych nagłówków.

Aby to zrobić, kliknij prawym przyciskiem myszy w dowolnym miejscu witryny i kliknij Sprawdź. Spowoduje to otwarcie kodu HTML danej witryny.

W oknie kodu witryny przewijaj, aż znajdziesz tagi kontenera, które przechowują nagłówki.

Są one zawarte w zobacz-treść tagi w witrynie India Today. Kontenery każdej witryny z wiadomościami są różne, ale powinieneś być w stanie stosunkowo łatwo poruszać się po kodzie.

artykuły = page_soup.find("div", { "class": "view-content" })

Na koniec musisz przechwycić tagi podrzędne, które zawierają główne nagłówki, które odczyta ci Python.

artykuły = artykuły.findAll("div", {"class": "katagoria-lista"})

Kontener zawartości widoku będzie zawierał wiele nagłówków, czyli zewnętrzną powłokę nagłówków.

Aby przechwycić tagi H2 i fragmenty wymienione przy każdym nagłówku, musisz uruchomić pętlę.

ja = 1
dla x w artykułach:
title = x.find("h2").text
para = x.find("p").text
drukuj (i, tytuł, "
", "
", para, "
", "
")
sp. z o.o. Mów (tytuł)
sp. z o.o. Mów (para)
i=i+1

Gdzie:

  • i: Nowa zmienna licznika, która będzie automatycznie zwiększana.
  • tytuł: Nowa zmienna do zapisania nagłówka (h2).
  • paragraf: Nowa zmienna do przechowywania akapitów powiązanych z każdym H2.
  • wydrukować: Tytuł nagłówka i paragraf zostaną wydrukowane w interfejsie Pythona.
  • sp. z o.o. Mów (tytuł): Python odczyta każdy zapisany tytuł.
  • sp. z o.o. Mów (para): Python odczyta każdy zapisany fragment akapitu.
  • i = i+1: To polecenie automatycznie zwiększa numer seryjny powiązany z każdym nagłówkiem wyświetlanym w interfejsie Pythona.

Używanie modułu „Piękna zupa” Pythona do czytania codziennych wiadomości

Za każdym razem, gdy uruchomisz kod, przed odczytaniem na głos zostaną pobrane nowe nagłówki z witryny z wiadomościami. Python wykonuje kod za każdym razem, gdy uruchamiasz zestaw kodów, dzięki czemu jesteś na bieżąco ze zmianami na stronie.

Starsze nagłówki będą nadal wyświetlane i odczytywane przez Pythona, dopóki nie odświeżysz i ponownie uruchomisz kodu.

Używanie Pythona do odczytywania codziennych nagłówków jest łatwe

Python, jako język open-source, oferuje szereg narzędzi, takich jak Beautiful Soup, Selenium i inne frameworki — zarówno początkującym, jak i zaawansowanym użytkownikom.

Jeśli chcesz otrzymywać wiadomości głosowe, Python ułatwia to. Nauka tego konkretnego języka może również pomóc ci stać się lepszym programistą we wszystkich obszarach.

10 przydatnych narzędzi dla programistów Pythona

Niezależnie od tego, czy potrzebujesz narzędzi Pythona do nauki o danych, uczenia maszynowego, tworzenia stron internetowych, czy czegokolwiek pomiędzy, ta lista Cię obejmuje.

Czytaj dalej

DzielićĆwierkaćE-mail
Powiązane tematy
  • Programowanie
  • Pyton
  • Aktualności
  • Porady komputerowe
  • Programowanie
O autorze
Gaurav Siyal (56 opublikowanych artykułów)

Gaurav Siyal ma dwuletnie doświadczenie w pisaniu dla szeregu firm zajmujących się marketingiem cyfrowym i dokumentach dotyczących cyklu życia oprogramowania.

Więcej od Gaurava Siyala

Zapisz się do naszego newslettera

Dołącz do naszego newslettera, aby otrzymywać porady techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Kliknij tutaj, aby zasubskrybować