Biblioteka do pobierania zawartości stron

0

Hej,
Jakie biblioteki polecacie do pobierania danych ze stron internetowych (po selektorach css)? Znalazłam bibliotekę HTMLUnit, korzystał ktoś z tego?
Potrzebuję pobrać i zapisać wszystkie wątki z forum (nie 4programmers) :).

1

htmlunit nie używałem - ale mogę śmiało polecić jsoup. Prosta libka do scrapingu. Twój problem rozwiąże kilka linijek:

Document doc = Jsoup.connect("http://forum.pl").get();
Elements newPosts = doc.select("#post a");
for (Element post : newPosts ) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Tutaj masz dokumentacje: jsoup.org

1

Selenium jest chyba standardem. Chociaż ja zaineresowałbym się Selenide, nakładką na Selenium, skracającą kod potrzebny do napisania

Update
Internety mówią że jsoup jest lepszy do statycznych stron (bo szybszy), a Selenium/Selenide do dynamicznych (ogarnia AXAJa itd)

1 użytkowników online, w tym zalogowanych: 0, gości: 1