Hej,
Jakie biblioteki polecacie do pobierania danych ze stron internetowych (po selektorach css)? Znalazłam bibliotekę HTMLUnit, korzystał ktoś z tego?
Potrzebuję pobrać i zapisać wszystkie wątki z forum (nie 4programmers) :).
0
1
htmlunit nie używałem - ale mogę śmiało polecić jsoup. Prosta libka do scrapingu. Twój problem rozwiąże kilka linijek:
Document doc = Jsoup.connect("http://forum.pl").get();
Elements newPosts = doc.select("#post a");
for (Element post : newPosts ) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
Tutaj masz dokumentacje: jsoup.org
1
Selenium jest chyba standardem. Chociaż ja zaineresowałbym się Selenide, nakładką na Selenium, skracającą kod potrzebny do napisania
Update
Internety mówią że jsoup jest lepszy do statycznych stron (bo szybszy), a Selenium/Selenide do dynamicznych (ogarnia AXAJa itd)