网站首页 > java教程正文

编写Java网络爬虫（java 写爬虫）

temp10 2024-09-09 08:30:16 java教程 57 ℃ 0 评论

下面是一个简单的Java网络爬虫示例：

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.IOException;

public class WebCrawler {

public static void main(String[] args) {

String url = "https://example.com"; // 要爬取的网页URL

try { // 使用Jsoup库获取网页内容

Document doc = Jsoup.connect(url).get(); // 使用CSS选择器选择需要的内容

Elements links = doc.select("a[href]"); // 获取所有链接 // 遍历链接并打印

for (Element link : links) {

System.out.println(link.attr("href"));

}

} catch (IOException e) {

e.printStackTrace();

}

请注意，爬取网页数据时需要遵守网站的使用规则和法律法规，不要进行非法的爬取行为。在实际开发中，还需要考虑多线程、数据存储、异常处理等方面的问题。此外，还可以使用一些高级的爬虫框架，如WebMagic、Jsoup-Plus等来简化爬虫的开发过程。