Java访问HTTP服务器和FTP服务器的方法-创新互联

这篇文章主要为大家分享Java访问HTTP服务器和FTP服务器的方法。在实现访问的过程还讲解了各类软件或工具的使用方法,希望大家通过这篇文章能有所收获。

成都创新互联主要从事网站制作、网站设计、网页设计、企业做网站、公司建网站等业务。立足成都服务石台,10年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

一、用Java Socket访问HTTP服务器

通过Socket访问HTTP服务器,需要了解具体的HTTP协议通信细节,由Socket获得输入流和输出流,然后通过输入流发送HTTP请求数据,通过输出流读取HTTP响应结果。程序得到了HTTP响应结果后,需要对响应头和响应正文进行解析。

这是最原始的方法,給程序员提供了很灵活地发挥空间,可以炮制各种各样的HTTP请求数据。缺点是处理HTTP响应结果比较麻烦。尤其是现在许多网站发回的数据会先进行gzip压缩。客户端得到了这样的数据后,还需要进行解压,才能得到真实的数据。

这种方法的使用技巧和范例请参考 用Java套接字访问HTTP服务器读取网页数据

二、用java.net.URL等类访问HTTP服务器

URL类以及其相关的URLConnection类称为客户端协议处理框架,它对原始的HTTP通信细节进行了封装。程序员只需要提供一个URL地址,就能发送HTTP请求数据以及读取HTTP响应结果。如果服务器端对HTML文档进行了gzip压缩,客户端协议处理框架会对HTML文档进行解压,再作为响应结果的正文返回給客户程序,这是比直接用Socket读取HTML文档更省力的地方。

以下getByteSource()方法能根据给定的URL地址,返回相应的响应结果的正文部分的字节流,以byte[]形式返回。

 public static byte[] getByteSource(String  urlStr)throws IOException{
   URL url=new URL(urlStr);

   HttpURLConnection.setFollowRedirects(true);  //设置允许重定向
   //此处创建URLConnection对象时,并不会进行真实地与HTTP服务器的连接,
   //只有当调用URLConnection的connect()方法,或者发送HTTP请求以及读取HTTP响应结果时才会连接服务器
   URLConnection connection=url.openConnection();  
   connection.setConnectTimeout(60000); //设置连接超时时间为60秒
   connection.setReadTimeout(60000);  //设置读取数据超时时间为60秒

   //演示设置HTTP请求头部的信息
   connection.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36");
   connection.setRequestProperty("Connection","keep-alive");
   connection.setRequestProperty("Content-Type","text/plain;charset=UTF-8");
   connection.setRequestProperty("X-Buffalo-Version","2.0-alpha3");
   connection.setRequestProperty("Sec-Fetch-Mode","cors");
   connection.setRequestProperty("Accept"," */*");
   connection.setRequestProperty("Sec-Fetch-Site","same-origin");
   connection.setRequestProperty("Accept-Encoding","deflate, br");
   connection.setRequestProperty("Accept-Language","zh-CN,zh;q=0.9");  

  //演示遍历访问响应结果的头部信息
  Map> headers=connection.getHeaderFields();
  Set keySet=headers.keySet();
  for(String key:keySet){
    //响应头中的每一项可能有多个取值,此处仅打印第一个取值
   System.out.println(key+":"+headers.get(key).get(0));
  }

  //读取响应头部的特定项的值
  String location=connection.getHeaderField("Location");

   //读取响应正文的数据
   InputStream in=connection.getInputStream();
   ByteArrayOutputStream buffer=new ByteArrayOutputStream();
   byte[] buff=new byte[1024];  
   int len=-1;

   while((len=in.read(buff))!=-1){
    buffer.write(buff,0,len);
   }

   return buffer.toByteArray();
  }  

以下getStringSource()方法演示获得HTML文本数据。它利用上面的getByteSource()方法得到HTTP响应正文的字节流,再把它包装成一个字符串对象。需要指定响应正文的字符编码。

 public static String getStringSource(String urlStr,String encode)throws IOException{
   byte[] buffer=getByteSource(urlStr);
   String data=new String(buffer,tencode);
   return data;  //把字节数组转换为字符串
  }

客户端协议处理框架的更多使用技巧和范例请参考 用java.net.URL类访问HTTP服务器读取网页数据

三、用Selenium软件API访问HTTP服务器

Selenium是一个专业的爬虫软件。它支持Java和Python等语言。当通过上述java.net.URL类来读取网站的HTML文档时,有时候读到的仅仅是JavaScript脚本,而真正的HTML文档需要运行JavaScript才能获得。Selenium能够利用Chrome浏览器或者是FireFox浏览器的驱动程序来启动浏览器,由浏览器执行JavaScript脚本,然后返回真实的HTML文档。
Selenium具有以下优势:
(1)利用浏览器动态执行JavaScript脚本的功能,获得真正要访问的HTML文本数据。
(2)对HTML文档进行了DOM(文档对象模型)建模,可以方便地访问HTML文档中各个元素的属性。

关于用Selenium获取HTML文档的方法和范例请参考:Java版Selenium使用chrome driver抓取动态网页

Selenium读取和处理HTML文档比较方便,但是目前在抓取网页图片方面比较麻烦。一种做法是先把整个网页进行截屏,得到一个图片。然后截取特定元素在整个图片中所在的区域,获得元素所对应的图片。这种做法的缺点是: 如果对网页的截屏的大小取决于电脑屏幕的大小。对于需要通过滚动屏幕才能显示的网页部分内容,则不能一次性截屏。

对于不在截屏图片范围内的元素,如果试图截取这个元素对应区域的图片,程序会抛出Outside of Raster的异常。

关于用Selenium截取网页图片以及特定元素的图片的方法和范例请参考: Java版Selenium 截取网页上特定元素的图片的方法

如果用Selenium来抓图比较方法,还可以使用java.net.URL或者Apache HttpClients来抓图。关于把Selenium和java.net.URL类结合使用,来读取HTML文档以及下载文档中元素指定图片的方法,请参考: 用Selenium 爬虫API和java.net.URL类保存网页上的图片

使用Selenium的另一个缺点是比较“笨重”,必须安装Chrome浏览器,下载对应的Chrome驱动器程序,提供Selenium的多个类库文件。

四、用Apache HttpClients下载网上的图片等各种数据

用java.net.URL来下载图片数据时,如果HTTP服务器端对图片数据进行了重定向,或者进行了特殊格式的压缩,有时还是无法获取正确的原始图片数据。在这种情况下,可以使用Apach HttpClients API。

关于用Apache HttpClients来下载各种网页数据的方法,请参考: 用Apache HttpClients下载网上的图片等各种数据

在实际应用中,可以利用Selenium来读取需要动态执行JavaScript脚本的网页,用Apache Clients来下载网页中的图片等数据,这样会解决抓取数据中遇到的各种障碍。

五、用Apache FTPClient访问FTP服务器

Java程序除了要访问HTTP服务器,还需要访问FTP服务器。Apache FTPClient API提供了访问FTP服务器的各种功能,包括:

  • 下载和上传文件
  • 浏览FTP服务器端的文件信息
  • 在远程FTP服务器上创建或删除文件以及目录

看完这篇文章,你们学会使用Java访问HTTP服务器和FTP服务器的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注创新互联行业资讯频道,感谢各位的阅读。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


文章题目:Java访问HTTP服务器和FTP服务器的方法-创新互联
网址分享:http://pwwzsj.com/article/popso.html