个人笔记
blog.webpress.top

php将生成的HTML保存到服务器

最近制作了个导航页,导航页中有个获取豆瓣电影排行榜的板块

开始时直接写了个PHP爬虫,每个用户打开时都进行爬取。结果用户一多服务器就被豆瓣ban了。于是为了解决这个问题,我决定将php生成的静态缓存下来,通过定时任务每12h访问一次来获取最新排行榜。
代码如下,效果如如图一

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
<?php
// 打开输出缓冲区 //
ob_start();
?>

//爬取豆瓣
<!DOCTYPE html>
<html>
<meta charset="utf-8">
<style type="text/css">
table{ height: 345px; width: 245px; } td { border-bottom: 1px solid #eaeaea; } .title { width: 245px; } a:visited { color: #666699; text-decoration: none; } a:link { color: #37a; text-decoration: none; }
</style>
 
<body>
 <?php
//取得指定位址的內容,并储存至 $text  
$text=file_get_contents('https://movie.douban.com/');
//取出 div 标签且 id 为 PostContent 的內容,并储存至二维数组 $match 中
preg_match("/<div id="billboard".*?>.*?\<\/div>.*?\<\/div>.*?\<\/div>/ism",$text,$out1);
preg_match("/<\/div>.*?\<\/div>/ism",$out1[0],$out2);
preg_match("/<div class="billboard-bd".*?>.*?\<\/div>/ism",$out2[0],$out3);
//替换
$keywords = 'onclick="moreurl(this, {from:\'mv_rk\'})"';
//echo $keywords;
$out3 = preg_replace("/".preg_quote($keywords)."/", 'target="_blank"',$out3);
//打印出
echo($out3[0]);
?>
</body>
</html>


<?php
// 获取缓冲区内容并保存 //
file_put_contents('getdoubanmovie_auto.html', ob_get_contents());
ob_end_clean();
?>

代码模板如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
<?php
// 打开输出缓冲区 //
ob_start();
?>

/////////////////
//插入自己想缓存的内容
/////////////////
<?php
// 获取缓冲区内容并保存 //
file_put_contents('getdoubanmovie_auto.html', ob_get_contents());
ob_end_clean();
?>
赞赏

微信赞赏支付宝赞赏

未经允许不得转载:http://blog.webpress.top        WebPress » php将生成的HTML保存到服务器
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址