在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行
新建一个content表
不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。
这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。
具体代码如下:
<"conn.php");
$id=(int)$_GET['id'];
$sql="select * from list where id=$id";
$result=mysql_query($sql);
$row=mysql_fetch_array($result);//取得对应的url地址
$content=file_get_contents($row['url']);
$pattern="/<dd class=\"dataWrap\">(.*)<\/dd>/iUs";
preg_match($pattern, $content,$info);//获取内容存放info
echo $title=$row[1]."<br/>";
echo $content=$info[0]."<hr/>";
//插入数据库
$add="insert into content(title,content) value('$title','$content')";
mysql_query($add);
$sql2="select * from list where id>$id order by id asc limit 1";
$result2=mysql_query($sql2);
$row2=mysql_fetch_array($result2);//取得对应的url地址
if($row2['id']){
echo "<script>window.location='content.php";
}
"theimg" onclick="window.open(this.src)" src="/UploadFiles/2021-04-02/2014730102245535.png">
这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。
标签:
PHP,采集,入库
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
白云城资源网 Copyright www.dyhadc.com
暂无“基于PHP的简单采集数据入库程序【续篇】”评论...
更新日志
2025年11月12日
2025年11月12日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]