粤ICP备07016320号  广州青年志愿者协会医疗服务总队 www.gzyld.org.cn

位置:GZ医疗队公益纪实公益站长网络技术

dedecms3.1分页文字采集过滤规则详说(图)


来源:速得论坛      作者:速得论坛      时间:2008-02-22



下面进行分页匹配和过滤:

第一步:确定分页匹配代码
比较一下面四个图:
范例




目标

 

第四张图红圈里差了个“空格”,实际写代码的时候改过来。

通过比较上面的四张图,其实就是两个文件的分页代码区域。懒人懒办法、笨人笨办法:把与范例中最相似、相近,甚至相同的分页代码截留下来:
<td align='center' height='30'>首页 上页[var:分页区域]页次


如图:

 

至此,分页内容匹配进行完毕。

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:
{dede:trim}<td align='center' height='30'>(.*)页次{/dede:trim}


采集一下:


分页成功了,但废码多我,不行还得改!

看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):



写个完整的分页过滤规则:

{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}



再采集下,看看结果:



好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划

共3页: 上一页 1 2 3 下一页
自助功能
评论发表交流 投票求助搜索
    最 新 5 条 评 论     查 看 所 有 完 整 评 论 0 条
用 户 评 论 内 容 时 间

我来说上两句:)
 
   用户名:   
加 入 论 坛 讨 论 :

1.欢迎〖注册〗发布您的好文章,但拒绝讨论国家政党等敏感问题!

2.优秀文章一旦被收录将永久保存,允许含外部链接。

3.文章将由管理员放置到主页相应栏目,不定时发布。

  加入论坛讨论

你 更 想 了 解 什 么 ?
本队最新活动资讯
志愿者实用服务技术
医学基础医疗保健常识
公益经典故事与媒体
其它请到论坛发表
发 布 求 助 信 息 注 意 :

1.〖无需注册〗便可以在该区发表你的求助信息。

2.所有发布的求助信息会在7个工作日内审核。

3.本队提供的任何信息,均为参考意见,不负法律责任!

  发布求助信息

输入关键字:

热门词组:     压疮的预防与护理  压疮  预防压疮的护理