采集是99%网站更新的第一生产力。但是正则规则不是这么好学,采集工具也没有特别好用,所以我开发了这款泛采集程序。

只需定义你想要采集的网页地址,它会自动返回网站的标题,关键词和内容,并且帮你洗去html标签和源网站的信息。成功率在90%以上,但是并不适用于用javascript生成内容的网站。

程序用python编写,使用了jieba, beautifulsoap这两个包,运行环境在windows和mac下通过,直接调用jwfcj这个函数就行。

缺点是目前仅支持中文网页。

github地址:https://github.com/billyfish152/universal-collector