文章自动采集器电脑版是一款强大的网页文章一键扫描提取软件,文章自动采集器PC客户端软件能够通过对比分析各大门户网站和大型搜索引擎来分析其内容特效,根据超文本协议的结构特点扫描提取其中的文章内容,使用起来高效便捷无广告,无论是什么网站的文章都可以进行高效的采集。
文章自动采集器PC客户端软件特色
1、百度新闻和网页.搜狗新闻和网页.360新闻和网页.谷歌新闻和网页.必备新闻和网页.雅虎;Batch关键词自动收集。
2、指定网站栏目列表下的所有文章均可定向收集,无需编写复杂规则即可智能匹配。
3、文章的翻译功能可以将收藏的文章翻译成英文,然后再翻译成中文,从而实现对伪原创文章的翻译,支持谷歌和有道翻译。
4、可自动提取任意网页的文本,准确率达95%以上,依托水苗软件独有的通用文本识别智能算法。
文章自动采集器PC客户端功能介绍
一、采集分页:如果正文有分页显示,则自动采集分页合并。
二、删除链接:删除网页中锚文本的链接功能,只留下锚文本的标题。
三、txt格式:保存成txt文本(自动清除HTML标签)。
四、调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以方便进入原网页对比正文识别效果。
五、标题有关键词:只有标题中包含搜索关键词的网页才采集。
六、放弃短标题:当自动识别的标题的长度低于原始标题三分之一时,即为短标题,通常这种标题是错误的,因此可以勾选放弃它,这样就使用原始标题(此段遇到时自会理解)。
七、删除外层代码:使用自动识别和精确标签时,通常都会包含div标签这样的外层代码,如果不需要,那就要打勾删除。
文章自动采集器PC客户端软件更新
修复关键词采集包含:等符号时没有转换导致保存失败问题
增加关键词采集异常退出后下次开始采集恢复进度
其它图标更新。
修复【列表页采集.地址.生成】在生成列表页时少了最后一页的问题
优化采集篇数的跳出逻辑
百家号采集时增加验证自动弹出
标题识别和正文识别的JSON路径取值增加先行解码功能
∨ 展开