火车头伪原创内容出现【\h\】符号怎么办?
由于采集的目标网站的站长制作水平各不相同,经常出现html书写不规范、标签未闭合等情况,造成各种如题的异常情况。一般可以通过火车头采集规则的调整来解决异常问题。
问题:例如有网友出现伪原创内容有【\h\】符号。
附上目标站源码
文章采用了p、span、article以及div混排的方式,还包含了\r \n等特殊符号。
给该网友的解决方案:
一、默认会清除span标签,因此可在火车采集器规则中,将span替换为p标签。
<span(*)>[参数]</span> 替换为 <p>[参数1]</p>
二、出现【\h\】是因为插件未对/r /n等特殊换行符处理,因此可在火车头规则中,html标签清除中勾选 清除换行符。
感谢大家对AI伪原创的关注,后期可以举一反三,将目标网页稍加处理简洁后再进行伪原创处理。
火车头伪原创内容出现【\h\】符号怎么办?:等您坐沙发呢!