平安鸡 发表于 2024-6-28 11:59:48

线上公开课 网站抓取建设指南 内容整理

蜘蛛抓取原来大部分老站长都是知道的,课程后面有一些问答,感觉更多站长比较关注的。
视频回看地址:http://live.baidu.com/m/media/pc ... 794798&source=h5pre
------正文-----

1、百度爬虫工作原理

2、抓取友好性优化
·URL规范
。·合理发现链路

Q:资源提交是不是越多越好?

Q:为什么提交了普通收录但没有抓?



·访问友好性
抓取器和网站要进行交互,要保证服务器稳定。


访问速度优化
两个建议,第一点 加载时间,建议控制在两秒以内加载,会有一定程度的优待。
第二点 避免非必要的跳转,而且多级跳转也会影响加载速度。


规范http返回码

301/302区别?正确使用 404的返回码?
--参考规范: https://developer.mozilla.org/en-US/docs/Web/HTTP/Status
--DNS解析:建议中文网站尽可能使用国内大型服务商提供的DNS服务,以保证站点的稳定解析,有些dns服务商尤其是国外的,可能会封禁国内解析请求。



--爬虫封禁︰
·慎重使用技术手段封禁爬虫抓取
·期望搜索引擎不展现特定资源(不想让蜘蛛爬取特定资源):建议采用robots屏蔽方式
·期望限制爬取频率(蜘蛛爬取量过多):建议通过资源平台工具设置
·警惕误封禁,例如第三方防火墙服务封禁爬虫访问


--服务器负载稳定︰
·特别在短时间内大量提交优质资源后,关注服务器稳定,真的很优质且量大的内容,蜘蛛爬取频次会很高的。


.百度爬吧虫识别
https://ziyuan.baidu.com/college/articleinfo?id=2855


抓取频次的高低和网站收录是否有联系?





问答环节

新站会不会有固定的抓取次数?



如何让百度知道你是一个新建的站点?



每个站点蜘蛛的抓取配会不会有调整?大约多久会调整一次?有没有固定时间?




网站将网站降权能否恢复?



新站点是否有考核期?


百度对于国外服务器和国内的服务器是否会有区别对待?




如果新站用一个老域名,会不会比用新域名更有优势?




同一篇文章站内URL跟百度收录的URL不一样,收录的URL是404?
详细链接和关键词反馈。


蜘蛛是否有权重IP之分?



网站最近不收录有没有建议?



往期内容:
内容质量之稀缺性探索以及对网站质量是否有提升?
整理线上公开课主要整理收录/索引/排名/新站等解答
线上公开课死链接处理相关
线上公开课网站数据生产指南,问答整理
2020年8月 搜索算法规范详解

2020年8月线上公开课:优质内容指南解读整理
2020年10月线上公开课:搜索常见问题解决指南整理
2020年9月搜索基础知识合集内容整理
2020年8月 落地页体验白皮书解读 内容整理
线上公开课 网站抓取建设指南 内容整理
线上公开课 搜索体验系列解读 内容整理
线上公开课“避雷”必知的二三事

“用户需求”的判定方式
“用户需求”深度分析理解!
七月站点诊断,个人经验解释并分享新站点收录排名前期注意

网站被黑处理以及查找本身存在后门方法!
网站被黑处理方法,适合技术不好的站长
解决百度统计被刷恶意广告行为!
尽可能杜绝被采集的技术层面处理方法

4414站长论坛 发表于 2024-6-28 12:00:10

干货满满,辛苦版主大人了,学习中

ROBOT 发表于 2024-6-28 12:00:46

不错不错!

ROBOT 发表于 2024-6-28 12:00:53

:):):):):):):):):):)

4414站长论坛 发表于 2024-6-28 12:00:58

不清楚

阿健 发表于 2024-6-28 12:01:38

学习学习了

阿健 发表于 2024-6-28 12:02:12

干货满满,辛苦版主大人

4414站长论坛 发表于 2024-6-28 12:03:07

刚刚发的啊!

平安鸡 发表于 2024-6-28 12:03:54

我要看一下!

阿健 发表于 2024-6-28 12:04:18

最勤劳的版主:lol
页: [1]
查看完整版本: 线上公开课 网站抓取建设指南 内容整理