自助建站软件_揭阳网站制作_网站 模板_肇庆网站建设 开发语言:Java语言

">

嘉兴网站建设

武汉网站建设企业、免费网站制作平台、永久使用、不限域名、徐州网站建设

常德网站建设?

自助建站软件_揭阳网站制作_网站 模板_肇庆网站建设

  • 吸引蜘蛛
    1. 权重高的网站
    2. 页面更新快
    3. 导入链接
    4. 与首页点击距离,离首页点击距离越近,页面权重越高,被爬行的机会越大
  • 站长可通过搜索引擎网页提交表格来提交网址
  • 遇到权重很低的网站上大量转载内容时,很可能不再继续爬行
  • 预处理的过程
    1. 提取文字部分
    2. 中文分词(基于词典或统计)
    3. 去停止词(的,地,得,呵,哈,呀,从而,以,却, the,a,an, to , of)
    4. 去除页头,页脚,广告,版权等信息
    5. 去重(同一文章只保留一份,原创),通常选取10个特征关键词就可以达到比较高的计算准确性,再选更多意义不大
    6. 正向索引,即对一个文章的关键词加索引,同时记录特征(出现次数,格式,位置)
    7. 倒排索引(每一个关键字对应一系列文件,便于搜索)
    8. 链接关系计算
    9. 处理特殊文件(pdf,图片,视频)
  • 搜索引擎最多只列出排名前1000的结果
  • 相关性计算(页面与用户搜索词的相关程度)
    1. 搜索引擎根据常用程度对关键词进行加权,不常用的词加权系数高
    2. 搜索词在页面中出现的次数多,密度越高,说明越相关
    3. 关键词出现在标题,黑体,h1等,越相关
    4. 关键词完整出现比分散出现更相关,如"减肥方法" "减肥" "方法"
    5. 链接分析及页面权重
  • 链接因素已经超过页面内容的重要性
  • site命令可以查看本站有多少网页被收录
黄浦网站建设大良网站建设dwxw珠海网站制作公司长沙网站设计公司网站建设哪个公司好软件app定制开发移动端网站制作商业网站模板永康网站建设苏州企业网站建设网页制作公司南京网站建设石家庄网站设计怀化网站建设网站建设制作多少钱东莞个人网站制作西安企业网站建设金融app开发广州门户网站制作网页制作网站建设代理企业自助建站软件做企业网站分销网站建设门户网站开发中山小程序开发网站建设广告丹阳网站建设深圳外贸网站建设手机网站建设重庆网站制作

猜你喜欢