一篇文章被抓取后会和数据库里面相关的主题-----再到相关的分类下,再细分最后和库里存在的文章相对比没有的话,就是原创。或者重复读不超过多少百分比;最直接的说就是说如果百度数据库里没有的它认为就是原创。
一、原创是有条件的,即百度收录之后的对比。
比如一个小网站发布了一篇原创文章,被新浪等权重较高的网站直接复制粘贴,标题内容丝毫不改新浪等高权重网站收录了而你的文章却没有收录。这时,你说哪个网站是原创。
二、回到题目,百度是怎么识别文章是原创的?
百度抓取你的文章之后,会将你文章的每个关键词生成一个相应的指纹与之前相似主题的文章关键词指纹进行对比。当发现核心关键词偏差比较大的时候,便会认为是原创。因此要注意在文章中布局自己的目标关键词,相关关键词在文章中也要多次出现。(此段纯属本人臆断)
三、原创的就一定好吗?
百度没有说你的文章必须要原创,只要符合用户体验的文章就是好文章。百度的字库通过对一些常用词的过滤后然后看主关键字出现的频率。应该在一点百分比比较合适就像关键字的百分比在百分之2-百分之8一样。当然肯定还会有相关文章对比如果其相识度超过百分60估计示为作弊。另外原创是效果不错,但是哪有这么多相关原创。
百度也没有说原创的就是最好的。要不国内最大的网站应该颁发给那些盗版小说网站(因为他们的小说收费都是手打出来的)这么多原创没有理由不上第一。
周明个人觉得百度对于原创的识别还需要完善的地方还有很多百度还有很长的一段路要走。