rank是一个seo工具,用于分析网站的搜索引擎收录排名。
比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,OSCHINA博文抄袭检查的代码:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java ,该代码来自本人的rank项目。
值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭。本文仅仅利用了标题的包含这个简单的规则就取得了几乎是完美的结果。
下面我们分析OSCHINA博客:http://my.oschina.net/apdplat/blog 被抄袭的情况。
检查博文数目:130
1、2000个软件开发领域的高频特殊词及精选例句(二) 抄袭链接有(29)个
原文链接:http://my.oschina.net/apdplat/blog/389215
抄袭链接:
2、基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 抄袭链接有(9)个
原文链接:http://my.oschina.net/apdplat/blog/308396
抄袭链接:
3、给JAVA源代码文件统一地添加licence信息头 抄袭链接有(7)个
原文链接:http://my.oschina.net/apdplat/blog/396415
抄袭链接:
4、APDPlat的系统启动和关闭流程剖析 抄袭链接有(6)个
原文链接:http://my.oschina.net/apdplat/blog/197067
抄袭链接:
http://www.07net01.com/linux/APDPlatdexitongqidongheguanbiliuchengpouxi_705847_1391368623.html
http://www.fanli7.net/a/JAVAbiancheng/Spring/20140203/424600.html
5、Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同? 抄袭链接有(6)个
原文链接:http://my.oschina.net/apdplat/blog/396126
抄袭链接:
http://itindex.net/detail/46319-hadoop-%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F-hdfs
http://www.68idc.cn/help/buildlang/python/20150302242330.html
http://www.68idc.cn/help/buildlang/python/20150304246294.html
6、英语单词音近形似转化规律研究 抄袭链接有(6)个
原文链接:http://my.oschina.net/apdplat/blog/378569
抄袭链接:
7、动态索引结构和索引更新机制 抄袭链接有(5)个
原文链接:http://my.oschina.net/apdplat/blog/308393
抄袭链接:
8、new一个Object对象占用多少内存? 抄袭链接有(5)个
原文链接:http://my.oschina.net/apdplat/blog/208456
抄袭链接:
9、APDPlat的日志国际化实现方式 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/196605
抄袭链接:
10、APDPlat如何自动建库建表并初始化数据? 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/197703
抄袭链接:
http://www.bihuman.com/bbs/forum.php?mod=viewthread&tid=9770
http://www.csdn123.com/html/mycsdn20140110/26/2693fc2530f0e77efae315d9942626cf.html
11、Java开源项目cws_evaluation:中文分词器分词效果评估 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/308391
抄袭链接:
12、Java8全新打造,英语学习supertool 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/393187
抄袭链接:
13、中文分词算法 之 基于词典的正向最大匹配算法 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/209211
抄袭链接:
14、中文分词算法 之 基于词典的逆向最大匹配算法 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/210427
抄袭链接:
15、自动更改IP地址反爬虫封锁,支持多线程 抄袭链接有(4)个
原文链接:http://my.oschina.net/apdplat/blog/391088
抄袭链接:
16、nutch2.1+mysql报错及解决 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/397144
抄袭链接:
17、模拟浏览器的神器 - HtmlUnit 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/217586
抄袭链接:
18、配置Nutch模拟浏览器以绕过反爬虫限制 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/208457
抄袭链接:
19、Nutch的发展历程 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/397151
抄袭链接:
20、Hadoop发行版的比较与选择 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/397625
抄袭链接:
21、网络爬虫面临的挑战 之 链接构造 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/208716
抄袭链接:
22、Ubuntu上安装HADOOP多机完全分布式集群 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/397146
抄袭链接:
23、Cygwin运行nutch报错:Failed to set permissions of path 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/396698
抄袭链接:
24、使用JSoup+CSSPath采集和讯网人物信息 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/397143
抄袭链接:
25、APDPlat中数据库备份恢复的设计与实现 抄袭链接有(3)个
原文链接:http://my.oschina.net/apdplat/blog/196912
抄袭链接:
26、192本软件著作用词分析(五)用词最复杂99级 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/388816
抄袭链接:
27、Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/308400
抄袭链接:
28、QuestionAnsweringSystem v1.1 发布,人机问答系统 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/308392
抄袭链接:
29、30个JDK类库源代码中最频繁出现的词的深度分析 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/390615
抄袭链接:
30、对Nutch2.1抽象存储层的一些看法 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/396129
抄袭链接:
31、使用Java8实现自己的个性化搜索引擎 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/396193
抄袭链接:
32、配置Cygwin支持无密码SSH登陆 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/397057
抄袭链接:
33、技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向? 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/393810
抄袭链接:
34、CSDN博客飙升秘籍 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/197605
抄袭链接:
35、SOLR4.2+NUTCH1.6 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/397150
抄袭链接:
36、APDPlat中的机器码生成机制 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/197805
抄袭链接:
37、APDPlat中的用户密码安全策略 抄袭链接有(2)个
原文链接:http://my.oschina.net/apdplat/blog/207124
抄袭链接:
38、搜索引擎的分片(shard)和副本(replica)机制 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/308395
抄袭链接:
39、大数据系列9:Mahout – 机器学习 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396682
抄袭链接:
40、APDPlat中领域模型的自描述机制与事件通知机制 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/196973
抄袭链接:
41、APDPlat拓展搜索之集成ElasticSearch 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/197012
抄袭链接:
42、利用1189个精选句子彻底掌握2190个单词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/394941
抄袭链接:
43、英语单词后缀规则总结 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/379330
抄袭链接:
44、ITEYE博文抄袭检查 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396411
抄袭链接:
45、Java中文分词组件 - word分词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/228619
抄袭链接:
46、使用CountDownLatch来模拟马拉松比赛 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/385448
抄袭链接:
47、运行nutch提示:0 records selected for fetching, exiting 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396699
抄袭链接:
48、给LUKE增加word分词器 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/397069
抄袭链接:
49、Ubuntu上安装HADOOP单机伪分布式集群 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/397145
抄袭链接:
50、一个月的时间让你的词汇量翻一翻 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/379303
抄袭链接:
51、大数据系列12:Hadoop2 – 全新的Hadoop 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396685
抄袭链接:
52、英语单词前缀规则总结 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/378753
抄袭链接:
53、JAVA调用CSDN接口发博文 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/200145
抄袭链接:
54、大数据系列5:Pig – 大数据分析平台 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396584
抄袭链接:
55、APDPlat中业务日志和监控日志的设计与实现 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/196604
抄袭链接:
56、大数据系列8:Sqoop – HADOOP和RDBMS数据交换 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396681
抄袭链接:
57、中文分词算法 之 基于词典的正向最小匹配算法 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/217588
抄袭链接:
58、根据76大细分词性对单词进行归组(二) 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/393774
抄袭链接:
59、软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/311291
抄袭链接:
60、分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/392483
抄袭链接:
61、JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/394495
抄袭链接:
62、二百多部软件著作中最重要的9224个英语单词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/391023
抄袭链接:
63、大数据系列6:HBase – 基于Hadoop的分布式数据库 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396587
抄袭链接:
64、如何在你的应用中集成人机问答系统QuestionAnsweringSystem? 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/308397
抄袭链接:
65、大数据系列7:Storm – 流计算 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396589
抄袭链接:
66、JDK源代码中最重要的4646个英语单词 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/390915
抄袭链接:
67、大数据系列1:在win7上安装配置Hadoop伪分布式集群 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396579
抄袭链接:
68、APDPlat拓展搜索之集成Solr 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/197020
抄袭链接:
69、使用Java调用百度搜索 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/397129
抄袭链接:
70、大数据系列11:Gora – 大数据持久化 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/396684
抄袭链接:
71、使用Java调用谷歌搜索 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/397127
抄袭链接:
72、Windows上安装HADOOP单机伪分布式集群 抄袭链接有(1)个
原文链接:http://my.oschina.net/apdplat/blog/397147
抄袭链接:
73、分析151个后缀在各大考纲词汇中的作用(二)
原文链接:http://my.oschina.net/apdplat/blog/392465 无抄袭链接
74、分析996个词根在各大考纲词汇中的作用(二)
原文链接:http://my.oschina.net/apdplat/blog/391845 无抄袭链接
75、2000个软件开发领域的高频特殊词及精选例句(六)
原文链接:http://my.oschina.net/apdplat/blog/389632 无抄袭链接
76、192本软件著作用词分析(三)
原文链接:http://my.oschina.net/apdplat/blog/392498 无抄袭链接
77、word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
原文链接:http://my.oschina.net/apdplat/blog/228615 无抄袭链接
78、计算ITEYE博文在百度的收录与排名情况
原文链接:http://my.oschina.net/apdplat/blog/395970 无抄袭链接
79、3211个词及其反义词(一)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392954 无抄袭链接
80、192本软件著作用词分析(一)
原文链接:http://my.oschina.net/apdplat/blog/392496 无抄袭链接
81、2000个软件开发领域的高频特殊词及精选例句(五)
原文链接:http://my.oschina.net/apdplat/blog/389631 无抄袭链接
82、Amazon Dynamo的NWR模型
原文链接:http://my.oschina.net/apdplat/blog/393783 无抄袭链接
83、搜索引擎优化之语义标签 (microdata, microformats, RDFa)
原文链接:http://my.oschina.net/apdplat/blog/323243 无抄袭链接
84、OSCHINA博文抄袭检查
原文链接:http://my.oschina.net/apdplat/blog/396414 无抄袭链接
85、中文分词效果对比
原文链接:http://my.oschina.net/apdplat/blog/228614 无抄袭链接
86、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(三)
原文链接:http://my.oschina.net/apdplat/blog/392492 无抄袭链接
87、192本软件著作用词分析(二)
原文链接:http://my.oschina.net/apdplat/blog/392497 无抄袭链接
88、分析996个词根在各大考纲词汇中的作用(四)
原文链接:http://my.oschina.net/apdplat/blog/391848 无抄袭链接
89、大数据系列10:Spark – 内存计算
原文链接:http://my.oschina.net/apdplat/blog/396683 无抄袭链接
90、HBase on CAP
原文链接:http://my.oschina.net/apdplat/blog/397628 无抄袭链接
91、软件业的奥斯卡奖:JOLT奖 之 最好的书
原文链接:http://my.oschina.net/apdplat/blog/395681 无抄袭链接
92、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(五)
原文链接:http://my.oschina.net/apdplat/blog/392494 无抄袭链接
93、3211个词及其反义词(二)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392955 无抄袭链接
94、986组同义词辨析
原文链接:http://my.oschina.net/apdplat/blog/392944 无抄袭链接
95、2000个软件开发领域的高频特殊词及精选例句(一)
原文链接:http://my.oschina.net/apdplat/blog/389200 无抄袭链接
96、计算OSCHINA博文在百度的收录与排名情况
原文链接:http://my.oschina.net/apdplat/blog/395810 无抄袭链接
97、中文分词算法 之 词典机制性能优化与测试
原文链接:http://my.oschina.net/apdplat/blog/213968 无抄袭链接
98、3211个词及其反义词(三)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392956 无抄袭链接
99、分析151个后缀在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/392464 无抄袭链接
100、分析113个前缀在各大考纲词汇中的作用(二)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/392456 无抄袭链接
101、13054个词及其词义数
原文链接:http://my.oschina.net/apdplat/blog/393278 无抄袭链接
102、APDPlat中备份文件异地容灾机制之FTP上传
原文链接:http://my.oschina.net/apdplat/blog/197005 无抄袭链接
103、The Design of HDFS
原文链接:http://my.oschina.net/apdplat/blog/397149 无抄袭链接
104、分析151个后缀在各大考纲词汇中的作用(三)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/392466 无抄袭链接
105、Java应用系统中自动实时检测资源文件内容变化
原文链接:http://my.oschina.net/apdplat/blog/312609 无抄袭链接
106、分析996个词根在各大考纲词汇中的作用(五)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/391865 无抄袭链接
107、中文分词算法 之 基于词典的逆向最小匹配算法
原文链接:http://my.oschina.net/apdplat/blog/217589 无抄袭链接
108、运行nutch报错:unzipBestEffort returned null
原文链接:http://my.oschina.net/apdplat/blog/207653 无抄袭链接
109、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(二)
原文链接:http://my.oschina.net/apdplat/blog/392491 无抄袭链接
110、Nutch抓取需要登录的网站
原文链接:http://my.oschina.net/apdplat/blog/208723 无抄袭链接
111、分析996个词根在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/391840 无抄袭链接
112、APDPlat旗下10大开源项目,欢迎大家一起来参与
原文链接:http://my.oschina.net/apdplat/blog/395498 无抄袭链接
113、分析113个前缀在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/392448 无抄袭链接
114、根据76大细分词性对单词进行归组(一)
原文链接:http://my.oschina.net/apdplat/blog/393771 无抄袭链接
115、2000个软件开发领域的高频特殊词及精选例句(三)
原文链接:http://my.oschina.net/apdplat/blog/389621 无抄袭链接
116、在考纲词汇中利用复数规则找出的65个词
原文链接:http://my.oschina.net/apdplat/blog/393333 无抄袭链接
117、大数据系列4:Hive – 基于HADOOP的数据仓库
原文链接:http://my.oschina.net/apdplat/blog/396582 无抄袭链接
118、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(六)
原文链接:http://my.oschina.net/apdplat/blog/392495 无抄袭链接
119、2000个软件开发领域的高频特殊词及精选例句(七)
原文链接:http://my.oschina.net/apdplat/blog/389633 无抄袭链接
120、2000个软件开发领域的高频特殊词及精选例句(四)
原文链接:http://my.oschina.net/apdplat/blog/389630 无抄袭链接
121、词组习语3054组
原文链接:http://my.oschina.net/apdplat/blog/393374 无抄袭链接
122、大数据系列2:建立开发环境编写HDFS和Map Reduce程序
原文链接:http://my.oschina.net/apdplat/blog/396580 无抄袭链接
123、大数据系列3:用Python编写MapReduce
原文链接:http://my.oschina.net/apdplat/blog/396581 无抄袭链接
124、Java中的null引用,超乎你想象
原文链接:http://my.oschina.net/apdplat/blog/217587 无抄袭链接
125、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(四)
原文链接:http://my.oschina.net/apdplat/blog/392493 无抄袭链接
126、英语中有哪些前缀可以用来表示否定呢?
原文链接:http://my.oschina.net/apdplat/blog/389894 无抄袭链接
127、我的ITEYE和OSCHINA博客的异同(截止2015年4月8日)
原文链接:http://my.oschina.net/apdplat/blog/395494 无抄袭链接
128、803个词及其反义词(精选非考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392957 无抄袭链接
129、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一)
原文链接:http://my.oschina.net/apdplat/blog/392490 无抄袭链接
130、分析996个词根在各大考纲词汇中的作用(三)
原文链接:http://my.oschina.net/apdplat/blog/391847 无抄袭链接