AC自动机的python实现。AC自动机是结合Trie树和KMP的多模式匹配的实现。相对于KMP只能处理单个单词的查找,AC自动机通过构建Trie树和其fail指针的方式来对当前匹配失败的字符进行下一步的匹配,减少了时间复杂度,加快程序运行。
一些特殊的网站,比如漫画网站,并没有对图片做访问登陆的限制,并且图片访问呈现一定的规律性,就可以通过编程简单爬虫的手段下载。在这边我上传了一个我下载哈哈漫画的示例程序,有兴趣的童鞋可以看看。
SFTGAN是截至到目前在本研究部门内部研究发现的最好的和最优的超分辨放大算法,当然算法都是针对某一个领域,某一个方向的。SFTGAN发现是在艺术画的放大生成过程中是最好的。而ESRGAN在现实生活图片,真实照片上的放大效果比较突出,尤其是颜色比较集中的情况下。以下内容是SFTGAN的测试用例和为了方便使用改写的测试代码。
采用多进程多线程的方式进行特征融合和SVM训练的工作。算法中采用得到的是Sklearn的SVC框架,可以设置gridSearch来控制进程的数量,当然如果多个特征文件的多个组合任务时候。可以用本代码的内容。
本文采用的是tensorflow的eager执行方式对风格迁移算法实现单张图片作为target的训练和测试的过程,由于采用此种的方式的是动态图的实现,因此可以在Jupyter notebook上运行,以下内容是jupyter上的运行结果。
The string "PAYPALISHIRING" is written in a zigzag pattern on a given number of rows like this you may want to display this pattern in a fixed font for better legibility
google搜索出来的google images的图片爬取工作。由于google跟百度采用的是不一样的方式呈现图片的形式,google还给出了图片相似性计算的结果。因此额外也写了一个爬取google图片urls的代码。用到了 Selenium。
采用的是瀑布流的形式展现图片内容,无需用户翻页,新的图片不断自动加载在页面底端,让用户不断的发现新的图片。Pinterest堪称图片版的Twitter,网民可以将感兴趣的图片在Pinterest保存,其他网友可以关注,也可以转发图片。索尼等许多公司也在Pinterest建立了主页,用图片营销旗下的产品和服务。本文实现了对Pinterest图片的爬取工作。
在爬虫需要桌面的情况下,如果我们使用的是终端的Linux服务器,此时就会陷入两难的境地。因为可以采用模拟桌面的情况来进行一个虚拟桌面的设置,该种情况可以考虑成一个没有硬件资源的虚拟桌面,人是看不到的。但是符合程序运行的需求就可以。
之前介绍了自己编写的多进程多线程实现,发现Scrapy这个框架更好,它拥有多线程的速度,并且会提示你有哪些图片没有爬取下来,完成了多少张图片的爬取之类的信息,而且使用起来非常方便,可以直接pip安装。