Posts

这个是Posts目录

新浪滚动新闻爬虫

新浪滚动新闻按日期爬虫脚本本文参考知乎专栏文章 https://zhuanlan.zhihu.com/p/71925619 新浪的滚动新闻链接是 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1，这个滚动新闻页如果要爬取新闻标题，#pageid=153&lid=2509&k=&num=50&page=1 是用于在 news.sina.com.cn/roll/ 这个页面内定位特定位置或执行某些客户端脚本的信息，而不是用于向服务器请求不同的内容。 # 开头的 URL 是前端 hash router生成的虚假链接，用这个构造url是请求不了的。新闻是动态加载进去的，通过像后端发请求，后端返回一个json回来，再加载出新闻页面。用f12监控网络请求，会发现选择某个日期时，都发送了这样的请求：https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2516&etime=1746374400&stime=1746460800&ctime=1746460800&date=2025-05-05&k=&num=50&page=1&r=0.4315126633969012&callback=jQuery111209184950013789029_1747390433128&_=1747390433138 这就是真正的后端请求以下代码来自知乎文章。这个就是滚动新闻当天最新时刻的请求。lid填入不同的数字，相当于底下勾选不同的类型新闻。r可能是随机数。 base_url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid={}&k=&num=50&page={}&r={}' # "2509": "全部", # "2510": "国内", # "2511": "国际", # "2669": "社会", # "2512": "体育", # "2513": "娱乐", # "2514": "军事", # "2515": "科技", # "2516": "财经", # "2517": "股市", # "2518": "美股", # "2968": "国内_国际", # "2970": "国内_社会", # "2972": "国际_社会", # "2974": "国内国际社会" 如果要爬取指定日期，根据我们得到的请求格式，多了etime、stime、ctime、date这几个参数其中，etime、stime、ctime是unix时间戳。先用硬编码的链接，看看这样的请求能否得到一个和网页内容对应的返回内容。 url="https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2516&etime=1725984000&stime=1726070400&ctime=1726070400&date=2024-09-11&k=&num=50&page=2&r=0.08198643836947861&callback=jQuery111209184950013789029_1747390433128&_=1747390433139" response = requests.get(url, headers=headers, timeout=15) response是得到的响应。得到响应后，首先要根据状态判断是否正常收到了响应。这个响应有可能是html，有可能是json。要对响应内容进行解析。根据响应的内容类型（HTML、JSON、XML 等）进行解析。 ...

转载视频流程

从管上转载视频所使用的工具和问题记录视频下载视频下载需要使用在线工具进行解码下载。在线工具解码后的下载链接有的只能用浏览器下载，无法用idm下载。字幕的制作通过downsub来下载原生字幕的srt文件。https://downsub.com/,通过原视频链接可以下载srt字幕。字幕用大模型来完成翻译。kimi上下文支持长，可以用kimi。翻译后的字幕复制粘贴进新文件，保存为srt，但是这个文件导入剪映很可能识别不出来，不管怎么改。应该直接传到在线字幕编辑器，比如https://huiyingzimu.com/srt-editor/，重新保存为srt文件下载下来，这一版字幕文件就可以被剪映识别。

维护参考内容

如何更新网站更新流程为不出意外，需要严格按照以下流程：先确保在项目文件夹里。依次运行下面命令。 rm -rf public hugo -D sudo rm -rf /var/www/blog/* sudo cp -r public/* /var/www/blog/ 就可以完成网站的更新。细节描述使用hugo生成的网站就在public文件夹里面，把public文件夹里的内容替换到/var/www/blog里面即可完成更新。/var/www/blog是nginx的站点配置文件里面设置的网站所在位置。配置文件在/etc/nginx/sites-enabled/default ，里面root /var/www/blog;这一句就是设置网站所在的目录。如果改变这个路径，就会切换成别的网站。需要注意hugo server命令生成的网站里所有的链接都是以localhost:1313为baseurl的，这个网站发布到云服务器自然是访问有bug的。因此每次要发布网站，必须先删掉已有的public文件夹，用hugo命令重新生成一次网站。并且当有草稿文章需要发布的时候，得用hugo -D命令，不然草稿会被忽略。如何把网站替换成别的网站可以直接修改站点配置文件配置文件/etc/nginx/sites-enabled/default 里面root /var/www/blog;这一句，把路径改成其他网站的目录就可以了。 CDN更新 g0at.icu这个链接是设置了cdn分发的，服务器更新完网站之后，这个链接的网站不会立即更新，要到阿里云cdn服务台刷新缓存。

My Third Post

asdasdadsad sdaasdada $$\alpha = 2 + 3x - \frac{2}{3_f}$$

My Second Post

测试这是一个测试 3 这是测试啊大苏打大苏打

My First Post

如何自定义icon 可以参考这个链接如何改图片的边框（椭圆改方形）这个是根据对应的css去改。例如要把profile页的图片从椭圆改成方形，就到主题的assets/css/common里面，里面有各种类型的css，到profile-mode.css找到 img的border-radius进行修改，本来是50%椭圆形，改成了0就方形了。