- Регистрация
- 09.10.2015
- Сообщения
- 3 916
- Благодарностей
- 3 867
- Баллы
- 113
Есть какой-то такой текст (результат парсинга):
Вначале думал матчить регуляркой
Может быть у кого-то есть мысли или кто-то знает как определять такие тексты, чтоб не использовать их при парсинге?
Или даже такой:�����������7(@f��������ZFB�`fn=��<����i�����Z�FX[��U��{�{Fuy�]�baaaccU/3��~�q�ɪ��`0�:#RQ��B;�����|�G��1#s��/�������S�#���i��;���|���_c�[�lY7�%a~;�����. �_c�[�l�d���=ns\�uq�8����<����;���y<3? ��-A�, �[�K�����nj]�q:E{���p�oS���OO� ���)����܍'6. ��Nc�s2�˶mb�q �vv�. ����. �MW���߶D���}Ѽ|g^��ӄ]�̅oq6e�┓�0�X�Ĕ��? e��cS�\�0�v�$�H�\tO�@�|�Ƣ|��[�����X�7~��gB�q�F�]�N, �OLo�J�J��t������;��W�'��! ز�o�3~, ������w��)]Ҁ"�i(kj˹-_U]���w����{�>�����ճ�u�{�Ҹf���Qn��_��! �? �M�H�^F, �z���f���}s���? �۸meT������@���! _LF���N>�/�4�Փ��#�_j@\;2G$p��ݞ�v���y����#Q�6�X�K�lp��a%���K�����Q��m�ڻ��V_kx\+��-�I��qJe1���nT��Ca������Լ\��6�%X�(����MH! ����Ͽ������? l�y\[��p���d�e\n{�}��2�@��Sg���� �
Хочется придумать универсальный алгоритм, который сможет с высокой долей вероятности сказать что перед нами нормальный текст или крякозябры.PGlmcmFtZSB3aWR0aD0iNTYwIiBoZWlnaHQ9IjMxNSIgc3JjPSIvL2FwaS5jdWV2YW5hMy5pby9yci9nZC5waHA/aD1lazVsYm05eFlXTnJTMHhKTVZwNWIyMUtSRWswZEZCTGJqVmthSGhrUkdkck9HMWpibkJwVW5oaFMxWnNiMlZzV25KbE5IWktkVmx4WVVOdmNuSlVUWEEzVDJOd2NGTlRkV1EyTkhreVQyeG9OMkZUTW1SeFUzRmFkVmt5VVQwOSIgYWxsb3dmdWxsc2NyZWVuPjwvaWZyYW1lPg==
Вначале думал матчить регуляркой
[\w]+
, а потом проверять среднюю длину найденных результатов, но на коротких текстах скорее всего зафейлится.Может быть у кого-то есть мысли или кто-то знает как определять такие тексты, чтоб не использовать их при парсинге?
Последнее редактирование: